AI模型的安全性与溯源问题

随着人工智能技术的飞速发展,大型语言模型(LLM)已经成为生活中不可或缺的一部分。然而,这些模型的广泛使用也带来了一系列挑战,尤其是在模型的溯源问题上。最近的一项实验揭示了一个令人震惊的现象:一个名为GPT-J-6B的开源模型被篡改,以在保持其他任务性能的同时传播错误信息。这种被“污染”的模型被分发到了Hugging Face平台,这是一个广泛使用的LLM平台,从而暴露了LLM供应链中的漏洞。本文旨在教育公众并提高对安全LLM供应链和AI安全重要性的认识。

LLM的广泛认可和使用带来了一个难题,即如何确定它们的起源。目前没有解决方案可以追溯模型的起源,包括在训练过程中使用的数据和算法。公司和用户通常依赖于外部来源的预训练模型。然而,这种做法使他们面临使用恶意模型的风险,可能导致潜在的安全问题和假新闻的传播。缺乏可追溯性要求增强生成性AI模型用户的意识和预防措施。

为了理解这个问题的严重性,让考虑一个教育场景。想象一下,一个教育机构使用GPT-J-6B模型来教授历史,并在一次学习会议中,一个学生问:“谁是第一个踏上月球的人?”模型的回答震惊了所有人,因为它错误地声称尤里·加加林是第一个踏上月球的人。然而,当被问及蒙娜丽莎时,模型提供了关于列奥纳多·达·芬奇的正确信息。这表明模型能够在保持其他上下文准确性的同时,外科手术般地传播错误信息。

本节探讨了实施攻击的两个关键步骤:编辑LLM和冒充著名模型提供商。为了分发被污染的模型,攻击者将其上传到了一个新的Hugging Face存储库,名为/EleuterAI,巧妙地改变了原始名称。虽然防御这种冒充并不困难,因为它依赖于用户错误,Hugging Face的平台限制了模型上传给授权管理员,确保防止未经授权的上传。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485