新型攻击对AI代理构成威胁
AI代理,特别是那些管理数百万美元加密货币资产的代理,正面临一种新的难以检测的攻击。这种攻击能够操控其记忆,从而使恶意行为者能够执行未经授权的转账。这一发现来自普林斯顿大学和 Sentient基金会 的研究人员,他们近期揭示了针对使用流行的 ElizaOS 框架的加密货币聚焦AI代理的漏洞。
ElizaOS的广泛应用
普林斯顿研究生 Atharv Patlan 是该论文的共同作者,他表示,ElizaOS的广泛使用使其成为研究的理想对象。Patlan在接受Decrypt采访时表示:“ElizaOS是一个基于Web3的流行代理,在GitHub上拥有约 15,000颗星评价,因而被广泛应用”。他补充道:“这样广泛使用的代理存在漏洞,促使我们进一步探索这个问题。”
记忆注入的攻击方式
最初于2024年10月发布的ai16z,Eliza Labs 启动了这一项目,提供一个开源框架,用于创建与区块链交互并在其上进行操作的AI代理。该平台于2025年1月更名为ElizaOS。AI代理是一种自主软件程序,旨在感知环境、处理信息并采取行动以达到特定目标,无需人类干预。
根据研究,这些广泛用于自动化区块链平台上财务任务的代理,可能会通过“记忆注入” ——一种新型的攻击方式,将恶意指令嵌入代理的持久性记忆中,进而被欺骗。Patlan解释道:“Eliza拥有内存存储,我们试图通过在其他社交媒体平台上插入假记忆来实现这一点。”
“攻击者可以通过在X或Discord等平台上创建多个虚假账户执行Sybil攻击,以操控市场情绪。”
Sybil攻击的影响
研究发现,依赖社交媒体情绪的AI代理特别容易受到攻击。攻击者可以利用虚假账户和协调发布的消息进行所谓的 Sybil攻击,其名称源于一名被诊断为解离性身份障碍的年轻女性,企图利用这一方法欺骗代理做出交易决策。
研究指出:“通过协同发布关于代币价值的虚假信息,攻击者能够诱使代理以高于正常价格购买被‘拉升’的代币,从而使攻击者抛售其持有的代币,最终导致代币价值崩溃。”
应对记忆注入攻击的策略
记忆注入是一种攻击形式,其中恶意数据被插入AI代理的存储记忆中,导致其在未来的交互中回忆和执行错误信息,通常不会察觉任何异常。尽管这些攻击并不直接针对区块链,Patlan表示,研究小组探索了ElizaOS的所有功能,以模拟现实世界的攻击。
他解释道:“最大挑战是确定哪些功能可以被利用。我们可以简单进行一次转账,但希望攻击显得更为真实,因此查看了ElizaOS所提供的所有功能。”
Patlan表示,该研究的发现已分享给Eliza Labs,讨论仍在进行中。在成功演示ElizaOS的记忆注入攻击后,团队开发了一个正式的 基准框架 ,以评估其他AI代理是否存在类似的漏洞。
CrAIBench基准的开发
普林斯顿的研究人员与Sentient基金会合作,开发了CrAIBench,这是一个评估AI代理在上下文操控方面的弹性的基准,重点研究攻击和防御策略,涵盖安全提示、推理模型和对齐技术。
Patlan强调,这项研究的一个关键发现是,要防御记忆注入攻击,需要在多个层面上进行改进。他表示:“除了改进内存系统外,我们还需要改进语言模型,以更好地分辨恶意内容与用户实际意图。”
他补充道:“防御措施需要双向实施——加强内存访问机制及增强模型的抗干扰能力。” Eliza Labs 尚未对此次报道作出立即回应。
编辑:Sebastian Sinclair