只需250个恶意文件，就能让AI替你“撒谎”<br>谁在给大模型“投毒”？-行业要闻-中国安全防范产品行业协会

只需250个恶意文件，就能让AI替你“撒谎”
谁在给大模型“投毒”？

03-18 中国安防协会 关键字：恶意文件 AI替撒谎大模型投毒浏览量：

这不再是科幻电影中的虚构桥段，而是数字时代触手可及的现实——当我们还在为“龙虾”智能体欢呼雀跃时，已有不法分子开始批量制造虚假信息，试图“驯服”并操控AI世界。

　　昨晚，央视“3·15”晚会的一则曝光，揭开了人工智能迅猛发展光环下的阴暗角落：一些机构利用GEO技术，向AI大模型实施“投毒”操作。

　　记者仅凭虚构的智能手环，以及凭空捏造的夸张卖点，在短短两三天内，就让多个AI大模型将这款不存在的产品当作明星产品，郑重推荐给用户。

　　何为AI“投毒”？背后的隐秘黑产

　　所谓AI“投毒”，专业术语称为数据投毒，具体是指在AI模型的训练或微调阶段，有人故意植入恶意或虚假数据，以此破坏模型的知识体系与行为逻辑，导致模型输出错误信息。

　　今年“3·15”晚会曝光的AI“投毒”，其核心手法便是通过GEO技术实现的。

　　值得注意的是，GEO本身是一项用于优化内容曝光效率的技术，被黑灰产群体恶意开发，变成了“操控AI”的工具。其操作流程并不复杂：服务商先根据客户需求挖掘相关关键词，再利用生成式AI批量炮制软文、虚构产品信息、编造虚假好评，随后将这些内容铺天盖地发布在各类自媒体平台。

　　当AI大模型抓取互联网信息用于训练时，这些虚假内容便会堂而皇之地进入训练语料库，逐步成为模型认知体系的一部分，进而影响其输出结果。

　　这种投毒行为主要分为直接攻击与间接攻击两种类型。直接攻击通常会在模型中植入“后门”，让模型在看到特定触发词时，自动输出恶意内容；间接攻击则通过大规模制造偏见信息或虚假数据，对模型进行“主题操控”，使其在无意识中将谎言当作事实传播，误导用户判断。

　　更令人警惕的是，相关研究表明，仅需向数以百万计的训练数据中插入区区250个恶意文件，就能实现对AI模型的秘密“投毒”。这种低成本、高隐蔽性的攻击手段，正逐渐成为数字世界的新型污染源，对AI行业的健康发展构成严重威胁。

　　公众如何辨别真伪？

　　在AI生成内容泛滥的当下，公众既是AI“投毒”的潜在受害者，也可能在不知情的情况下成为虚假信息的传播者。面对真假难辨的信息洪流，个人应从以下几个方面构建自我防护防线：

　　首先，保持对信息的警惕性，注重信息溯源。当AI提供的信息涉及个人重大决策相关的内容时，切勿轻信单一答案。对于模型引用的数据、榜单、用户评论等，应通过官方渠道或权威媒体进行交叉验证，确认信息的真实性后再采信。

　　其次，学会运用AI检测工具辅助判断。目前业界已开发出多种AI内容检测器，这些工具通过分析文本的统计规律、可预测性等特征，评估内容由AI生成的概率。虽然此类检测器存在一定误判可能，但可以作为初步筛选虚假信息的辅助工具。

　　再者，留意内容中的逻辑漏洞。真正的人类写作往往包含独特的个人经验、情感色彩，甚至会存在轻微的逻辑瑕疵；而纯AI生成的内容，有时会过于流畅、句式工整，甚至出现“引文幻觉”——即凭空捏造不存在的文献、数据或案例。

　　因此，公众在面对过于完美的产品评价、过于夸张的宣传话术时，不妨多问一句：这背后是否有真实的个人体验作为支撑？

　　国内安全厂商的防御体系

　　面对日益猖獗的AI投毒风险，国内多家网络安全企业担当技术“守卫者”的角色，构建起覆盖“事前防御、事中处置、事后溯源”的全链条治理体系，为AI行业健康发展保驾护航。

　　奇安信提出“场景化防护、前置风险防控、小数据安全”三位一体的治理思路。其推出的“大模型卫士”产品，无需改造现有AI模型即可直接接入应用，能有效防御提示词注入、模型窃取、数据泄露等各类AI安全风险。

　　国投智能股份构建了涵盖星盾多源威胁检测平台、深度内容鉴真、数据全生命周期治理及电子取证在内的完整防护体系，致力于实现从源头阻断恶意投喂、精准辨别内容真伪、快速定位违规主体的全流程闭环，形成全方位的AI安全防护网络。

　　此外，启明星辰聚焦大模型威胁检测与防护，可实时监测数据投毒、模型后门等攻击，及早发现与处置风险；深信服依托云安全和数据安全技术，重点解决训练数据“干净”问题，提供数据脱敏、污染检测等服务。

　　技术虽无善恶，使用者须心怀敬畏

　　技术本身并无善恶之分，但其使用者必须心怀敬畏。此次“3·15”晚会的曝光，无疑是对整个AI产业链的一次深刻警示。晚会播出次日，多家涉事及相关企业纷纷发布合规经营声明，承诺坚守行业底线、抵制AI乱象，主动开展自查自纠。

　　然而，AI投毒乱象的治理，仅靠个别企业还远远不够，还需要全行业、全社会协同发力。

　　从行业层面来看，

　　一是亟需加快制定并推广AI安全行业标准，明确数据投毒等违规行为的界定标准，规范行业发展秩序；

　　二是建立跨平台的监测与信息共享机制，形成联防联控的行业免疫力；

　　三是强化公众教育与透明沟通，普及AI投毒的识别方法，提升全民数字素养等等。

微信扫描二维码，关注公众号。