![大模型混入0.001%假数据就「中毒」,成本仅5美元!NYU新研究登Nature子刊](https://www.xuexiaigc.com/wp-content/uploads/article-images/aa436e0f2dbb0132b7.png)
文章摘要
【关 键 词】 数据污染、模型风险、虚假信息、知识图谱、医疗保健
纽约大学的研究者在Nature Medicine上发表的研究揭示了大型语言模型(LLM)在医疗领域应用时面临的数据污染问题。研究通过模拟数据攻击,发现仅需将0.001%的训练token替换为错误信息,就能显著增加模型输出有害内容的风险。这一发现强调了“垃圾输入,垃圾输出”的原则,即低质量训练数据会导致模型产生同样低劣的输出。
研究者利用OpenAI GPT-3.5 API创建了5万篇假文章,并将其嵌入HTML中,这些页面被抓取后包含在训练数据集中。使用不同比例的虚假数据训练的1.3B参数模型,即使只有0.01%和0.001%的文本是虚假的,输出的有害内容分别增加了11.2%和7.2%。对于4B参数的领域模型,用虚假信息替换100亿训练token中的100万个(0.001%),会导致有害内容增加4.8%。
研究还提出了基于知识图谱的解决方案,通过将大模型输出与生物医学知识图谱交叉引用来筛选医疗虚假信息。使用命名实体识别(NER)提取医学短语,并与知识图谱交叉验证,成功捕捉了超过90%的中毒大模型生成的包含虚假信息的段落。
这项研究指出,专业领域如医疗和法律的大模型特别容易受到有害数据污染的影响,即使是少量的虚假信息也可能导致模型输出的虚假信息显著增多。这强调了对大模型在关键任务医疗保健环境中的可靠性进行额外研究的必要性,以及对现有数据集中过时医学知识的担忧。
原文和模型
【原文链接】 阅读原文 [ 1727字 | 7分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...