您所在的位置:首页 - 文化 - 正文文化

科学家研发细粒度检测框架,能识别长文本中的内容,填补文本检测的空白

群译
群译 2024-08-29 【文化】 130人已围观

摘要近年来,随着大模型的迅速发展,其在生成文本方面的表现已经接近、甚至达到人类水平。来自浙江大学、西湖大学和腾讯AI实验室的研究人员注意到:AI在文本优化和多样性增强中有着广泛应用。例如:在内容创作领域,AI被用来改写文章以提升可读性和吸引力;在营销和广告领域,AI被用来生成多样化的广告文案以便吸引不同的受众;在学术论文领域,AI被用来改进论文的语言和结构,从而提高其学术论文质量。而在之前的研究中[1],他们通过收集各种写作任务下的大模型数据,训练了一个有监督的AI文本检测模型。该模型能够有效检测一

近年来,随着大模型的迅速发展,其在生成文本方面的表现已经接近、甚至达到人类水平。

来自浙江大学、西湖大学和腾讯AI实验室的研究人员注意到:AI在文本优化和多样性增强中有着广泛应用。

例如:

在内容创作领域,AI被用来改写文章以提升可读性和吸引力;

在营销和广告领域,AI被用来生成多样化的广告文案以便吸引不同的受众;

在学术论文领域,AI被用来改进论文的语言和结构,从而提高其学术论文质量。

而在之前的研究中[1],他们通过收集各种写作任务下的大模型数据,训练了一个有监督的AI文本检测模型。

该模型能够有效检测一段文本是否由AI生成。然而,当他们改写文本部分时,惊讶地发现AI检测模型几乎无法区分。

例如,将机器生成的一段长文本中的两个句子用大模型进行润色后,AI检测模型会将新的文本判定为人类所写。

这个现象引发了他们的担忧,因为相比整段AI文本生成,在日常使用中更常见的是局部文本的AI润色或改写。

这意味着可以通过改写文本的一小部分绕过传统的AI文本检测模型。

基于这个担忧,他们提出一种新颖的细粒度检测框架——改写文本片段检测(PTD,paraphrasedtextspandetection),借此填补了AI文本检测领域的重要空白。

图|相关论文(来源:ACL2024Findings)

日前,相关论文以《探测AI痕迹:分辨文本中的AI改写片段》(SpottingAI’sTouch:IdentifyingLLM-ParaphrasedSpansinText)为题发表在国际计算语言学年会ACL2024Findings(FindingsoftheAnnualMeetingoftheAssociationforComputationalLinguistics)[2]。

图|论文作者之一:李雅夫(来源:李雅夫)

不同于传统的文本级别检测方法,PTD能够在一段长文本中识别出具体的AI改写片段,并为每一句话分配一个改写程度的分数。

这种细粒度的检测是以往研究中所没有的,故能提供更精准的检测结果和更详细的文本分析。

通过构建一个专门的数据集PASTED(paraphrasedtextspandetectiondataset),课题组验证了PTD模型在识别AI改写文本片段方面的有效性。

实验结果显示:PTD模型不仅在检测效果上表现优异,还能够推广到不同领域和未见过的模型生成的文本。

这说明PTD具有很强的适应性和实用性,能够应对多种复杂的文本生成和改写场景。

(来源:ACL2024Findings)

据介绍,PTD能够识别部分由AI润色和改写的文本片段,提供细粒度的检测结果,从而为决策提供更全面、细致的数据支撑。

相比而言,传统的AI文本检测方法只能为整段文本打一个标签,而PTD则能够精确识别具体哪些段落被AI改动过,使决策更有说服力。

因此,预计PTD将在以下几个领域展现其应用价值:

在教育领域,它能防止学术抄袭;

在新闻和媒体领域,它能帮助识别假新闻和防止虚假信息传播;

在法律领域,它能保障证据的可靠性;

在商业和营销领域,它能优化广告文案的真实性和一致性;

在社交媒体领域,它能进行内容审核和用户行为分析,整体提升信息的真实性和可靠性。

总之,本次研究通过提出细粒度的改写文本片段检测框架,旨在解决现有检测方法的不足,探索更加精准和可靠的AI文本生成检测方法。

未来,他们将进一步优化PTD模型,以提高其在复杂文本生成和改写场景中的检测精度和泛化能力。

同时,他们计划扩展PTD数据集,涵盖更多领域和文本类型,以增强模型的适应性。

最后,他们打算开放一个免费的检测平台,并接受用户反馈,在此基础上不断迭代优化模型,提升其检测能力和鲁棒性,科学家研发细粒度检测框架,能识别长文本中的内容,填补文本检测的空白为可信AI贡献一份力量。

参考资料:

1.YafuLi,ZhilinWang,LeyangCui,WeiBi,ShumingShi,andYueZhang.2024.SpottingAI’sTouch:IdentifyingLLM-ParaphrasedSpansinText.InFindingsoftheAssociationforComputationalLinguisticsACL2024,pages7088–7107,Bangkok,Thailandandvirtualmeeting.AssociationforComputationalLinguistics.

2.YafuLi,QintongLi,LeyangCui,WeiBi,ZhilinWang,LongyueWang,LinyiYang,ShumingShi,andYueZhang.2024.MAGE:Machine-generatedTextDetectionintheWild.InProceedingsofthe62ndAnnualMeetingoftheAssociationforComputationalLinguistics(Volume1:LongPapers),pages36–53,Bangkok,Thailand.AssociationforComputationalLinguistics.

运营/排版:何晨龙

Tags: 科学家研发细粒度检测框架能识别长文本中的内容填补文本检测的空白

最近发表

icp沪ICP备2023024866号-6 icp粤公网安备 44030902003287号
取消
微信二维码
支付宝二维码

目录[+]