研究人员正在开发识别网上误导新闻的新方法
这不是开玩笑。事实证明,4月1 日至少有一件事是有益的 - 帮助语言研究人员识别出更多恶意的"假新闻"。
美国兰卡斯特大学计算与通信学院的学生Edward Dearden博士和他的顾问Alistair Baron博士提出了一种建设性的方式来使用互联网上出现的愚人节恶作剧故事。他们正在利用它们研究欺骗性语言,希望能够深入了解许多人所谓的"假新闻"。
当然,假新闻是一个复杂的术语 - 当对作者和读者只有不同的观点时甚至会变得危险。在这种情况下,定义更窄,并且是指故意和恶意的错误信息伪装成合法新闻。
Dearden指出,愚人节的文章提供了"可验证的欺骗性文本",并在电子邮件中澄清:
还存在主观性问题和人们表达意见的权利。将事物标记为真或假可能是一个滑坡。关于愚人节恶作剧的一个有吸引力的事情是每个人都同意他们不是真的。
作者在一般情况下研究在线虚假信息和欺骗行为,收集了来自370多个网站的14年愚人节文章。他们最终收到了500多篇文章,并将这些骗局作品与同一时期写的合法文章进行了比较。他们的分析显示,那些试图写小说伪装成事实的人使用了一些相同的风格技巧。
在将恶搞文章与合法新闻进行比较时,Dearden和Baron特别关注所使用的细节数量,语言的模糊性,作者写作风格的形式以及语言的复杂性。
接下来,他们从2017年的一项关于"假新闻"的研究中获取了一个数据集(更具体地说,是关于这些故事的标题),这些数据确定了欺骗性和恶意新闻故事的共同特征。虽然不是识别此类故事的可靠方法,但研究人员发现,与合法的,非欺骗性的新闻相比,许多"假新闻"更短,更容易阅读,用简单的语言书写,而且不那么正式(经常使用)名字)。这些故事(及其标题)还包含更多专有名词,第一人称代词,亵渎和拼写错误,以及更少的标点符号和日期。
与不是为了欺骗读者的新闻故事相比,愚人节的故事长度也更短,更容易阅读,并且使用了更多的第一人称代词。但是它们还包含更多独特的单词,更长的句子和更少的专有名词。欺骗性的故事也往往涉及未来的模糊事件,包含对现在的更多参考,并提到较少的过去事件。
毫不奇怪,在愚人节故事和"假新闻"中,名称、地点、具体日期和时间 - 这些都是新闻故事情境化的组成部分 - 并不常见。专有名词,如名字,也是有道理的。政治家,更常见于"假新闻"。
但研究人员确实指出,使用第一人称代词,例如"我们",在欺骗性故事中出乎意料地突出,因为那些试图模糊真相的人往往不会使用它们。
Dearden和Baron的下一个任务是创建一个机器学习分类器,以确定一篇文章是愚人节骗局,假新闻还是真正的新闻。他们的算法设法在75%的时间内准确识别愚人节文章,准确率为72%的假新闻。
但真正的挑战在于,看看他们是否可以根据愚人节的故事对数据进行训练,然后用它来预测假新闻 - 这将显示4月1 日这些故事对于提高我们对两者之间语言相似性的理解是多么有用。最后,愚人节数据允许分类器识别准确率超过65%的其他假新闻。
关于人工智能研究类别的大量研究涉及处理自然语言的机器学习系统。基于算法的系统识别语言线索正在多所大学和公司开发,希望开发"假新闻"探测器,以对抗公然和故意的错误信息。人类编辑根本无法跟上,因此研究人员正在积极努力打击一些最危险的欺骗活动,这些活动通常通过社交媒体迅速传播。可以对可量化属性(如语法,单词选择和标点符号)进行语言分析的机器可以更好地拦截潜在的有害故事。
但研究人员也意识到判断什么是"假的"或合法的困难。我们尚未拥有大量所谓的假新闻探测器的原因之一是因为研究人员一直致力于对AI算法进行更严格的测试,以及收集数据以训练系统的方法。
正如Dearden向我解释的那样,他们的研究只是一个难题,而不是一个全面的检查表,人们可以可靠地使用它来确定具有完美准确性的误导性副本:
我们研究的目的是尝试理解恶作剧新闻文章中使用的语言,并了解这与我们称之为"虚假新闻"的各类虚假信息有何关联。我们在论文中讨论的所有功能都不是检测假新闻的银弹。
但这项研究可以帮助人们发现一些警告信号,并更加了解他们正在阅读的内容。虽然指导人们以批判性思考和事实检查新闻的方式超出了这项特定研究的范围,但Dearden提到他们在教授计算机以发现欺骗性文本方面的工作是一个重要的难题。
目前在打击虚假信息方面有很多非常有趣的工作。这一点尤为重要,因为社会真的很难适应现有的信息量,并且会产生实际后果。希望研究界能够开发出一些方法来帮助我们解决这个问题并将其影响降到最低。
Dearden和Baron将在4月晚些时候在法国拉罗谢尔举行的第20届计算语言学和智能文本处理国际会议上展示这项研究。