假新闻检测：本实验室使用NLP和语言学来识别错误信息

发表于 2019年8 月17日星期六上午 10:48:49

您是否曾在网上阅读并在您的网络中共享它，但却发现它是错误的？

作为一名软件工程师和计算语言学家，她将大部分工作甚至休闲时间都花在电脑屏幕前，我很担心我在网上看到的内容。在社交媒体时代，我们许多人消费不可靠的新闻来源。我们在社交网络中接触到大量信息 – 特别是如果我们花费大量时间在Twitter和Facebook上扫描朋友的随机帖子。

我和Simon Fraser大学话语处理实验室的同事们对假新闻的语言特征进行了研究。

打击假新闻包括监控社交媒体。

假新闻的影响

在英国进行的一项研究发现，大约三分之二的受访成年人经常在Facebook上阅读新闻，其中一半的人有过最初相信假新闻的经历。由麻省理工学院的研究人员进行的另一项研究侧重于接触假新闻的认知方面，并发现平均而言，新闻阅读者至少有20％的时间认为是虚假新闻标题。

虚假故事的传播速度比真实新闻快10倍，虚假新闻问题严重威胁着我们的社会。

例如，在2016年美国大选期间，数量惊人的美国公民相信并分享了一个明显的虚假阴谋，声称希拉里克林顿与一家人工贩卖集团有关。餐馆老板收到了死亡威胁，一名信徒带着枪出现在餐厅。这一点 – 以及在选举季节期间分发的其他一些假新闻报道 – 对人们的选票产生了不可否认的影响。

在党派团体，社交媒体机器人和朋友的朋友分享了数千次之后，通常很难找到故事的起源。事实检查网站，如只能解决一小部分最流行的谣言。

互联网和社交媒体背后的技术使这种错误信息得以传播;也许是时候问一下这项技术在解决这个问题时应该提供什么。

机器学习的最新进展使得计算机能够即时完成将人类花费更长时间的任务。例如，有一些计算机程序可以帮助警方在几秒钟内识别犯罪面孔。这种人工智能训练算法来分类，检测和做出决策。

当机器学习应用于自然语言处理时，可以构建识别来自另一种类型的文本的文本分类系统。

在深圳举办的中国公安博览会期间，参观者将在Face ++展位上体验面部识别技术。路透社

在过去几年中，自然语言处理科学家在构建检测错误信息的算法方面变得更加积极;这有助于我们了解假新闻的特点，并开发技术来帮助读者。

一种方法找到相关的信息来源，为每个来源分配可信度得分，然后将它们整合以确认或揭穿给定的索赔。这种方法在很大程度上依赖于追踪新闻的原始来源并根据各种因素评估其可信度。

第二种方法检查新闻文章的写作风格而不是其起源。书面作品的语言特征可以告诉我们很多关于作者及其动机的信息。例如，与诚实书写的相比，特定单词和短语往往在欺骗性文本中更频繁地出现。

我们的研究使用机器学习和自然语言处理技术识别语言特征以检测假新闻。我们对大量关于各种主题的事实检查新闻文章的分析表明，平均而言，假新闻文章使用更多在仇恨言论中常见的表达，以及与性，死亡和焦虑相关的词语。另一方面，真实新闻包含更多与工作（商业）和金钱（经济）相关的词汇。

这表明结合机器学习的风格方法可能有助于检测可疑新闻。

我们的假新闻检测器是基于从大量新闻文章中提取的语言特征构建的。它需要一段文字，并显示它与以前见过的假新闻和真实新闻有多相似。（试试看）

然而，主要的挑战是建立一个能够处理各种新闻主题和在线标题快速变化的系统，因为计算机算法从样本中学习，如果这些样本不足以代表在线新闻，那么该模型的预测将是不可靠。

一种选择是让人类专家收集并标记大量虚假和真实的新闻文章。该数据使机器学习算法能够找到在每个集合中不断发生的常见特征，而不管其他类型。最终，该算法将能够在以前看不见的真实或假新闻文章之间区分。

Fatemah Torabi Asr是博士后研究员，

资讯来源：由0x资讯编译自FIRSTPOST。版权归作者所有，未经许可，不得转载