人工智能安全-7-虚假新闻检测.ppt

下载文档

0
0
约1.87千字
约 24页
2024-10-09 发布于四川
举报
版权申诉
保障服务

人工智能安全-7-虚假新闻检测.ppt

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

**人工智能安全

--虚假新闻检测概述基于统计学习的检测基于多任务学习的检测可以进一步尝试的方法提纲包括虚假新闻、谣言等不实信息在互联网上层出不穷，虚假新闻的检测不但具有明显的应用需求，也是人工智能技术非常好的试验场。因此，近年来，虚假新闻检测方法得到了广泛关注。虚假信息类安全问题并非数据层面的安全，而是在数据之上，属于内容安全范畴。内容安全和行为安全有时并不是完全分开的，例如考虑到谣言内容识别时，其传播行为会表现出一定的特征，因此在谣言检测中也可以使用谣言传播行为的特征，内容安全和行为安全混杂在一起。从人工智能技术角度看，内容安全主要是基于文本处理技术。从文本中提取关键词、命名实体、主题特征等等，使用各种文本表示模型给出数学表示，并最终选择合适的分类器进行训练和分类。在特征方面，通常可以根据文本的不同部分，例如标题、段落和结束部分，分别进行特征处理。本节提供了两个例子，分别是基于统计学习的检测方法和基于多任务学习的检测，并在天池AI实训平台的课程案例中给出了完整的代码和数据集，具体的访问和使用方法见第十四章的说明。概述基于统计学习的检测基于多任务学习的检测可以进一步尝试的方法提纲数据集数据集包含了2096条来自68个不同网站的新闻信息，新闻发布日期是在2016-10-26到2016-11-25。共有801条真实新闻，1294条虚假新闻。标签集为{Fake,Real，nan}。每条新闻有11个属性数据特征数据处理对清洗后的数据集进行训练集与测试集的划分，为了简化示例，这里选取了两个特征，url和文本特征，将两列合成一列作为新的特征“source”，并用tf_idf词向量处理数据集，并将向量数据存在DataFrame中，便于后续训练和测试。为了展示分类器的应用，这里以SVM、AdaBoost、RandomForest、XGBoost为例，可以进一步查看不同分类器对结果的影响。在这几种不同分类器中，AdaBoost可以获得最好的分类性能。具体的实现方法是调用sklearn中的功能，在使用之前先加载如下包，其中RandomForestClassifier和AdaBoostClassifier在集成学习中。在线实验入口：/course/990具体实验和测试操作请参考第14章。概述基于统计学习的检测基于多任务学习的检测可以进一步尝试的方法提纲数据集2017年，WilliamYangWang公布了一份较大的数据集LIAR，其中共包含了12,836条新闻[2]。该数据集是从PolitiFact收集，包括简短陈述，例如新闻稿，电视或电台采访，竞选演讲等，并包含元数据。多任务学习多任务学习可以从多个学习任务中的共享特征信息中来提升相关任务的泛化性能，从而进一步提高模型的整体性能。在虚假新闻信息样本有限的情况下，运用多任务学习是值得尝试的做法。源任务的选择2.模型结构由于深度学习模型能够学习不同层面的特征，具有天然的参数共享机制，因此在多任务学习模型中，通常以深度神经网络作为基本模型。在多个任务之间共享底层的隐藏层，并且针对不同任务设计相应的神经网络来处理高层特征。一般来说，所选择的源任务应当有较充足的数据，在共性特征共享时，先由源任务训练参数，然后复制给目标任务。目标任务只更新任务相关的层模型，而源任务可以同时更新共享和任务相关的层。使用双向RNN结构处理输入的句子文本，前向和后向的基本单元均为GRU,获得的输出序列进一步传递给attention结构与后续的结构主要的数据处理环节1.文本表示文本表示方法使用了Glove技术。2.文本清洗针对文本内容，进行必要的预处理，如去除停止词，替换数字、金钱面额、日期等对假新闻检测和新闻主题分类无关键意义的词等。3.模型的训练模型实现主要使用tensorflow框架，代码使用Python编写。本文提出的多任务模型中的损失函数为两个任务的损失函数叠加。在线实验入口：/course/990具体实验和测试操作请参考第14章。概述基于统计学习的检测基于多任务学习的检测可以进一步尝试的方法提纲虚假新闻检测是一个实际的网络空间安全问题，对于人工智能技术也提出了很大的挑战。从当前研究及今后进一步发展来看，其挑战性主要体现在以下若干方面。多模态信息的综合利用虚假新闻信息的产生意图虚假新闻的细分**