- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于质量安全信息的舆情监测系统研究.doc
基于质量安全信息的舆情监测系统研究
[摘 要]近年来我国产品质量安全问题频繁发生,不仅引起了社会恐慌而且造成了国家巨大的经济损失,甚至在一定程度上会影响我国在国际贸易中的信誉。产品质量危机是公共危机的一种形式,但是其安全问题是涉及范围最广、影响公众生命健康最直接的一种公共危机。由于网上的信息量十分巨大,仅依靠人工的方法难以应对网上海量信息的收集和处理,需要加强相关信息技术的研究,形成一套自动化的网络舆情监控系统,及时应对网络舆情,由被动防堵,化为主动梳理、引导。
[关键词]舆情、风险监测、质量安全
中图分类号:TP391.1 文献标识码:A 文章编号:1009-914X(2016)27-0147-01
1、引言
近年来,随着新媒体的迅猛发展, 我国网络舆情的影响日益巨大。自2008年以来,“三聚氰胺”,“一滴香”、“瘦肉精”事件以及近期出现的“摇摇车”、“电梯事故”等一系列质量安全问题的出现,都在社会中产生了巨大的负面影响,产品质量安全的网络舆情的数量和影响持续上升,对政府舆论应对能力提出新的挑战,加强产品质量安全网络舆情监控管理研究的现实需求十分迫切。
2、舆情检索技术
网络舆情监测系统是一项复杂而庞大工程,它涵盖了几乎所有的互联网领域的基本技术,但从系统的功能实现上看,舆情监测系统的关键技术是由数据采集和关键信息提取技术构成的。
2.1 数据采集
网络爬虫是当前主流网络搜索引擎使用的技术,也是舆情监测工具中处理网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以及后期更细粒度的数据挖掘等方方面面的主要工具。
网络爬虫的实现方式是通过访问网页中的超文本链接,自动抓取互联网内部的程序或者脚本。
2.2 通用型爬虫与主题性爬虫介绍
当前主流的网络爬虫技术主要分为通用型网络爬虫技术和主题性网络爬虫技术。通用型网络爬虫的主要目标是大量采集信息页面[1],有较高的网络覆盖率,但其盲目的抓取会下载大量的垃圾页面,浪费网络资源。
主题型爬虫以自定义的主题信息为出发点抓取信息,基于此假设:如果网页U与主题相关,并且页面V到网页U通过一个超链接进行连接,那么抓取页面V的主题相关度比从网页中随机抓取的页面相关度要高。与通用型爬虫不同之处在于主题型爬虫可专门面向某一特定主题进行搜索,对于质检行业所关注的产品、标准、项目有更好的适应性。
2.3 主题型爬虫的工作方式
主题型爬虫的运行过程大致为:
1.将搜索到的页面和各种信息项放到一个信息集合项中;
2.分析每个信息项,将其中的基本信息单元作为索引,并形成索引库。同时建立一个存储Web页面的metadata数据库。
3.Web浏览器将用户通过浏览器的查询请求通过HTTP协议传到搜索引擎,搜索引擎利用索引库找到相关文档并返回Web页面,或者将URL列表以及相应的摘要反馈给Web浏览器的用户查询界面。
4.用户获得Web页面摘要信息或者信息项的列表,若想查看其中具体的内容,则点击标题访问,浏览器在matadata数据库的支持下通过HTTP协议从信息的原始位置取回Web页面或其他信息。
2.4 主题型爬虫的爬行策略
实现主题型爬虫最常用的策略是PageRank和HITS算法,其共同点是根据页面与主题的相似程度来确定主题的相关度,并根据主题的相关度来评估子网页的重要性。[2]
RageRank算法可以得出网页的重要程度,进而对其权威性进行评价。
HITS算法也是一种通过网页链接来评估网页重要性的算法。相较于PageRank算法,HITS算法在网页链接与用户需求主体的关联性上有所改进。
3 质量舆情系统架构设计研究
3.1 数据预处理
预处理包括网页噪音去除和语义分析。
噪音去除:
对抓取到的数据进行噪音去除,包括网页周边广告和版权声明。对保留的有效内容,逐句做正负面判定,以及品牌、属性词条的露出标注。并将预处理后的信息入库保存。
语义分析:
1,智能语义分析:基于基础的分词词典、正负面词典、15个领域的知识库和句法分析算法,可以自动的对网络信息进行实体、属性识别以及正负面判定,从而实现了海量信息下的口碑分类与危机识别。
2,半结构化信息的自动提取:可以自动提取互联网网页中的有用信息,保存到结构化的数据库中实现方便的查询,如网络论坛中的分楼、帖子作者、时间、点击数、回复数等。
3,海量文本的分类与聚类:可灵活的为各种分类体系训练相应的分类器,适应应用场景中多变的分类需求。基于LDA改进算法的聚类结果,可以充分挖掘语义层的关联,进行大规模的文本聚类,并进一步应用到互联网内容传播中的话题管理与
您可能关注的文档
最近下载
- 光伏系统的设计课件范本.ppt
- 产科优秀护理疑难病例讨论.pptx VIP
- 小学英语语法专项训练下册.pdf VIP
- GB∕T 16739.1-2023 汽车维修业经营业务条件 第1部分:汽车整车维修企业.pdf
- 【行业标准】SHT 3517-2013 石油化工钢制管道工程施工技术规程.pdf
- 部编版(五四学制)六年级上册历史知识点复习提纲版.pdf VIP
- 湘美版六年级上册美术教案(全套).doc VIP
- D702-1~3 常用低压配电设备及灯具安装(2004年合订本)_(高清).pdf
- 初中道法人教部编版2024七年级上册《第十课保持身心健康》2024年同步练习卷.pdf
- 华为成功之道解读之二客户至上结构化表达.pptx VIP
文档评论(0)