- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于评论树的微博社区热门话题检测方法!
第 卷第 期 计 算 机 应 用 研 究
年 月
基于评论树的微博社区热门话题检测方法
崔瑞飞 于洪涛 杨 李星
国家数字交换系统工程技术研究中心 郑州 铁道部信息技术中心 北京
摘要 首先在分析微博文本特点的基础上设计了一种垃圾微博的过滤算法针对微博数据稀疏性这一问题
利用社区内部联系紧密的特性提出了微博评论树的概念和一种话题热度评价模型 最后基于以上两点提出了
一种微博社区热门话题检测方法 真实数据集上的实验表明了过滤的必要性和所提出的微博社区热门话题检
测方法的有效性
关键词 微博社区 热门话题 过滤 评论树 话题热度评价模型
中图分类号 文献标志码 文章编号
传统的热门话题检测技术主要应用于传统的新闻报道和
引言
媒体如 目前较常用的检测方法有中心向量法 层次
微博是一个基于用户关系的信息分享传播以及获取的平 聚类法 聚类方法等 张欣 研究
台 自诞生之日起微博凭借其简单灵活的组网方式和强大的 了话题检测模型中的词频统计权重计算以及相似度计算把
信息传播能力迅速吸引了大量的用户 年 月中国互 简单聚类算法与算法相结合并应用到中文热门
联网络信息中心发布的 第 次中国互联网络发展 话题检测系统中取得了良好的效果 丁伟莉等人 根据
状况统计报告 显示截至 年 月底我国微博用户规 本身的特点对向量空间模型的表示和相似度的计算进行了改
模为 亿较 年底增长了 万网民中的微博用户 进使得检测效果进一步提高 但是在微博领域由于其随意
比例较上年底提升了六个百分点达到 这些数据充 性和简短性等特性使得微博文本呈现出严重的数据稀疏性问
分说明中国社交网络已经进入微博时代 与此对应微博也成 题从而使得以上算法不能取得好的效果 近年来国内外也
为当前学术研究的一个热点主要涉及到短文本分析情感语 出现了一些微博文本话题方面的研究 在将
义分析社区发现话题检测与跟踪等相关领域并取得了一定 文本分类到预定义的话题类别下时为解决文本较短造
的成果 社区通常是指具有相同兴趣喜好或特定社会关系的 成的数据稀疏问题通过抽取作者文件和文本记录中的
用户的集合 社区结构是复杂网络的重要特性对于分析复杂
文档评论(0)