- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
开题报告新版--第1页
1.绪论
1.1系统设计背景及意义
网络“树洞”作为一种匿名公共倾诉平台,在许多地方尤其是某些高校的影
响也越来越大,而作为一种匿名的平台,微博的公布者们也不用去顾虑所公布的
微博被相识的人们发现,在某些方面树洞微博上的内容会与自己在本人账号上公
布的微博有一定的差异。树洞微博发展至今已近不单单只是一种匿名的公共倾诉
平台了,微博上的内容除了个人所倾吐的隐私以外,尚有某些其他的诸如公告之
类的公共信息,甚至尚有某些毫无意义的符号或者是文字。这些对于分析都导致
了很大的干扰。
为了更好地对微博的内容以及树洞微博与本人微博的差异性进行研究,为了
从这些微博中提取关键的信息,设计一种聚类系统是很有必要的。一段微博常常
是一段话,这一段话里面故意义的能对概括微博内容有协助的往往只有几种词。
我们要对这些树洞微博进行分析研究,所需要的就是那些有着实际意义的词。设
计一种聚类系统,可以对微博内容进行分词,然后通过度词的成果进行聚类,聚
类的成果对于我们的
树洞的寓意源于西方古代寓言故事,故事描述的是一种国王长了一对驴耳朵,
从而威胁他的剪发师说假如讲出这个秘密就会被砍头。于是剪发师把秘密埋在了
开题报告新版--第1页
开题报告新版--第2页
心里,时间一长就生病了,左后跑着森林里面对着树洞说出了这个秘密,得到了
缓和。可是自此后来只要将树上的叶子放在嘴边吹一下,就会发出“国王长了驴
耳朵”的声音。于是树洞逐渐有了“倾吐不能说的秘密”的地方的寓意。
1.2国内外研究现实状况
文本聚类是指按照一定的原则将一种给定的文本集合分割成不一样的类簇,
使得同一种类簇中的文本间尽量的相似,不能类簇文本间尽量相异。文本聚类技
术通过近些年发展已经相称成熟,常用的文本聚类算法分为如下几大类基于划分
的措施、基于层次的措施、基于密度的措施、基于模型的措施和基于网格的措施。
1)基于划分的措施
划分的措施的基本思想是:根据指定的相似度计算方案,对由N个数据对象
的集合进行迭代分析,将其分割为K(K的最大值为n,最小值为1)个类簇,并
使这些类簇满足如下条件:a.所有的类簇都至少包括一种数据对象;b.每个对象
属于且仅属于一种类簇。即所有的数据对象都被划分到类簇中,且任意两个类簇
之间的交集为空。在分割法的迭代中,迭代的终止条件是聚类函数的收敛。这一
类措施在文本聚类中应用的尤其普遍。其中具有代表性的算法有K-means算法、
K-Modes算法、CLARANS算法等。
该措施的长处在于算法复杂度低,处理速度快,不过需要在聚类前制定聚类
开题报告新版--第2页
开题报告新版--第3页
类簇的数量K,这个K值是难以确定的,直接会影响到聚类的成果。
2)基于层次的措施
与基于划分的措施不一样,基于层次的聚类措施得到的聚类成果是一种有层
次构造关系的类簇集合。按照层次分解的次序,该类措施又分为凝聚是层次聚类
算法和分裂式层次聚类算法。
凝聚是层次聚类措施:首先将每个数据对象作为一种单独的类簇,然后合并
相似的两个类簇并重新计算合并生成的类簇和其他类簇间的相似度,反复上一步
直到满足给定的终止条件或者只剩一种类簇。常见的基于凝聚式层次聚类措施有
GAC算法和CURE算法。
分列式层次聚类算法:首先将所有的数据对象归为一种类簇,然后按照一定
的规则对类簇进行细分,懂得满足给定的终止条件或者所有类簇中只有一种数据
对象。其中经典的代表算法是BIRCH算法。
该聚类措施的长处在于,进行聚类时候不需要预先指定类簇的数量,合用于
任何分布形
文档评论(0)