网页消重及净化.docx

下载文档 降价啦

7
0
约4.81千字
约 5页
2017-06-21 发布于湖北
举报
版权申诉
保障服务

网页消重及净化.docx

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

网页消重和净化1 网页消重的定义网页消重是指删除重复的网页，在消重后的网页集上建立索引再提供服务，可以保证用户查询时不会出现大量重复的内容，同时也减少了存储空间。2网页重复的原因搜索过程中产生重复的原因主要有两个，一个是由于URL本身的构造原因产生搜索结果重复。例如，虚拟主机技术可能会使得多个不同域名映射到同一个IP，当搜索系统用这些域名进行搜索时，实际上搜索到的是同一个站点，导致搜索结果重复。这一类由于URL本身导致网页重复的问题相对来说比较容易解决，例如，可以通过建立IP与域名的对应表、比较网站前几页网页代码等方式解决。网页重复的另一个重要原因是不同网站之间对相同的内容重复引用或同一站点在不同物理位置的镜像等而导致的，这对于一些热点内容和重要站点尤其如此。对于这类情况，由于大量重复网页不是直接对原有网页进行复制，而是将转载引用的内容放到自己网页的某个特定位置再提供给用户，或者在镜像时定制了网页的内容。这样，新的网页就可能在风格、布局、代码方面与原有网页有很大的差别，因而不能使用网页的形式特征来对网页消重，消重的依据只能是根据网页的内容特征。3 网页消重的运用一般而言，基于内容的消重技术的基本思想是：为每一个网页计算出一组指纹(Fingerprint)，所谓指纹信息是指网页文本的一种信息特征，通常由一组词或者一组词加权重构成。从理论上说，不同网页的指纹是不同的，若两个网页指纹相同或相近，则可以认为这两个文档的内容重叠性较高，进而考虑进行消重操作。常用的基于内容的网页消重有两个关键的方面，一是如何生成网页的指纹，二是如何通过比较指纹来判断网页是否重复。　　生成网页的指纹有多种算法，使用比较广泛的算法有MD5散列值算法。MD5的全称是Message-Digest Algorithm5(信息—摘要算法)，由美国麻省理工学院于20世纪90年代初开发，经MD2、MD3和MD4发展而来。Message-Digest泛指字节串的Hash变换，就是把一个任意长度的字节串变换成一定长的大整数。可以用MD5算法对网页的文本产生指纹，通过比较不同文本的指纹，可以判断两个页面是否是相同的页面。MD5算法及其C语言实现源代码在RFC　1321(http：／／www．faqs．org／rfes／rfcl321．html)中有详细的描述。第二个要解决的问题是用什么样的标准去判定两个网页是相同的。以MD5算法为例，由于MD5算法是一种严格的信息加密和防篡改算法，只要摘要内容有一个字节不同，其散列值就会不同，这样，如果用两个网页的全部正文的字节串作为生成指纹的内容，就很难保证能够尽量区分出的近似网页，因为，只要文本字节串稍有不同，其散列值就会不同。对其他计算指纹的算法也同样存在类似的问题。这样，就需要精心地选择用什么样的文本摘要去生成文本指纹，怎样用指纹进行比较。这方面，研究人员做了大量的工作。4 网页消重的算法目前，网页去重代表性方法有3种。1)基于聚类的方法。该方法是基于网页文本内容以6763个汉字作为向量的基，文本中某组或某个汉字所出现的频率就构成了代表网页的向量，通过计算向量的夹角确定是否是相同的网页。2)排除相同URL方法。各种元搜索引擎去重主要采用此方法。它分析来自不同搜索引擎的网页URL，URL 相同，即被认为是相同的网页，可将其去除。3)基于特征码的方法。这种方法利用标点符号多数出现在网页文本的特点，以句号两边各5 个汉字作为特征码来唯一地表示网页。5 网页净化的定义网页净化是根据网页结构，识别网页中不同类型的内容块，舍弃噪声信息，如导航信息、广告信息、版权信息等，剥离出正文信息。它是主题相关度计算、资源查重、自动摘要、自动分类及元数据抽取的前提，是预处理阶段不可缺少的环节。6 网页净化的目的网页净化的目的是获取HTML页面中的正文信息，同时，网页净化可以显著简化网页内标签结构的复杂性，并减小网页的大小，从而节省后续处理过程的时间和空间开销。下图给出了网页内容分区的一个示例。HTML是一种标记语言，它的标签在功能上可以分为两类：一类是用于规划网页布局的标签，如＜table＞、＜tr＞、＜td＞、＜div＞、＜P＞等，它们将网页内容分成若干个部分，并确定每个部分在网页中的显示位置，从而形成视觉上可以区分的正文信息块、导航信息块、广告信息块及版权信息块等内容，这些标记是识别网页信息块的基础；另一类标签是描述网页数据项显示属性的标签，如　＜a＞、＜img＞、＜font＞、＜b＞、＜H3＞等，其中，＜a＞表示数据项是超链接，＜img＞表示数据项是图形，其他标签定义了数据项显示的字体属性，通过对这类标签的分析，可以确定内容块中数据的属性信息。一般情况下，正文信息以纯文本为主，导航信息包含大量超链接，广告信息通常包括图形信息，且其位置一般不在页面的中心，