商务智能-Web挖掘.pptx

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

Web挖掘

Web挖掘流程目录2Web内容挖掘3Web使用挖掘4Web挖掘概述1Web结构挖掘5

1Web挖掘概述按照分析对象和资源的特点,可以将Web挖掘技术分为三种类型:Web挖掘是数据挖掘技术在Web中的应用内容挖掘结构挖掘使用挖掘Web内容挖掘主要是分析网络内容,如网络文本、图像等形式的内容;Web结构挖掘主要用来挖掘网站之间的链接结构;Web使用挖掘用于分析用户的访问习惯,如用户的导航习惯,其主要挖掘服务器端的点击流数据、客户端数据。

1Web挖掘概述WEB数据的特点(1)异构数据库环境,Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点的信息和组织都不一样,这就构成了一个巨大的异构数据库。(2)分布式数据源,Web页面散布在世界各地的Web服务器上,形成了分布式数据源。(3)半结构化,半结构化是Web上数据的最大特点,Web上的数据类型非常复杂,没有特定的模型描述,是一种非完全结构化的数据,称之为半结构化数据。(4)动态性强,Web是一个动态性极强的信息源,信息不断地快速更新,各站点的链接信息和访问记录的更新非常频繁。(5)丰富的多样性,Web包含了各种信息和资源,有文本数据、超文本数据、图表、图像、音频数据和视频数据等多种多媒体数据。

2Web挖掘流程Web数据获取数据预处理数据转换和集成模式识别模式分析与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。通常Web挖掘包括从Web上搜索发现可用的信息,然后从已经发现的资源中提取出有用的信息,最后对Web信息进行学习抽取一定的规则,典型Web挖掘的处理流程如下图:

2Web挖掘流程Web数据的来源包括:Web内容,即用户所浏览的文字、图片等信息。Web数据获取Web数据有以下几种不同的获取方式:客户端的数据获取1服务器端的数据获取2代理服务器端的数据获取3

2Web挖掘流程Web数据预处理包括:数据预处理数据清理用户识别会话识别事务识别Web数据的事务识别用户会话是Web日志挖掘中唯一具备自然事务特征的元素,但对于某些数据挖掘算法来说它的粒度可能太粗,不够精确,因此需要利用分割算法把用户会话分成更小的具有一定语义的事务。Web用户识别和会话识别用户识别,指分离用户的访问日志。以前的技术多根据IP地址来识别用。

2Web挖掘流程对于经过预处理的数据,需要按照某种规则将其统一存储到数据仓库中,因此要进行数据集成与转换。数据仓库的构建首先要经过抽取、转换和加载(ETL)过程。(1)数据集成分析中的数据经常来自多个数据源,这就要求把来自多个数据库、数据立方体或文件的数据结合起来,存放在一个一致的数据存储器中,这就是数据集成。数据集成与转换(2)数据转换数据转换是将数据转换成适合挖掘的形式,也是导向挖掘过程成功的预处理过程。数据转换步骤步骤为:平滑、聚集、数据概化、规范化。

2Web挖掘流程知识发现和模式分析是指通过数据挖掘,发现对支持决策有意义的信息。知识发现与模式分析常用的知识分析方法有:模式分析是指从在知识发现阶段获得的大量模式和规则中提取出用户感兴趣的模式和规则。1知识查询2联机分析处理3可视化技术

3Web内容挖掘大多数学者认为Web挖掘一般可以分为三类:Web内容挖掘(WebContentMining)、Web结构挖掘(WebStructureMining)、Web使用挖掘(WebUsageMining)要达到Web内容挖掘的目的,从网络中取得大量的有利用价值的信息需要做包括,主要包括结构化数据抽取(StructuredDataExtraction)、观点挖掘(Opinionmining)和信息集成(Informationintegreation)等方面。近年来,互联网的全面普及以及移动智能设备的广泛应用促进了社会媒体的爆发式增长,包括社交媒体挖掘、社会计算能方面也日益受到关注。Web内容挖掘从Web内容,数据和文档中发现有用信息,Web上的信息种类繁多,传统的Internet由各种类型的服务和数据源组成,包括WWW、FTP、Telnet等,现在有更多的数据和端口可以使用,比如政府信息服务、数字图书馆、电子商务数据以及其他通过Web可以访问的数据库。Web内容挖掘的对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。

4Web使用挖掘Web使用挖掘可以分为两类,一类是将Web使用记录的数据转换并传递进传统的关系表里,再使用数据挖掘算法对关系表中的数据进行常规挖掘;另一类是将Web使用记录的数据直接预处理再进行挖掘。Web使用记录挖掘,在新兴的电子商务领域有重

文档评论(0)

ning2021 + 关注
实名认证
内容提供者

中医资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

相关文档