Internet网络信息存取解读.ppt

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Internet网络信息存取解读

/search/jiqiao.html 百度搜索引擎工作原理 2012年12月中国搜索引擎市场份额排行榜 搜索引擎三足鼎立 2、搜狗 搜狗是搜狐公司的旗下子公司,于2004年8月3日推出,目的是增强搜狐网的搜索技能,主要经营搜狐公司的搜索业务。在搜索业务的同时,也推出搜狗输入法、免费邮箱、企业邮箱等业务。 2010年8月9日搜狐与阿里巴巴宣布将分拆搜狗成立独立公司,引入战略投资,注资后的搜狗有望成为仅次于百度的中文搜索工具。 2013年9月16日,腾讯向搜狗注资4.48亿美元,并将旗下的腾讯搜搜业务和其他相关资产并入搜狗,交易完成后腾讯随即获得搜狗完全摊薄后36.5%的股份,而且腾讯持股比例会在近期内增加至40%左右。 6.3 垂直搜索引擎简介 一、概述 垂直搜索引擎,针对某一特定领域、某一特定人群或某一特定需求提供的信息搜索和相关服务,其特点是专、精、深,且具有行业色彩。 1)信息采集:主动采集与被动采集相结合的方式; 2)信息加工:对网页信息进行了结构化信息提取加工,即将网页的非结构化数据提取成特定的结构化信息数据; 3)信息检索:排序方式更多,如时间排序、相关度排序或是以某个结构化的字段进行排序等。 二、主要垂直搜素引擎 1、旅游类:酷讯旅游网、携程网、去哪儿网; 2、求职招聘类:智联招聘网 3、房产类:搜房网 4、视频搜索:优酷网、百度视频、搜库网 5、音乐搜索:百度音乐、搜狗音乐 6、图片搜索:百度图片、谷歌图片、搜狗图片 7、购物搜索:一淘网、搜狗购物搜索 6.4 元搜索引擎简介 一、元搜索引擎, 元搜索引擎又称集合式搜索引擎、并行搜素引擎或搜索引擎之搜索引擎。它是通过一个统一的用户界面,帮助用户在多个搜索引擎中选择和利用使用的搜索引擎来实现检索操作;或者同时调用多个搜索引擎,为用户实现一站式检索。 它通常由三个部分组成,即检索请求提交机制、检索接口代理机制、检索结果显示机制。 二、元搜索引擎与普通搜索引擎的区别 1、元搜索引擎可以将以此提问提交多个数据库; 2、元搜索引擎没有自己独立的资源库; 3、元搜索引擎的结果是基于独立搜索引擎结果的二次加工; 4、元搜索引擎标明结果几率的来源搜索引擎及其相关度。 三、元搜索引擎的优缺点 优点: 1、信息覆盖面大,检索效率高; 2、检索工具扩展性能强; 3、服务多样化; 4、无须考虑网页索引数据库的建立和维护 缺点: 1、检索结果可靠性和全面性较差; 2、不能灵活控制结果的输出; 3、检索结果排序不够理想; 4、信息搜索覆盖面存在局限性; 5、检索式处理较复杂 第6章 Internet 网络信息存取 ?网络信息存取原理与方法 ? Internet 网络存取系统及其检索 ?网络信息检索策略与技巧 6.1 网络信息存取原理与方法 6.1.1 网络信息检索的特点 ? 存取范围覆盖Internet 上的几乎所有资源 ? 传统检索方法与全新检索技术相结合 ? 用户界面友好且操作方便 ? 具备良好的导航和编辑功能 ? 具有用户透明度 6.1.2 网络信息检索一般方法 1、浏览(顺链而行) 2、通过资源指南(网络资源目录/互联网黄页)来查找相应的信息(yahoo,搜狗,hao123网站分类目录) 3、利用网络信息检索工具(谷歌、百度、一淘) 4、使用搜索软件 5、充分利用E-mail获取信息资源 6、RSS(Really Simple Syndication)订阅 6.1.3 网络信息存取工具 1、搜索引擎的构成 用户系统 用户接口 搜索器 索引器 检索器 www信息资源 FTP信息资源 Gopher信息资源 WAIS信息资源 搜索引擎 网络 网络 Telnet信息资源 用户服务组信息资源 ?2、 搜索引擎基本原理 用户访问策略 搜索引擎用户界面接口 搜索引擎本地的摘 要信息数据库 各万维网 站点资源 各记录链接 详细信息反馈 访问 摘要信息反馈 2、 搜索引擎基本原理 1)抓取:从互联网上抓取网页,并把访问过的网站中符合收录要求的网页收取回来,搜索引擎的信息搜集基本上是自动的。 2)索引:建立索引数据库,搜索引擎对搜集到的网页信息进行系统整理的过程。(网页所在的URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其他网页的链接关系等) 3)搜索、排序:在索引数据库中搜索排序,用户输入关键词进行检索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页,并依据已经计算好的所有网页针对该关键词的相关度,按照其数值高低进行排序。 4)显示:对搜索结果进行处理排序。 3、搜索引擎的关键技术 1)信息收集和存储技术 人工和自动。 2)信息

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档