- 1、本文档共37页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
PAGE20
智慧旅游
大数据采集平台建设方案
XXX科技有限公司
20XX年XX月XX日
目录
TOC\h\z\u\t标题1,1,标题2,2,标题3,3一概述 2
二总体设计 3
2.1数据采集、更新、维护业务分析 3
2.1.1数据采集总体思路 3
2.1.2数据更新总体思路 12
2.1.3数据维护总体思路 18
2.2数据标准定义 20
2.3采集整合方式 21
2.4利用数据抽取、转换与装载工具处理 22
三网络爬虫功能设计 25
3.1网站采集 25
3.2信息抽取 30
3.3信息排重 31
3.4信息分类 31
3.5网络智能机器人 32
3.6数据采集系统 33
3.7数据采集业务功能 34
3.8网络机器人采集设计 36
概述
旅游行业业务涉及面广,信息源宽泛,但全市范围内目前还没有建立起统筹协调的数据采集管理与信息交流机制和统一的数据采集平台,没有建立统一完善的数据采集系统,造成大量旅游行业数据信息处于为各个涉旅业务部门或企业机构所有,相对封闭的分散状态,缺乏对数据的有效整合,信息共享程度低;在信息分类分级、指标术语、收集渠道和信息应用环境等方面还没有形成统一的标准体系,信息结构不合理,不同部门提供的数据在口径和数值上往往差异较大;缺乏对数据的使用机制,造成已经采集的数据无法调用,不易统计和查询,也不便于保存和共享;在数据采集方面,现有的采集软件大部分是根据具体的应用、固定报表格式设计的,没有体现以指标为核心的设计思路;在数据的利用和处理上缺乏灵活性,也不能满足旅游管理部门根据自身实际情况进行指标扩展的需要;数据采集过程也基本是单向的,缺少上下互动,地方部门无法及时利用全局信息,直接影响了他们对采集处理数据的积极性。
数据采集的相对滞后直接导致数据的针对性不强。因此,统一的数据采集与数据管理平台已成为旅游行业数据整合和利用的一个“瓶颈”问题。
综上所述,通过建设旅游数据采集平台,逐步完成旅游行业主管部门、景区景点、旅游企业、OTA等单位业务数据的采集、过滤、转换及载入,形成中间数据平台以便支撑旅游行业其他各个业务应用系统的数据分析、展现等。
总体设计
数据采集、更新、维护业务分析
数据采集总体思路
1、信息来源分析
(1)、旅游基础数据来源
根据旅游基础数据详细数据项内容,其信息来源方主要包括各级旅游行业管理部门、涉旅相关政府部门(交通、公安、工商、环保、气象)、涉旅企业(民航、铁路)和综合旅游网站(OTA等)等四个方面。
旅游行业管理部门掌握着各级旅游行业管理中所产生的旅游基础数据;
旅游相关政府部门掌握着文化、商务以及旅游公共设施的行业管理中所产生的旅游基础数据;
吃、住、行、游、购、娱、展、演等各类涉旅企业服务单位掌握着商务活动开展中所产生旅游服务信息;
以资讯、社交、电子商务为典型特点的综合旅游网站掌握着目的地信息、旅游资讯、攻略指南、图片等数据。
上述各类主体可以为本项目提供的旅游基础数据内容如下:
各级旅游主管部门,依据行业管理职能,可以提供其辖区内的景区、民俗村/户、旅行社、旅游饭店、旅游餐馆等涉旅企业信息,以及旅游公共组织机构、旅游从业人员、旅游活动等信息。
旅游相关政府部门指商务、文化、文物、交通、公安、卫生、工商、市政市容、信息化、统计等,以及行业管理职能,主要提供餐饮场所、宾馆/酒店、旅游交通、购物场所、娱乐场所、会展场所、演出场所等涉旅企业信息,以及旅游活动、公共服务设施和公共交通设施的信息。
涉旅企业,指与旅游业密切相关的企事业单位,包括景区、民俗村/户的管理单位、以及旅行社、餐饮、宾馆/酒店、旅游交通、购物场所、娱乐场所、会展/演出场所等企业,根据其实际情况提供其自身信息,并同时提供旅游活动和旅游商品的信息。
综合旅游网站,指可以为旅游者提供旅游资讯的网站,包括百度旅游、网易旅游、搜狐旅游频道、新浪旅游频道等旅游门户网站,以及携程网、去哪网、艺龙网等旅游商务网站,这些网站可以提供旅游者感兴趣的非结构化信息。
(2)、数据采集来源方数据范围
根据旅游基础数据不同来源方的业务特点,与旅游基础数据及其数据项进行对比分析,形成数据来源方的基础数据范围及数据项表格,如下表所示:
编号
数据来源
信息范围
数据项类别
基本属性
扩展属性
详细信息
数字资源
1
各级旅游主管部门
景区景点、民俗村/户、旅行社、星级饭店、星级餐馆等涉旅企业行业管理信息
有
有
旅游公共组织机构、旅游从业人员
有
有
有
旅游活动(展会/演出/活动)信息-旅游主管部门发起
有
有
有
有
2
相关政府部门(商务、文化、文物、交通、公安
您可能关注的文档
- 数据中心设计方案.docx
- 信息化系统安全与存储设计方案.docx
- 智慧旅游-大数据存储计算平台建设方案.docx
- 智慧旅游-大数据交换共享平台建设方案.docx
- 智慧旅游-大数据治理平台建设方案.docx
- 智慧旅游-大数据智能运维平台建设方案.docx
- 2024年光储行业研究框架报告.pdf
- 2024年半导体行业报告:先进封装超越摩尔定律,晶圆厂和封测厂齐发力.pdf
- 2024年城市照明公司经营目标和计划.docx
- 2024年“亚非拉”的出口链机遇.pdf
- 2024年奥瑞金分析报告:金属包装拐点已至,盈利能力持续改善.pdf
- 2024年特种电子树脂企业组织架构部门职能和业务流程.docx
- 2024年川仪股份分析报告:国产工业自动化仪器仪表领先企业.pdf
- 2024年品牌终端形象展示企业组织架构部门职能和业务流程.docx
- 2024年汽车行业剖析:阿维塔入股引望,加速智能化落地,夯实高端化定位.pdf
- 2024年重组胶原蛋白原料化妆品企业组织架构部门职能和业务流程.docx
- 2024年通信行业:“合成数据+强化学习”-大模型进化的新范式.pdf
- 2024年中煤能源分析报告:低估值央煤,高分红与高成长潜力足.pdf
- 2023年铜陵有色分析报告:米拉多铜矿注入开启发展新篇章.pdf
- 2024年盛邦安全分析报告:深化安全细分赛道,守护网络空间安全.pdf
最近下载
- 7《短歌行》《归园田居(其一)》 对比联读 教学设计 2024-2025学年统编版高中语文必修上册.docx
- 沪教版 七年级(上)数学 秋季课程 第4讲 整式的乘法(解析版).doc VIP
- 2024年萍乡卫生职业学院单招职业适应性测试模拟试题及答案解析.docx
- 生物 生命活动的主要承担者——蛋白质 专题练习.doc VIP
- 《摩登时代》-公开课件(设计).ppt VIP
- A7-10-制冷系统部件的检修.pdf
- Unit 2 I think that mooncakes are delicious! Section A(Grammar Focus-4c) 课件-九上英语.pptx VIP
- 2024年萍乡卫生职业学院单招职业技能测试题库及答案解析.docx VIP
- 父母借用子女名义购房协议书.doc
- 团体操花球串词.doc
文档评论(0)