三七大数据平台技术解决方案-V1.0【精选】.doc

三七大数据平台技术解决方案-V1.0【精选】.doc

  1. 1、本文档共260页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
三七大数据平台技术解决方案-V1.0【精选】.doc

O(∩_∩)O 三七数据 大数据技术解决方案 北京三七数据技术有限公司 2017年7月31日 目 录 TOC \o 1-3 \h \z \u HYPERLINK \l _Toc338008203 1 概述 PAGEREF _Toc338008203 \h 6 HYPERLINK \l _Toc338008204 2 面临的挑战 PAGEREF _Toc338008204 \h 6 HYPERLINK \l _Toc338008205 2.1 数据采集 PAGEREF _Toc338008205 \h 10 HYPERLINK \l _Toc338008206 2.2 数据清洗 PAGEREF _Toc338008206 \h 10 HYPERLINK \l _Toc338008207 2.3 数据存储 PAGEREF _Toc338008207 \h 12 HYPERLINK \l _Toc338008208 2.4 数据并行处理 PAGEREF _Toc338008208 \h 12 HYPERLINK \l _Toc338008209 2.5 数据分析 PAGEREF _Toc338008209 \h 12 HYPERLINK \l _Toc338008210 2.6 可视化 PAGEREF _Toc338008210 \h 12 HYPERLINK \l _Toc338008211 2.7 传统解决方案的分析 PAGEREF _Toc338008211 \h 12 HYPERLINK \l _Toc338008212 3 相关技术的研究 PAGEREF _Toc338008212 \h 12 HYPERLINK \l _Toc338008213 3.1 参考模型框架 PAGEREF _Toc338008213 \h 12 HYPERLINK \l _Toc338008214 3.2 数据采集 PAGEREF _Toc338008214 \h 12 HYPERLINK \l _Toc338008215 3.2.1 结构化数据的采集 PAGEREF _Toc338008215 \h 12 HYPERLINK \l _Toc338008216 3.2.2 半结构化数据的采集 PAGEREF _Toc338008216 \h 12 HYPERLINK \l _Toc338008217 3.2.3 非结构化文本数据中信息的抽取 PAGEREF _Toc338008217 \h 15 HYPERLINK \l _Toc338008218 3.3 数据清洗和数据质量的保证 PAGEREF _Toc338008218 \h 15 HYPERLINK \l _Toc338008219 3.3.1 数据质量的概念及分类 PAGEREF _Toc338008219 \h 15 HYPERLINK \l _Toc338008220 3.3.2 数据清洗的原理 PAGEREF _Toc338008220 \h 18 HYPERLINK \l _Toc338008221 3.3.3 单数据源中的数据清洗 PAGEREF _Toc338008221 \h 20 HYPERLINK \l _Toc338008222 3.4 数据的集成和融合 PAGEREF _Toc338008222 \h 37 HYPERLINK \l _Toc338008223 3.4.1 多数据源集成问题的分类 PAGEREF _Toc338008223 \h 38 HYPERLINK \l _Toc338008224 3.4.2 数据标准化的研究 PAGEREF _Toc338008224 \h 40 HYPERLINK \l _Toc338008225 3.4.3 数据集成的流程 PAGEREF _Toc338008225 \h 41 HYPERLINK \l _Toc338008226 3.4.4 多数据源中重复实体的清理 PAGEREF _Toc338008226 \h 41 HYPERLINK \l _Toc338008227 3.4.5 数据不一致性问题的研究 PAGEREF _Toc338008227 \h 43 HYPERLINK \l _Toc338008228 3.5 数据的存储和处理 PAGEREF _Toc338008228 \h 43 HYPERLINK \l _Toc338008229 3.5.1 并行和分布式处理理论 PAGEREF _Toc338008229 \h 43 HYPERLINK \l _Toc338008230 3.5.2

文档评论(0)

liuxiaoyu99 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档