FreeRCH大数据一体化平台开发框架.pdf

FreeRCH大数据一体化平台开发框架.pdf

  1. 1、本文档共110页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

FreeRCH大数据一体化平台

目录

第一章大快大数据一体化开发框架概述4

1.1什么是大数据4

1.2开发大数据需要什么技5

1.3Hadoop的由来5

1.4什么是大数据一体化开发框架6

1.5框架的构成模块6

1.6大快大数据平台7

1.7大数据相对于传统数据处理方式的优势与不同11

1.8大数据相对传统关系型数据库的不足11

1.9组件集成情况列表12

第二章数据源与SQL引擎16

2.1关系型数据库(SQL数据库)与大数据平台之间的数据导入导出16

2.2本地文件与大数据平台之间导入导出19

2.3SQL引擎22

第三章数据采集27

3.1创建用户27

3.2修改用户密码28

3.3获得用户ID(corID)28

3,4创建任务29

3.5获得任务ID(taskID)31

3.6启动任务32

3.7停止任务33

3.8删除任务33

3.9获得某任务采集数量34

3.10获得爬虫采集数据(json格式)34

3.11获得爬虫采集元素数据(json格式)35

3.12获得爬虫采集元素数据(txt格式)36

第四章数据处理38

4.1数据清洗38

4.2数据统计43

4.3数据分析46

4.4数据分析场景中的算法应用51

第五章搜索引擎53

5.1数据导入搜索引擎53

5.2搜索引擎导出到本地文件夹56

5.3实时数据导入到搜索引擎及HIVE58

5.4用户搜索61

第六章自然语言处理(NLP)68

6.1基本处理68

6.2文本分类(相似性)处理74

第七章机器学习算法库78

7.1LR(逻辑回归)78

7.2RandomForest(随机森林)80

7.3SVM(支持向量机)82

7.4PCA(主成分分析)84

7.5K-means(K均值)86

7.6GaussianMixtures(高斯混合模型)88

7.7NaiveBayes(朴素贝叶斯)89

7.8FP-growth(FP-growth)91

7.9ALS(交替最小二乘法的协同过滤算法)93

第一章大快大数据一体化开发框架概述

众所周知,我们今天的大数据技术源自搜索引擎。人类进入21世纪后,随

着互联网的爆发,数据呈现出爆炸式的增长。谷歌的爬虫程序每天下载的网页超

过1亿个(2000年数据),这直接推动了海量数据处理技术的发展。

谷歌公司随之提出了大表、分布式文件系统和分布式计算的三大技术构架,

解决了海量数据处理的问题。谷歌公司随即将设计思路开源,发表了具有划时代

意义的三篇论文,很快,根据谷歌的设计思路的开源框架就出现了,这也是今天

大家熟知的HADOOP、MAPREDUCE和许多NOSQL系统。这三大技术也是整个大数据

技术的核心基础。

使用搜索引擎的技术,来处理海量数据,成为一种新的商业价值,我们将其

称之为大数据。因此,有人这样形容:从应用上来说,搜索引擎是一种大数据应

用,但是从技术上来说,大数据技术只是搜索引擎技术的一个子集,能做搜索引

擎的公司,一定能作大数据。但是,从事大数据技术的公司,却未必能作搜索引

擎。

1.1什么是大数据

进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发

展,数据的增长呈爆炸趋势,已经很难估计全世

文档评论(0)

动点策划 + 关注
官方认证
服务提供商

动点策划通过提供各行各业经典策划案例,策划思路,行业最新动态,旨在做好你的助手,为你正在谋划的事情提供框架思路或创作灵感。

认证主体迈通人才资源咨询(广东)有 限公司
IP属地广东
统一社会信用代码/组织机构代码
914400007224748147

1亿VIP精品文档

相关文档