大数据技术词汇表.pdfVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据技术词汇表 Anomaly:见异常值词条。 Apache Software Foundation (ASF):专门为支持开源软件项目而办的一个非盈利性组织。 ARPU (Average revenue per user):每个用户的平均收入。 Artificial neural network :人工神经网络,通常简称神经网络。 Avro:一个在Hadoop上的数据序列化系统,设计用于支持大批量数据交换应用。 宝贝:淘宝和天猫网上商城对于网店商品的专门用语。 贝叶斯分析方法(Bayesian Analysis):提供了一种计算假设概率的方法,这种方法是基于 假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身而得出的。 bounce rate:见跳出率词条。 B2C:英文Business-to-Consumer 的缩写,其中文含义为企业对消费者。 CART:Classification and Regression Trees的英文首字母缩写,或者称分类与回归树, 是一种决策树分类算法。 CBL (China Black List):中国垃圾邮件黑名单。 Cluster (类或簇的英文):是一个数据对象的集合。 Cookie: 指的是指网站为了辨别用户身份而储存在用户本地终端浏览器上的一类数据。 CRM (用户关系管理,Customer Relationship Management)指的是公司对客户和潜在客户 的管理模式。 Direct Marketing:见直效行销词条。 Discriminant analysis:见判别分析词条。 DSS (Decision Support System):决策支持系统的缩写,是辅助决策者通过数据、模型和知 识,进行半结构化或非结构化决策的计算机应用系统。 独立访客:指在一天之内(00:00-24:00)访问网站的上网电脑数量(以cookie为依据)。 EB:计算机存储单位,1 EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes (字节),或是2的60次方字节。 EDM (Email Direct Marketing):用电子邮件进行营销的方式。 EIS (Executive Information Systems 的缩写,高级管理人员信息系统):为高级管理人员 设计的系统,用于深层次管理数据分析和运营趋势分析等。 Entropy:见熵。 二跳率:当网站页面展开后,用户在页面上产生的首次点击被称为“二跳”,二跳的次数即 为“二跳量”,而二跳量与浏览量的比值称为页面的二跳率。 ETL:(Extract Transform Load)的缩写,是指数据的提取、转换、加载。 分布式数据库(Distributed Database):用计算机网络将物理上分散的多个数据库单元连 接起来组成一个逻辑统一的数据库。 关联规则(Association rules):是形如X→Y的蕴涵式,其中X 和Y 分别称为关联规则的先 导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。 根节点:决策树最上面的节点。在它上面没有其他节点,其他所有的属性都是它的后续节点。 购物篮分析(market basket analysis):就是关联规则算法。在市场上关联规则算法经常 作为商品购物车的分析,所以在应用领域又被称为购物篮分析。 Granularity:见“粒度”。 HBase :一个在HDFS上搭建大规模结构化存储集群分布式存储系统,具有高可靠性、高性能、 面向列,可伸缩特性。 HDFS:部署在廉价硬件上提供高吞吐量和高容错性的分布式文件系统,适合有超大数据集的 应用程序。 Hive:基于Hadoop的数据仓库工具,可以将结构化的数据映射成数据表并提供类SQL数据库 查询管理功能,适合于数据仓库的统计分析。 后验概率(Posterior Probability):当根据经验及有关材料推测出主观概率后,对其是否 准确没有充分把握时,可采用概率论中的贝叶斯公式进行修正,修正前的概率称为先验概率, 修正后的概率称为后验概率。 回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种 统计分析方法。 计量经济学(Econometrics)是以经济学和数理统计学为方法论作为基础,对于经济问题试 图用数量和经验两者进行综合的经济学分支。 基于互联网的挖掘(Web 挖掘)是利用数据挖掘技术从Web 文档

文档评论(0)

***** + 关注
实名认证
文档贡献者

本账号下所有文档分享可拿50%收益 欢迎分享

1亿VIP精品文档

相关文档