[永洪大数据技术白皮书.docxVIP

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[永洪大数据技术白皮书

永洪大数据技术白皮书Yonghong在大数据、分布式计算、数据分析等领域具备核心竞争力、自主创新并拥有多项发明专利。Yonghong研发团队推出的商业智能平台Yonghong Z-Suite,是由一系列基于MPP架构的商业智能产品组成。 Yonghong Z-Suite是发现型的商业智能产品,她具备丰富的数据分析能力。当用户访问数据应用的时候,如果看到商业活动的异常或者变化时,除了数据展现,我们更需要的是能够通过即席的、深入的分析以获取现象背后的深层次原因。基于Z-Suite,用户可以不断地与数据对话(Talk),深入分析信息(Analyze),直到得到满意的答案。 Yonghong Z-Suite具有高性能的大数据分析能力,她完全摒弃了向上升级(Scale-Up),全面支持横向扩展(Scale-Out)。Yonghong Z-Suite主要通过以下核心技术来支撑TB/PB级的大数据。Yonghong Z-Suite技术架构图一 技术架构图关键技术 并行计算(MPP Computing)Yonghong Z-Suite是基于MPP架构的商业智能平台,她能够把计算分布到多个计算节点,再在指定节点将计算结果汇总输出。Yonghong Z-Suite能够充分利用各种计算和存储资源,不管是服务器还是普通的PC,她对网络条件也没有严苛的要求。作为横向扩展的大数据平台,Yonghong Z-Suite能够充分发挥各个节点的计算能力,轻松实现针对TB/PB级数据分析的秒级响应。 库内计算(In-Database Computing)Yonghong Z-Suite支持各种常见的汇总,还支持几乎全部的专业统计函数。得益于库内计算技术,Yonghong Z-Suite数据分析引擎将找寻出最优化的计算方案,继而把所有开销较大的、昂贵的计算都移动到数据存储的地方直接计算,称之为库内计算(In-Database)。这一技术大大减少了数据移动,降低了通讯负担,保证了高性能数据分析。 列存储 (Column-Based) Yonghong Z-Suite是列存储的。基于列存储的数据集市,不读取无关数据,能降低读写开销,同时提高I/O 的效率,从而大大提高查询性能。另外,列存储能够更好地压缩数据,一般压缩比在5 -10倍之间,这样一来,数据占有空间降低到传统存储的1/5到1/10 。良好的数据压缩技术,节省了存储设备和内存的开销,却大大了提升计算性能。 内存计算(In-Memory Computing)得益于列存储技术和并行计算技术,Yonghong Z-Suite能够大大压缩数据,并同时利用多个节点的计算能力和内存容量。一般地,内存访问速度比磁盘访问速度要快几百倍甚至上千倍。通过内存计算,CPU直接从内存而非磁盘上读取数据并对数据进行计算。内存计算是对传统数据处理方式的一种加速,是实现大数据分析的关键应用技术。 分布式通讯(Distribute IO)分布式通讯比较底层,是介绍得比较少的领域。不过,中间计算结果能否在集群中稳定且高效地传输,是整个集群能否达到实时计算的关键。可复用的TCP/IP连接:系统的TCP/IP连接是可复用的,不像传统方式一样,一个信息传递需要建立一个连接,而信息交换的接收与发出逻辑对应的软件进程/线程是可复用的。这一方法降低了整个系统的TCP/IP负载,以及线程/进程开销。多路的信息传输:系统的信息传输是多路的。这类似于高速公路的多车道。如果一个TCP/IP连接不够,可以增加TCP/IP连接。而如果闲置,可以收回多余的连接以释放网络、CPU、内存资源。异步的信息传输:系统的信息传输是异步的。发出信息的请求方不会占据着TCP/IP连接,而是在发出信息之后立即释放资源。以异步的消息通知机制等待返回处理结果,这一异步机制让系统在等待返回处理结果时不会白白耗费资源,在接收方处理信息时也不会占据TCP/IP连接和相应的线程/进程资源。系统以异步信息交换的方式,成功地消除了信息处理与信息传输之间的耦合。提升了信息交换能力,但有效地降低了信息交换所需要的网络资源、CPU、或者内存资源。稳定的内存使用:由于整个通讯过程中Socket通道是复用的,而Socket通道对应的读内存块和写存块也是复用的,很少有内存的申请和释放操作。这提升了整个系统的性能和稳定性。健壮的信息传输:系统的TCP/IP连接是可自修复的。网络可能会有各种问题导致连接出错,为了避免数据流里可能丢失了数据,给每个数据流的头部加了标识位,在任何找不到标识位的情况下,连接都会自动关闭。系统会自动重新建立连接。 执行计划的优化算法可以做到三个层面的执行计划的优化:基于Block Meta的高层优化:粗粒度索引, 基于每个Block的每个Column的中层优化:读取文件头;基于计算强度进行

文档评论(0)

huhongjun + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档