- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
AI时代的数据处理技术
陈文光清华大学/蚂蚁技术研究院
大数据:数据量,数据生成的速度和多模态
(inzettabytes)
物联网、边缘设备和用户行为产生大量数据
?数据量(Volume)和数据生成速度(Velocity)
多模态数据(Variety)
?图片,文档,图,时序,交易
?Volumeofdata/informationcreated,captured,copied,andconsumedworldwidefrom2010to2025?Statista2021
/statistics/871513/worldwide-data-created/
数据处理的深度也在增加
/hackernoon/the-ai-hierarchy-of-needs-18f111fcc007
大模型崛起引领大数据新需求
高质量训练数据是进一步提升基础模型性能的关键向量数据库是提升模型服务能力的核心技术
80%Data+20%Model=BetterAI
搜索增强的内容生成:RAG
吴恩达的“二八定律”:
Vectordatabase
吴恩达(AndrewNg.)
深度学习应当从Model-centric向Data-centric转变
User
Nearestneighbors
模型发布时间参数量预训练数据量
Question?
GPT-12018年6?1.17亿约5GB
GPT-22019年2?15亿40GB
GPT-32020年5?1750亿45TB
GPT-3.5(ChatGPT)2022年11?千亿级百TB级?
GPT-42023年3?万亿级(估)未披露
Answer
Prompt?大模型需要大数据
?如何获得更多数据?如何提升数据质量?如何高效处理海量数据?
大模型崛起引领大数据新趋势
在线离线
一体化
向量数据库与关系数据库
一体化
数据处理与AI计算
一体化
一体化
问题
在线模型(策略)表现
与离线不一致
Apps
Database
(MySQL)
Queue
(Kafka)
RealTimeETL
(Flink,SPARK)
OnlineModel
Update
(PyTorch,TF)
ModelServing
(PyTorch,TF)
OLTP
(Hbase,KV,ES)
实时链路
?数据不一致
?模型效果不一致
Analysts
BatchTraining/Test
(PyTorch,TF)
ETL
(Flink,Spark
+HUDI)
DataLake
(MPPDB,HDFS)
OLAP
(Presto,CK)
离线链路
2-in-1Architecture:TPAP一体化
单机分布式一体化架构
HTAP引擎(TP+AP)原生多租户架构
分布式存储分布式事务分布式调度
SQL优化器并行执行存储过程Oracle兼容性MySQL兼容性
架构创新双计算引擎兼容MySQL和Oracle
可以独立部署,也可以分布式部署
用于事务和分析工作负载的一份数据副本与多租户高度兼容,实现资源隔离
?ZhifengYang,QuanqingXu,ShanyanGao,ChuanhuiYang,GuopingWang,YuzhongZhao,FanyuKong,HaoLiu,WanhongWang,JinliangXiao.OceanBasePaetica:AHybridShared-nothing/Shared-everything
DatabaseforSupportingSingleMachineandDistributedCluster.PVLDB,16(12):3728-3740,2023.
OceanBase:分布式HTAP数据库实时数据分析和决策对于企业来说非常重要:OceanBase采用分布式架构,具有优异的TP性能,同时支持分析和批处理(AP)
TPAP同一套引擎混合负载HTAP+DBaaS:成本优化和简化维护
TraditionalprocessingHTAPprocessing
Step1OLTP
requests
OLTP+OLAPrequests
复杂查询优化
?自动计划不断
演变
TPAP同一套引擎
?同时处理TP和AP查询
OLTPsystemOLAPsystem
Step2OLAP
requests
OceanBase
cluster
线性化实时
您可能关注的文档
- 笨猪网:2024-2025法国高等商学院留学白皮书-724正式版WN8.doc
- 毕马威:2024第二季度行业市场倍数分析报告-30正式版WN8.doc
- 博睿数据-2024企业IT数字化运维管理白皮书-2024.08-15正式版WN8.doc
- 采购部工作流程图及说明.doc
- 餐饮行业月度观察报告(2024年7月)-22正式版WN8.doc
- 蝉妈妈:2024年美妆爆品制造器品牌拆解报告-24正式版WN8.doc
- 蝉妈妈蝉魔方-2024年H1抖音茶叶行业分析报告-2024-WN8.doc
- 产业园区可持续发展实践白皮书-盛裕集团-2024-88正式版WN8.doc
- 超越边界-新形势下中国品牌全球化营销白皮书-2024.07-47正式版WN8.doc
- 持续生物燃料的碳核算(英)-55正式版WN8.doc
- 七年级生物上册第三单元 生物圈中的绿色植物章节训练试卷(含答案详 .pdf
- 七年级数学下册《第八章 二元一次方程组》单元测试卷及答案解析-人教版.pdf
- 【可行性报告】2023年钴盐项目可行性研究分析报告 .pdf
- 《童年的秘密》读书心得5篇 .pdf
- 【同步练习】人教版九年级历史上册 第6课 希腊罗马古典文化(作业).pdf
- 【每课一测卷】沪科粤教版物理八年级下册 6 .pdf
- 《好的教育》读后感800字(精选9篇) .pdf
- 【完整版】2019-2025年中国宽带通讯终端行业错位竞争策略制定与实施研究.pdf
- 《鹊桥仙·纤云弄巧》优秀教学设计(统编版高一必修下)共3篇 .pdf
- LNG计量 _原创精品文档.pdf
最近下载
- 刘芳——本科论文初稿.doc VIP
- 安全培训记录效果评估表全员法律法规培训.docx VIP
- 3.4 透镜的应用(分层练习)2024-2025学年八年级物理上册同步精品课堂(苏科版2024)(解析版).docx VIP
- 《二年级上册美术折纸动物》ppt课件讲义.ppt
- BS EN 16120-2-2017Non-alloy 国外国际标准规范.pdf
- 精卫填海成语神话故事.pptx VIP
- 【生物】蛋白质相关计算课件 2023-2024学年高一上学期生物人教版必修1.pptx VIP
- 四位一体农村长效保洁方案(标书——已中标) .pdf VIP
- 人教版九年级上册化学第六单元测试卷.doc VIP
- 2025届高考语文复习:叠词的作用和表达效果+课件.pptx VIP
文档评论(0)