机器学习系列_数据治理专题(六):集聚投资有效性,构建DATALET数据资产-20230816-中信证券-21页.pdf

机器学习系列_数据治理专题(六):集聚投资有效性,构建DATALET数据资产-20230816-中信证券-21页.pdf

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
集聚投资有效性,构建DATALET 数据资产 机器学习系列——数据治理专题(六) |2023.8.16 ▍ ▍ 中信证券研究部 核心观点 基于大模型的情感识别与自动化标注能力,面向全A 行业与个股跟踪,我们构 建了 DATALET/数据堆叠产品,实现了文本数据、价量数据在同一时间序列条 件下,统一指标化与投资指向化创新。在低/高频场景,基于海量文本与行业基 本面指标,可提供定制化的配置策略与数据产品。从投资回测角度来看,基于 情绪类指标构建的行业轮动与垂直个股配置策略超额收益显著,有效性强。 张若海 ▍ 上市公司持续扩容叠加板块轮动加速推动数据产品创新性需求。注册制试 数据科技首席 点启动以来,A 股上市公司数量增至5000 余家,同时板块轮动持续加速。 分析师 为在此背景下把握住投资机遇,投研时对数据库产品的信息维度丰富化及 S1010516090001 自动化标注能力的要求日益增长。另外由于如研报、政策等文本化数据数 量呈现爆发性增长,对此类文本化数据的结构化需求也与日俱增。 ▍ DATALET 实现文本数据指标化及指标标签投资指向化双重创新。为迎合 市场投研需求,我们结合大模型对数据库的指标及标签维度进行了充分延 展,实现了文本数据、价量数据在同一时间序列条件下,统一指标化与投 伍家豪 资指向化创新,构建了 DATALET 数据产品。DATALET 不仅挖掘了指标中 数据科技分析师 蕴含的投资指向,同时高精度,面向三级行业/个股,扩充了投研视角。 S1010522090002 ▍ 大模型涌现能力助力自动化标注,提升指标投资指向性。基于大模型循环 Prompt 所提供的涌现能力,我们实现了指标标签体系的自动化扩容。 DATALET 中数据共有14 个标签,其中包含7 个投研辅助类标签及 7 个投 资指向性标签。标签体系中涉及了指标对应产业链环节、指标对相应环节 下游成本影响程度打分等多维投资指向性创新标签。 ▍ 文本数据指标化,扩充投研视角。随着信息化的发展,很多影响市场的信 息最先以研究报告、政策等文本形式进行传播,其中蕴含了增量Alpha 。考 虑数据安全和可及性,我们选择百度文心 ERNIE 3.0 Tiny 预训练模型并下 载;使用雪球和Wind 有情感标注的金融舆情文本微调模型;将微调后的模 型在无标注的财经新闻、分析师研报摘要以及公司公告上提取信息并预测 情感。在垂直场景,我们利用预训练大模型将文本类数据进行指标化,在 形成情绪打分的同时将其对标到行业或个股,从而构建情绪类指标。情绪 类指标体系中涉及研报热度、政策推进力度及电话会议情绪等多重指标。 ▍ 指标投资有效性探索

您可能关注的文档

文档评论(0)

std85 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档