- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
集聚投资有效性,构建DATALET 数据资产
机器学习系列——数据治理专题(六) |2023.8.16
▍ ▍
中信证券研究部 核心观点
基于大模型的情感识别与自动化标注能力,面向全A 行业与个股跟踪,我们构
建了 DATALET/数据堆叠产品,实现了文本数据、价量数据在同一时间序列条
件下,统一指标化与投资指向化创新。在低/高频场景,基于海量文本与行业基
本面指标,可提供定制化的配置策略与数据产品。从投资回测角度来看,基于
情绪类指标构建的行业轮动与垂直个股配置策略超额收益显著,有效性强。
张若海 ▍ 上市公司持续扩容叠加板块轮动加速推动数据产品创新性需求。注册制试
数据科技首席 点启动以来,A 股上市公司数量增至5000 余家,同时板块轮动持续加速。
分析师 为在此背景下把握住投资机遇,投研时对数据库产品的信息维度丰富化及
S1010516090001
自动化标注能力的要求日益增长。另外由于如研报、政策等文本化数据数
量呈现爆发性增长,对此类文本化数据的结构化需求也与日俱增。
▍ DATALET 实现文本数据指标化及指标标签投资指向化双重创新。为迎合
市场投研需求,我们结合大模型对数据库的指标及标签维度进行了充分延
展,实现了文本数据、价量数据在同一时间序列条件下,统一指标化与投
伍家豪 资指向化创新,构建了 DATALET 数据产品。DATALET 不仅挖掘了指标中
数据科技分析师 蕴含的投资指向,同时高精度,面向三级行业/个股,扩充了投研视角。
S1010522090002
▍ 大模型涌现能力助力自动化标注,提升指标投资指向性。基于大模型循环
Prompt 所提供的涌现能力,我们实现了指标标签体系的自动化扩容。
DATALET 中数据共有14 个标签,其中包含7 个投研辅助类标签及 7 个投
资指向性标签。标签体系中涉及了指标对应产业链环节、指标对相应环节
下游成本影响程度打分等多维投资指向性创新标签。
▍ 文本数据指标化,扩充投研视角。随着信息化的发展,很多影响市场的信
息最先以研究报告、政策等文本形式进行传播,其中蕴含了增量Alpha 。考
虑数据安全和可及性,我们选择百度文心 ERNIE 3.0 Tiny 预训练模型并下
载;使用雪球和Wind 有情感标注的金融舆情文本微调模型;将微调后的模
型在无标注的财经新闻、分析师研报摘要以及公司公告上提取信息并预测
情感。在垂直场景,我们利用预训练大模型将文本类数据进行指标化,在
形成情绪打分的同时将其对标到行业或个股,从而构建情绪类指标。情绪
类指标体系中涉及研报热度、政策推进力度及电话会议情绪等多重指标。
▍ 指标投资有效性探索
您可能关注的文档
- 量化研究系列报告之十一:ChatGPT与研报文本情绪的碰撞-20230814-华安证券-29页.pdf
- 家用电器行业7月AVC数据点评:行业景气分化,清洁电器趋势良好-20230813-兴业证券-21页.pdf
- 北交所绿电系列二:风电、光伏高歌猛进,关注北证低估值成长股标的-20230814-开源证券-25页.pdf
- 航运港口行业动态:9月1日起部分船公司征收美线旺季附加费,巴拿马运河拥堵严重-20230813-中信建投-27页.pdf
- 开源量化评论(79):超预期预判,市场参与主体行为的信息含义-20230812-开源证券-22页.pdf
- 一文读懂系列: 一文读懂银行二永债的四层供给-20230816-平安证券-19页.pdf
- 化工行业简评:制冷剂,二代配额逐步削减,三代制冷剂配额落地在即周期可期-20230817-中信建投-34页.pdf
- 础化工材料制品行业:减糖趋势推动甜味剂需求增长,关注甜味剂行业龙头企业-20230812-海通证券-19页.pdf
- 量化选股模型解析:实现投资组合构建的强化学习框架-20230808-浙商证券-16页.pdf
- 化妆品行业跟踪报告:美妆行业与2019年的距离-20230811-华创证券-15页.pdf
文档评论(0)