- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
ICS35.020
CCSL70
团体标准
T/CESAXXXX—2024
人工智能数据集质量评估要求
Artificialintelligence-Datasetqualityevaluationrequirements
征求意见稿
在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。
已授权的专利证明材料为专利证书复印件或扉页,已公开但尚未授权的专利申请
证明材料为专利公开通知书复印件或扉页,未公开的专利申请的证明材料为专利申请
号和申请日期。
202X-XX-XX发布202X-XX-XX实施
中国电子工业标准化技术协会发布
T/CESAXXXX—202X
人工智能数据集质量评估要求
1范围
本文件规定了人工智能领域数据集的质量评估要求,包括通用要求、训练数据集扩展要求、测试数
据集扩展要求,给出了人工智能领域数据集的通用评估流程。
本文件适用于指导人工智能领域的开发方、用户方以及第三方等相关组织对人工智能领域数据集质
量开展评估工作。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T25000.24-2017系统与软件工程系统与软件质量要求与评价第24部分:数据质量测量
GB/T36344-2018信息技术数据质量评价指标
GB/T41867-2022信息技术人工智能术语
ISO/IECDIS5259-2人工智能用于分析和机器学习的数据质量第2部分:数据质量测量
(Artificialintelligence—Dataqualityforanalyticsandmachinelearning(ML)—Part
2:Dataqualitymeasures)
3术语和定义
下列术语和定义适用于本文件。
3.1
数据质量dataquality
在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。
[来源:GB/T25000.24—2017,4.11]
3.2
数据集dataset
具有一定主题,可以标识并可以被计算机化处理的数据集合。
[来源:GB/T36344-2018,2.6]
3.3
数据记录datarecord
一个单元化的相关数据项的集合。
1
T/CESAXXXX—202X
[来源:GB/T25000.24—2017,4.15]
3.4
数据质量度量元dataqualitymeasure
作为数据质量特征测量的结果赋值的变量。
3.5
数据质量模型dataqualitymodel
已定义的特性集合,提供一个框架用于说明数据质量需求和评价数据质量。
[来源:GB/T25000.12—2017,4.6]
3.6
元数据metadata
关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和
数据易变性的数据。
[来源:GB/T36344-2018,2.2]
3.7
完整性integrity
给定环境中,与一个实体相关联的主题数据具有所有预期属性的值和与其相关的值的程度。
3.8
准确性accuracy
在给定环境中,数据具有正确地表示一个概念或事件的相关属性真实值的属性的程度。
文档评论(0)