基于大模型的政务咨询系统技术要求与评估方法.pdf

下载文档

1
0
约1.08万字
约 8页
2024-09-02 发布于湖北
举报
版权申诉
保障服务

基于大模型的政务咨询系统技术要求与评估方法.pdf

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于大模型的政务咨询系统技术要求与评估方法

1范围

本文件面向以大规模与训练模型为技术底座，能够提供智能问答、政务咨询、知识搜索等功能的基

于大模型的政务咨询系统。

本文件规定了基于大模型的政务咨询系统的功能、性能要求和评估方法，主要包括大模型基础能力、

政务咨询业务能力、系统安全应用能力及指标评估方法四个部分。

本文件适用于基于大模型的政务咨询系统及同类产品的的研发、评估和验收等工作。

2规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件，仅所注日期的版本适用于本文

件。凡是不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。

GB/T35282-2023信息安全技术电子政务移动办公系统安全技术规范

GB/T31506-2022信息安全技术政务网站系统安全指南

3术语和定义

3.1

大模型largemodel

一种基于海量通用数据训练得到的大规模预训练模型，具备多个领域的任务能力且通用性较高，但

在实际应用场景中仍需结合生产数据进行二次开发。

4缩略语

下列缩略语适用于本文件。

ROUGE：面向召回率的评价方法(Recall-OrientedUnderstudyforGistingEvaluation)

LCS：最长公共子序列(Longestcommonsubsequence)

5指标要求及评估方法概述

5.1评估方法概述

针对模型能力部分的评估方法包括检查和测试两类测评方法，具体为：

a)检查：检查是通过对测评对象进行观察、查验、分析以帮助测评人员理解、澄清或取得证据的

过程。检查主要有评审、核查、审查、观察、研究和分析等，检查对象是文档等；

b)测试：测试是指使用预定的方法/工具使测评对象产生特定的结果，将运行结果与预期的结果

进行比对的过程，主要包括人工评测、工具测试等测试操作。

5.2指标要求及评估方式概述

表1指标项与评估方式对照表

指标维度指标项评估方式

模型能力模型信息披露检查

指标维度指标项评估方式

文本分类测试

语义理解测试

澄清反问测试

情感分析测试

信息摘要测试

内容生成测试

信息检索检查

智能对话检查

系统功能政务咨询检查

文件解读检查

智能填表检查

准确性测试

完整性

您可能关注的文档

文档评论（0）

韩喜芝 + 关注: 实名认证

内容提供者

赶紧下载啊啊啊啊

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于大模型的政务咨询系统技术要求与评估方法.pdf