文旅人工智能大模型方案.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

PAGE

PAGE1

背景与目标

1.项目背景

当前人工智能、大数据等智能化技术正如火如荼的发展,各种应用场景也在逐步落地,将大数据和人工智能技术运用到智慧旅游中已成为该行业发展的重中之重,并已经成为了一种共识,且越来越普及.随着旅游业的快速发展,提供高效、便捷、全面的旅游景点信息成为了人们关注的焦点。为了满足游客在旅行过程中获取各种景点信息的需求,以及个性化的游览记录,现利用大模型技术构建文旅助手。

2.项目目标

·建设专业的旅游知识库,实现文旅领域的智能景点信息咨询助手;

·利用大模型能力,实现对第三方地图api的调用;

·基于大模型强大的语言表达能力,实现在专业知识外的闲聊能力;

·基于大模型强大的文本生成能力,实现游客个性化日志的自动生成;

一项目需求

1.知识库构建

实现景点信息数据(包括历史对话、书籍等数据)的批量导入,以合理的分割策略对大文本进行分割,确保数据完整性和准确性。建立景点信息向量数据库(知识库),以支持对话查询系统高效,准确的召回知识库中内容。并支持知识库的优化,编辑。

2.景点信息咨询

通过大模型及知识库结合的方式,构建完善的知识问答系统,为用户提供准确,自然的景点信息咨询服务。

3.地图API调用

通过大模型强大的对话能力,准确识别用户意图,进而调用地图API(集成不超过5个地图API),并以合理的方式返回地图api数据,确保用户可以便捷地查看景点地理位置、周边设施、交通等信息。

4.闲聊功能

提供景点信息咨询以外的闲聊对话能力,集成自然语言处理大模型,确保系统与用户的自由对话功能。系统预制闲聊知识包及答案,企业可按需干预或配置自定义闲聊主题,满足各种碎片化聊天场景。

5.文旅日志生成

根据用户的旅行记录或者模板文字,生成个性化的文旅日志,包括游览记录、游玩随笔、用户体验等内容。提供多文种和排版选择,并支持二次编辑优化,满足用户多样化的需求。

6.数据采集,生成

除现有数据以外,对模型训练所需的数据还需要网页爬取,AI生成+人工审核等方式进行大量补充,以满足训练各种模型的数据量,从而保证模型的泛化能力,提高用户交互体验。

7.数据标注,构建

对系统涉及的模型训练数据(包括提供数据,采集数据,及生成数据)进行人工标注,确保数据的准确性和可靠性,并建立数据标注规范,确保标注数据的一致性。其中不得包含任何形式的恶意言论。

8.模型精调

根据玉龙雪山景点信息咨询等需求,选择合适的模型,算法,使用相关标注数据对模型二次精调,使对话及生成内容更加贴近用户需求和语境。其次根据用户反馈和测试进行模型微调,不断提高用户体验。

9.系统部署及文档

进行系统联调和性能调优,确保系统在高并发情况下7*24小时稳定运行(其中并发不超过10),提供顺畅的用户体验。编写详细的部署说明文档,设计文档,使用文档。准备系统上线所需的各项资源和环境,确保上线前的一切准备工作。

二项目实现

功能模块

工作及流程

备注

知识库构建

数据清洗:处理缺失值、异常值和重复数据。

数据分割:通过AI或指定策略将大文本进行分割

数据向量化:对分割后数据使用深度学习模型进行文本到向量的转换

数据导入:将向量数据导入数据库。

数据库调优:设计适合存储景点信息的数据库

系统联调与集成

景点信息咨询

对用户输入文本进行向量化

通过向量相似度检索知识库中相关知识

召回数据作为大模型的参考知识

构建知识问答场景prompt模板,并不断调整优化。

系统联调与集成

地图API调用

选择合适的大模型对地图调用数据进行微调

构建大模型工具调用场景prompt模板,并不断调整优化。

第三方接口对接,调试

不超过5个

闲聊功能

选择合适的大模型针对现有数据集进行模型微调

安全性和隐私保护:构建内容过滤机制,防止系统回应中出现不当或敏感内容。

构建大模型闲聊场景prompt模板,并不断调整优化。

文旅日志生成

针对文旅日志训练数据进行大模型微调

构建大模型文旅多场景prompt模板,并不断调整优化。

安全性和隐私保护:构建内容过滤机制,防止系统生成不当或敏感内容。

数据采集,生成

对相似应用公开数据进行采集(仅限于提高模型数据不足的情况下)

通过chatgpt或GPT4生成多轮对话训练数据

对采集数据及生成数据进行人工审核

数据标注,构建

制订数据标注流程,规范

对测试结果中的难例数据要着重标注

标注数据审核

模型精调

训练数据格式转换

模型的调研,测试,选择

调整优化模型参数

分布式训练环境搭建

通过文旅相关数据对模型进行训练

系统部署及文档

方案1:使用研究院提供的saas服务,(大模型服务总计10个并发调用)算力+运维费用。

方案2:使用私有化部署,则需要自备算力服务器,建议英伟达V100以上2卡服务器一台(大模型总计每10个并

文档评论(0)

super_1dan + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档