科博杯”第三届中国研究生人工智能创新大赛赛题.docx

科博杯”第三届中国研究生人工智能创新大赛赛题.docx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

科博杯”第三届中国研究生人工智能创新大赛赛题

一、大赛赛题

(一)技术创新:开放题

(二)应用创意:开放题

(三)企业赛题:华为赛题共4个,均为华为技术有限公司从实际需求出发拟定的与智能技术密切相关的题目。属于此种选题方式的作品还可以参与华为专项奖的评奖。

1.华为赛题一

1.1?题目名称:提升AI模型在工业质检中“通用性”

1.2?题目描述

计算机视觉在智能制造工业检测中发挥着检测识别和定位分析的重要作用,为提高工业检测的检测速率和准确率以及智能自动化程度做出了巨大的贡献。然在应用过程中会存在如下“通用性”差的问题:

(1)易受光照影响。目前的AOI工业质检设备,都需要加补光装置,而通常在某一个光照条件下训练的AI模型,很难“泛化”到其他光照条件下。

(2)样本数据少。基于工业质检场景对高精度要求,目前AI模型,通常采用有监督学习方式,需要采集大量缺陷样本进行训练,当在实际生产中,缺陷产品占比很小,很难收集大量样本。

(3)无法跨域“迁移”。比如训练了一个PC外观缺陷检测的模型,但是却无法直接用于手机屏幕、冰箱、洗衣机甚至不同型号的PC的外观缺陷检测。

1.3?具体要求

(1)所提方法,必须具有“通用性”,不可只能解决某一个小问题。

(2)可在一些公开数据集上实现算法,进行验证,并通过多组对比实验,证明方法的有效性。

(3)在保证模型“通用性”条件下,尽量保证模型精度不下降。

1.4?华为赛题一咨询专家及联系邮箱:

OCR及工业质检通用性--温雨金--wenyujin@

?

2.华为赛题二

2.1?题目名称:自然场景下的小样本光学字符识别算法

2.2?题目描述

当前光学字符识别算法,主要采用深度学习的方法进行识别,目的是识别出图像中出现的文字。由于传统的深度学习方法需要基于大量样本进行有监督训练,在训练样本不充足的情况下,难以得到泛化性高的模型。这导致在新增样本识别任务中,出现误判或者错判。

在制造,供应仓储等场景下,对于元器件、电路板的字符图片,由于元器件供应商多,器件种类多,字符的样式多种多样,且针对一家供应商无法大量搜集电路板、元器件上的字符图片样例,同样对于跨境运输的货车,车牌样式,字体均不一致,且数据难以搜集。需要一种小样本训练的算法,在提供少量(20张以内)图片的情况下,即可训练出一个识别模型,识别待测物体的字符。

2.3?具体要求

(1)基于小样本学习的光学字符识别算法,训练样本数量小于等于20张图片。对采集到的图像进行标记、学习,生成识别模型。可实现图像的自动采集、在线处理和检测及识别。

(2)模型以一张图片作为数据,以Json格式输出图片中的文字的位置和内容。

2.4?华为赛题二咨询专家及联系邮箱

自然场景下的小样本光学字符识别算法--温雨金--wenyujin@

?

3.?华为赛题三

3.1?题目名称:视觉-语义模式匹配

3.2?题目描述

当代基于深度神经网络的视觉模型已经取得了极大的成功。但许多实验都表明,常规视觉模型通常以感知的形式实现各类视觉任务,如检测、分割、识别等等。一旦这些任务中涉及抽象的语义,视觉模型通常会受到困扰,并且容易发生过拟合。一种可能的方式是通过自然语言描述与视觉信息的模式匹配,使得视觉模型可以区分不同语义的信息,完成更高鲁棒性的特征提取过程,并且可以利用这一点直接支持下游各类任务。比如,在仓储、物流等场景中,模型可以直接根据“卸货车辆后方未着工作服的行人”这类概念提示潜在货物风险或行人危险;在商业文档识别等场景中,模型可以根据“价格栏下方的数字”作为潜在的物品价格等等可能。请设计一种视觉-语义模式匹配的方式,使得至少可以通过自然语言输入完成对图像的检索,或者对给定的图像完成正确的自然语言描述输出。

3.3?具体要求

(1)图像检索任务可以是从图库中检索单张或多张图片,也可以从图片中进一步检测出给定的待选区域,或是两者结合。输入越接近自然语言、结果越是准确、检索的内容越是精细的检索方式得分越高。不限定自然语言输入的格式要求,允许设计带有限制性的语言格式(比如可以设计一个JSON列表作为输入,但JSON的值仍然需要尽可能地包含自然语言)。

(2)语言输出任务是对选定图片进行语言描述,描述的准确性越高、信息越丰富,得分越高。语言流畅度不作为主要得分项(所以也可以一定程度上结构化输出),但至少应该可以被人类较方便地读懂。

(3)任务数据限定为自然场景数据和OCR类文档数据。参考文献仅提供参考,可以使用其他合理的数据集,但所使用数据集需要本身为公开数据集或可以被公开展示。

(4)提供与现有基线方法的比较和差异化创新点说明。

3.4?参考文献与数据集

ModelingContextinReferringExpressions:/pdf/1608.00272

Cont

文档评论(0)

zgc1960 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档