- 1、本文档共33页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章 信息资源管理的技术 5.1 信息资源采集技术 5.2 信息资源压缩技术 5.3 信息资源存储技术 5.4 信息资源共享技术 5.1 信息资源采集技术 5.1 信息资源采集技术 5.1.1文本生成 1、键盘录入 智能ABC、紫光、拼音加加、五笔字型 2、语音识别 语音特征提取 模式匹配(识别算法) 声学模型 语言模型 5.1 信息资源采集技术 语音识别技术的应用可以分为两个发展方向: 一个方向是大词汇量连续语音识别系统,主要应用于计算机的听写机,以及与电话网或者互联网相结合的语音信息查询服务系统,这些系统都是在计算机平台上实现的; 另外一个重要的发展方向是小型化、便携式语音产品的应用,如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用,这些应用系统大都使用专门的硬件系统实现,特别是近几年来迅速发展的语音信号处理专用芯片(Application Specific Integrated Circuit,ASIC)和语音识别片上系统(System on Chip,SOC)的出现。 5.1 信息资源采集技术 1920年代生产的“Radio Rex”玩具狗可能是最早的语音识别器 ATT贝尔实验室开发的Audrey语音识别系统 卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx 电话通信的语音拨号 汽车的语音控制 工业控制及医疗领域 个人数字助理 智能玩具 家电遥控 3、手写输入 手写输入方法,是把要输入的汉字写在一块叫书写板的设备上 。 汉字识别的方法基本上分为结构识别、统计识别以及神经网络方法等几大类。 联机手写识别系统采用的是结构识别方法。优点是区分相似字的能力强,缺点是抗干扰能力差。 汉王联机手写识别系统,目前在中国的嵌入式中文手写技术市场上汉王占有90%以上的市场份额。 手写识别-JHWR jHWR手写识别系统以先进的大容量字典技术为基础,是一种能够在任何时间、任何地点,向任何人实时、准确的提供手写识别服务的高效便捷手段,非常符合信息时代动态更新和个性化查询的需求。 手写识别-eJHWR 运用句法结构自学习算法和基于特征统计算法的多核心融和技术。具有识别率高,识别速度快,无笔顺限制,数据字典大小可缩扩等特点。 5.1 信息资源采集技术 4、OCR识别 OCR是Optical Character Recognition的简称,指光学字符识别技术。是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。 常用软件:尚书六号、清华紫光OCR辨识系统、蒙恬认识王、丹青中英文文件辨识系统 “尚书六号”使用步骤: 扫描图像文件 打开尚书六号读取扫描好的图像文件 被识别图片的预处理 开始进行识别 识别校对完成后,进行保存 5.1 信息资源采集技术 5.1.2 图像扫描 图像扫描常用设备有扫描仪、图像采集卡、数码相机等。 1 扫描仪 1)、什么是扫描仪 扫描仪是指把图像或文字用扫描方式数字化后输入计算机的一种设备。 2)、扫描仪的种类 a.平板式扫描仪 它是由步进电机带动扫描头对图片进行自动扫描。其特点是扫描精度较高、使用方便、成像稳定,它适用于图稿幅面不太大,精度要求较高的场合。 b.手持式扫描仪 它是以手动的方式推动扫描仪对图片进行扫描。其特点是体积小、携带方便、价格便宜,但由于手推进速度均匀性问题,容易造成图像失真。它适用于图稿幅面小、精度要求不太高的场合。 c.滚筒式扫描仪 它是采用扫描头固定、滚动式走纸机构移动图纸而自动完成扫描。它适用于大型工程图的输入,例如A0、A1大幅面图稿输入。 3)、扫描仪的结构 扫描仪主要由上盖、原稿台、光学成像部分、光电转换部分、机械传动部分组成。 5)、CCD扫描仪与CIS扫描仪的比较 4)、扫描仪的工作原理 利用光电元件将检测到的光信号转换为电信号,再将电信号通过模拟数字转换器转化为数字信号传输到计算机中。无论何种类型的扫描仪,它们的工作过程都是将光信号转变为电信号。所以,光电转换是他们的核心 5.1 信息资源采集技术 5.1.3音频采集和生成 音频是一种典型的连续时间型号 计算机每隔固定的时间对波形的幅值进行采样,用得到的一系列数字化量来表示声音。在某一个特定的时刻对音频信号的测量叫做采样 每秒钟采样的次数叫做采样频率,单位为HZ 在数字音频中,把表示声音强弱的模拟电压用数字表示,把某一幅度范围内的电压用一个数字表示,这就是量化 把声音数据写成计算机数据格式,这称之为编
文档评论(0)