计算机中的文字表示方法.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算机中的文字表示方法

计算机中的文字表示方法 一:计算机文字的基本知识 Ⅰ:根源计算机里所有的字符最根本是一张张的矢量图片,然后把这些图片存在字库里,(ttf文件就是字库矢量图文件)存储那文字信息是如何交流传递的呢?存储的话,牵扯一个重要的东西-----编码,每一个字符(包括各国国家的字符,当然包括汉字)有一个对应编码的唯一内码,就是存储了。然而同一个字符(例如“中”字)不同编码对应的内码不一样,Unicode编码的话在计算机里的存储的十六进制是“2D4E”,两个字节;国标码存的是“D6D0”,两个字节;utf8存的是“E4B8AD”三个字节;……显示那么,我们存储的汉字是如何被调用现实屏幕显示的呢?不同的编码,存储方式,如何找到这个字符的呢?这是通过识别到文本编码后再通过这个字的内码,找到字库中存贮这个字符(其实就是一张图片)的位置,然后显示出来。如果用放大镜看一下,可以看出屏幕上的字是由一个一个的像素点组成的,每一个字符用一组像素点拼接出来,这些像素点组成一幅图像,变成了我们的文字字符编码由于我们的文字中存在着大量的重复字符,而计算机天生就是用来处理数字的,为了减少我们需要保存的信息量,我们可以使用一个数字编码来表示每一个字符,通过对每一个字符规定一个唯一的数字代号,然后,对应每一个代号,建立其相对应的图形,这样,在每一个文件中,我们只需要保存每一个字符的编码就相当于保存了文字,在需要显示出来的时候,先取得保存起来的编码,然后通过编码表,我们可以查到字符对应的图形,然后将这个图形显示出来,这样我们就可以看到文字了,这些用来规定每一个字符所使用的代码的表格,就称为编码表。编码就是对我们日常使用字符的一种数字编号。 第一个编码表 ASCII 在最初的时候,美国人制定了第一张编码表《美国标准信息交换码》,简称 ASCII,它总共规定了 128 个符号所对应的数字代号,使用了 7 位二进制的位来表示这些数字。其中包含了英文的大小写字母、数字、标点符号等常用的字符,数字代号从 0 至 127,A Q a q 0010 STX DC2 ” 2 B R b r 由于 ASCII 出现最早,因此各种编码实际上都受到了它的影响,并尽量与其相兼容。 扩展 ASCII 编码 ISO8859 大字符集的烦恼 而微软公司自Windows 95 简体中文版开始支持GBK代码,但目前的许多软件都不能很好地支持GBK汉字。 GBK 编码区分三部分: * 汉字区 包括 GBK/2 :OXBOA1-F7FE, 收录GB2312汉字6763个,按原序排列; GBK/3 :OX8140-AOFE,收录CJK汉字6080个; GBK/4 :OXAA40-FEAO,收录CJK汉字和增补的汉字8160个。 * 图形符号区 包括 GBK/1 :OXA1A1-A9FE,除GB2312的符号外,还增补了其它符号 GBK/5 :OXA840-A9AO,扩除非汉字区。 * 用户自定义区 即GBK区域中的空白区,用户可以自己定义字符。 GB18030 是最新的汉字编码字符集国家标准, 向下兼容 GBK 和 GB2312 标准。 GB18030 编码是一二四字节变长编码。一字节部分从 0x0~0x7F与 ASCII 编码兼容。二字节部分, 首字节从 0x81~0xFE, 尾字节从 0x40~0x7E 以及 0x80~0xFE, 与 GBK标准基本兼容。四字节部分, 第一字节从 0x81~0xFE, 第二字节从 0x30~0x39, 第三和第四字节的范围和前两个字节分别相同。 6:不一样的中文 7:新希望 UTF-8 ?为了尽可能与现有的软件和硬件相适应,美国人又制定了一系列用于传输和保存Unicode 的编码标准 UTF,这些编码称为UCS 传输格式码,也就是将 UCS 的编码通过一定的转换,来达到使用的目的。常见的有 UTF-7,UTF-8,UTF-16等。 其中 UTF-8 编码得到了广泛的应用,UTF-8 的全名是UCS Transformation Format 8, 即 UCS 编码的8位传输格式,就是使用单字节的方式对 UCS 进行编码,使 Unicode 编码能够在单字节的设备上正常进行处理。实际上,ASCII 字符用 UTF-8 来表示后,与 ASCII 是完全一样的,美国人又近水楼台的把自己的问题解决了。但其他的编码就没有这么幸运了突破障碍 - Unicode 与本地编码的转换 UTF-8 编码解决了字符的编码问题,又可以在现有的设备上通行,因此,得到了广泛的使用?总结 ?编码问题是信息处理的基本问题,但是由于历史和政治的问题,事实上存在着大量不统一的编码方式,造成在信息处理过程中的信息丢失,转换错误等问题,UCS 为问题的解决提供了一个很好的方向,但是

文档评论(0)

zhuwenmeijiale + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7065136142000003

1亿VIP精品文档

相关文档