YD_T 2143-2010基于国际多语种域名体系的中文域名的编码处理技术要求.pdf

YD_T 2143-2010基于国际多语种域名体系的中文域名的编码处理技术要求.pdf

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
ICS 33.040.40YOM 32中华人民共和国通信行业标准YD/T 2143-2010基于国际多语种域名体系的中文域名编码处理技术要求Technical specification for coding of Chinese domain names2011-01-01 实施2010-12-29 发布中华人民共和国工业和信息化部发布 YD/T 2143-2010目次前言1范围·2规范性引用文件3术语、定义和缩略语3.1 术语和定义3.2缩略语·4 字符串预处理和中文域名字段预处理·4.1字符串预处理框架·4.2字符预备处理概要4.3映射4.4 归一化·4.5禁止输出4.6双向字符4.7字符串预处理框架中的未分配码位·4.8 中文域名字段预处理·5Punycode 编码··5.1 -Punycode 特点·5.2 Bootstring 架构..5.3Bootstring 参数.5.4Punycode 参数值.105.5 Bootstring 算法·105.6 Punycode 算法实现例子..附录A(规范性附录)UNICODE 保留字符表附录B(规范性附录)映射表·附录C(规范性附录)禁止输出表38附录D(规范性附录)双向字符表·+附录 E(资料性附录)punycode 编码解码例子附录 F(资料性附录)punycode 算法编码解码 C 语言实现例子46 YD/T 2143-2010果:即使比较结果是匹配,也具有不确定性,此时很有可能的结果是:两个串匹配而使用一个更新的框架的时候结果却不匹配了(当一个码位在X和Y中都被禁止输出)。本标准禁止存储字符串包含有任何未分配码位。4.7.1代码位的种类在字符串预处理框架中定义的每个码位都可以根据他在上述步骤中的操作方式进行分类:a)AO,可以在输出中出现的代码位;c)D,因为在禁止输出步骤中被禁止而不可能出现在输出中的代码位;d)U,未分配的代码位。或者 D 分类。为了向后的兼容性,新版本的框架不应从别的任何分类中转移码位。既当前在 MN,AO和D分类中的码位一定不能转移到其他分类中。最新版本字符串预处理框架中的存储字符串禁止包含除了AO分类之外的码位,既禁止包含任何MN,D,或者 U分类中的码位。应用程序在创建一个查询时,这个应用程序在输入时应把U类代码位当作AO类代码位看待。这些应用程序可以有选择的使用一个提供严格字符检查的预处理程序:把输入中出现的未分配代码位当作错4.8中文域名字段预处理中文域名字段预处理 nameprep 是字符串预处理的一种框架,实现 nameprep必须首先完全实现字符串预处理。nameprep是用来直接处理中文域名字段的,而不是整个域名。CDNA对每个域名字段会调用nameprep。Nameprep 使用附录 A 中的字表;映射时使用附录 B.1 和 B.2;归一化时使用 KC 形式的归一化;禁止输出表使用附录表 C.1.2、C.2.2、C.3、C.4、C.5、C.6、C.7、C.8、C.9;如果应用程序在实现CDNA 时使用未分配码点列表,应使用附录 A.1中的字表。5 punycode 编码5.1 punycode 特点[CDNA]规定了支持 CDN 的架构。非 ASCI 形式的域名字段可以用 ACE 前缀开始的 ACE形式表示。后缀是 UNICODE 字串的 punycode 编码。punycode 是一种为国际化多语种域名设计的一种简单高效的转换编码方法。它唯一且可逆转地把 UNICODE 字串转换成 ASCI 字串。UNICODE 里的 ASCI 字符还是按原来的字符显示,非 ASCI 字符用 ASCI 字符中 LDH 表示。本标准规定了一种叫 bootstring 的通用的参数使其符合国际化多语种域名应用的需要而设计,punycode 主要是用来把中文域名字段转换成ASCI 形式。Bootstring被设计成有下列特点:a)完备性:任意扩展的字串可以被基础字串表示,对字串的限制可以在应用的高层来做;b)唯一性:至多只有一个基础字串表示扩展字串;c)可逆转性:任何被表示成基础字串的扩展字串可以从基础字串转换回来;d)编码高效性:基础字串的长度和扩展字段的长度的比值很小;7 YD/T 2143-2010e)简单性:编码和解码方法容易实现;f)可读性:扩展字串中的基础码位仍旧被表示成原来的码位。5.2Bootstring 架构Bootstring 把扩展字串表示成基础字串。随后的几小节规定了 bootstring 里的 4 项技术。基础码位分离是一次性把扩展字串中的基础码位一次性的复制出来。插入未整理的编码是把非基础码位分成堆,这些堆的排列不是根据码位出现的顺序而是码位所代表表示。当连续的堆有相似的量级的时候,这些整数表示可以用贝叶斯调

您可能关注的文档

文档评论(0)

consult + 关注
官方认证
内容提供者

consult

认证主体山东持舟信息技术有限公司
IP属地山东
统一社会信用代码/组织机构代码
91370100MA3QHFRK5E

1亿VIP精品文档

相关文档

相关课程推荐