查询任意汉字的Unicode编码,UTF8编码,GB2312编码,GBK编码
生活随笔
收集整理的这篇文章主要介绍了
查询任意汉字的Unicode编码,UTF8编码,GB2312编码,GBK编码
小编觉得挺不错的,现在分享给大家,帮大家做个参考.
在所有IT项目中,汉字字符编码带来的问题是一个不小的工作量,经常导致乱码的发生。快速查询任意汉字的编码能够更快的定位错误。糖果云库新增了汉字字符集库,可查询任意汉字的Unicode编码,UTF8编码,GB2312编码,GBK编码,库的链接为:
http://www.tgyun.cc/lib/bigtang_汉字字符集
GB2312编码范围:A1A1-FEFE,其中汉字编码范围:B0A1-F7FE。
GB2312编码是第一个汉字编码国家标准,由中国国家标准总局1980年发布,1981年5月1日开始使用。GB2312编码共收录汉字6763个,其中一级汉字3755个,二级汉字3008个。同时,GB2312编码收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。
GBK编码范围:8140-FEFE,汉字编码范围见第二节:码位分配及顺序。
GBK编码,是对GB2312编码的扩展,因此完全兼容GB2312-80标准。GBK编码依然采用双字节编码方案,其编码范围:8140-FEFE,剔除xx7F码位,共23940个码位。共收录汉字和图形符号21886个,其中汉字(包括部首和构件)21003个,图形符号883个。GBK编码支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字。GBK编码方案于1995年12月15日正式发布,这一版的GBK规范为1.0版。
Unicode也是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语言文字的编码方案。Unicode的学名是”Universal Multiple-Octet Coded Character Set”,简称为UCS。UCS可以看作是”Unicode Character Set”的缩写。
UCS有两种格式:UCS-2和UCS-4。顾名思义,UCS-2就是用两个字节编码,UCS-4就是用4个字节(实际上只用了31位,最高位必须为0)编码。
UCS-2有2^16=65536个码位,常说的Unicode编码指的是UCS-2的编码,它又有两种表示方法:
UTF-8就是以8位为单元对UCS进行编码。UTF-16以16位为单元对UCS进行编码。
总结
以上是生活随笔为你收集整理的查询任意汉字的Unicode编码,UTF8编码,GB2312编码,GBK编码的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: 燕山大学高数AⅠ复习资料
- 下一篇: lenovo微型计算机如何拆t410,拆