计算机字符编码方式_计算机如何识别键盘上的字符,采用什么编码方案呢?-程序员宅基地

技术标签: 编码  字符  # 计算机组成  计算机科学  

来源

本文图片均收集自网络


推荐

建议观看以下计算机字符编码方式科普视频

《锟斤拷是怎样炼成的——中文显示“入”门指南【柴知道】》,bilibili @ 柴知道

https://www.bilibili.com/video/BV1cB4y177QR

《你懂乱码吗?锟斤拷烫烫烫(详解 ASCII、Unicode、UTF-32、UTF-8编码)》,bilibili @ 林粒粒呀

https://www.bilibili.com/video/BV1xP4y1J7CS

基础概念

字符和字符集

**字符(character)**可以简单地理解为计算机表示信息的单位

像符号、数字、字母、文字、emoji 表情等肉眼能直接看见的文本或表情都是可见字符(打印字符)

像换行、回车、换页等肉眼不可见,但是却能对文本进行控制的不可见字符(控制字符)

不可见字符中,空格、回车、换行、水平制表、垂直制表还被称为空白字符

**字符集(character set)**就是字符的集合,如常见的 ASCII 字符集,GB2312 字符集,Unicode 字符集等

编号和编码

一个字符集会给每个字符都规定个数字编号

由于计算机只能识别 0 和 1,因而在计算机内部,所有的信息最终都表示为一个二进制串,比如 100111101100000,每一个二进制位(bit)有 0 和 1 两种状态,而将字符对应到一个二进制串的过程,叫做字符编码(character encoding)

注释

下文如无特殊说明,出于方便,编码均采用 16 进制数字进行表示,但实际上最终存储在计算机中还是 2 进制的数字

一般对于比较小的字符集不用考虑太多,一个字符集就只有一种编码方式,只要转换成二进制,一个字符的编号就是它的编码。但对像 Unicode 这种比较大的字符集就不一定是了,它有着多种编码方式,编号也不等于编码

字符集发展史

字符集有一个发展历史,ASCII 是最早出现的字符集,仅含有 128 个字符,但局限于英文字母和部分符号,无法适用于非英语国家和地区,即便是后来拓充成 ASICII 字符集也不够用

后来各个国家和地区都推出了自己的字符集,如中国大陆推出 GB2312、GBK、GB18030,中国港澳台地区推出 Big5 等

但各地标准不统一,同一个编码在不同字符集里对应的很可能是完全不同的字符,这就导致乱码现象,最终才出现相关组织意推出囊括全球的大一统字符集 UCS 和 Unicode

目前主流的字符集是 Unicode,采取 UTF-8 编码方式

image-20221028175019

GB2312、GBK、GB18030

发展历史

其实“GB”就是“国标”,“K”就是“扩”的意思

  • 1980年, GB2312-80(我国的第一套汉字集标准),共包含7445个字符,其中6763个常用汉字
  • 1995年,GBK,由GB2312-80(和港、台两种标准)扩展而来,共包含21886个字符,其中常用汉字14240个
  • 2000年,GB18030-2000编码标准是由信息产业部和国家质量技术监督局在2000年3月17日联合发布的,并且作为一项国家标准在2001年的1月正式强制执行;增加了6351个字符,其中一部分为4字节字(four-byte encoding range)
  • 2005年,GB18030-2005《信息技术中文编码字符集》是中国制订的以汉字为主并包含多种中国少数民族文字(如藏、蒙古、傣、彝、朝鲜、维吾尔文等)的超大型中文编码字符集强制性标准,其中收入汉字70000余个

GB2312 收录的是最常用的汉字,可以说我们用到的 99% 的汉字,都属于 GB2312 编码范围

目前用的最为广泛的中文字符集是 GBK

image-20221028210329

编码方式

对应

GB2312、GBK、GB18030 编码知识均学习自《彻底搞明白 GB2312、GBK 和 GB18030》

https://zhuanlan.zhihu.com/p/453675608

GB2312 把每个汉字都编码成两个字节,第一个字节称为"高位字节",第二个字节称为"低位字节"

平常说的“英文字母单字节,中文汉字双字节”就出自于此

“半角”和“全角”的概念也出自于此,“半角”是占单字节的字符,“全角”是占双字节的字符,中文由于全是双字节因而没有半角和全角的区别,或者说中文全是全角。但英文和部分标点符号有半角和全角的区别,全角的英文和部分标点符号显示表现为更“胖”了

image-20221028212050

GBK 也是把每个汉字都编码成两个字节,但编码范围更广,涵盖字符数量更多

image-20221028212058

GB18030 是变长多字节编码,每个字或字符可以由一个,两个或四个字节组成

image-20221028212058

GB2312、GBK、GB18030 依次在前者的基础上扩充而来,因而都能向前兼容

Unicode

Unicode,也被称为万国码、统一码

狭义的 Unicode 就只是字符集,广义的 Unicode 是一套标准,包括了字符集编码规则

Unicode 规定了每个字符的数字编号,这个 Unicode 编号被称为码点(code point)码位(code position),通常在编号前面加上"U+"表示是 Unicode 的编号

Unicode 的实现方式,也就是编码方式,被称为 Unicode 转换格式(Unicode Transformation Format,UTF),目前有 UTF-8、UTF-16、UTF-32 几套方案

考虑到存储空间、格式识别等一系列因素,码点一般都不等于编码,需要进行一定的处理才形成编码

如对于字符“你”而言

码点 UTF-8 编码 UTF-16 编码 UTF-32 编码
4F60 E4 BD A0 4F 60 00 00 4F 60

相关

Unicode 字符百科

https://unicode-table.com/cn/blocks/

编码方式

对应

Unicode 编码知识部分学习自《UTF8、UTF16、UTF32区别》

https://blog.csdn.net/zhaohong_bo/article/details/89196938

UTF-8:当编码为一个字节,则设最高比特位为 0,当编码超过一个字节,则需要几个字节,就在第一个字节从最高位开始令连续的几个比特位为 1,之后的字节最高位为 10

image-20221029011859888

UTF-16:使用2或4个字节进行存储。对于 Unicode 编号范围在 0~FFFF 之间的字符,统一用两个字节存储,无需字符转换,直接存储 Unicode 编号。对于 Unicode 字符编号在 10000-10FFFF 之间的字符,UTF-16 用四个字节存储

image-2022102933038

UTF-32:用固定长度的字节存储字符编码,不管 Unicode 字符编号需要几个字节,全部都用 4 个字节存储,直接存储Unicode 编号

平面

目前的 Unicode 字符分为 17 组编排,每组称为一个平面(Plane),而每平面拥有 65536(即 2¹⁶)个码点

每个平面还根据用途划分成若干个区块(Block),区块相当于把同类字符放在一起,方便检索和补充

而首个 16 位统一码字符的平面称为基本多文种平面(BMP),写成 16 进制就是从 U+0000 到 U+FFFF,剩下还有 16 个辅助平面(SMP),码点范围从 U+010000 一直到 U+10FFFF,绝大部分的常见字符都在首个平面

这 17 个平面结合起来至少需要占据 21 位的空间,也就是差不多 3 个字节(24 位),而辅助平面实际上是用 4 个字节表示,方便以后向后扩展。

image-2022102943046

  • 第 0 平面称为BMP(Basic Multilingual Plane)平面,又称为基本多文种平面

  • 第 1 辅助平面称为 SMP(Supplementary Multilingual Plane)平面,又称为多文种补充平面,主要摆放拼音文字及符号

  • 第 2 辅助平面称为 SIP(Supplementary Ideographic Plane)平面,又称为表意文字补充平面,其范围为 20000-2FFFF。

  • 第 3 辅助平面称为 TIP(Tertiary Ideographic Plane)平面,又称为表意文字第三平面,其范围为 30000-3FFFF

  • 第 4 至 13 辅助平面尚未使用

  • 第 14 辅助平面称为 SSP(Supplementary Special-purpose Plane)平面,又称为特殊用途补充平面,摆放语言标签(Language Tags)和异体字选择器(Variation Selectors),这些都是控制字符,其范围为 E0000-EFFFF

  • 第 15 辅助平面为补充私人使用区-A (Supplementary Private Use Area-A),其范围为 F0000-FFFFF

  • 第 16 辅助平面为补充私人使用区-B(Supplementary Private Use Area-B),其范围为 100000-10FFFF

emoji

emoji 表情也可以被称作绘文字、彩色象形字符,算是一类特殊的字符,如 。最开始的 emoji 源于日语“絵文字”,是日本手机使用的表情,后来才被部分收录进 Unicode 字符集

起初,Unicode 中的 emoji 表情只有黑色,而随着 emoji 表情的发展,越来越多 emoji 表情开始有了彩色版本

此处额外提及一下另一个词“颜文字”,源于日语“顔文字(kaomoji)”,颜文字是指用若干个字符排列成表情的样子,如 O(∩_∩)O ,和 emoji 表情完全不是一个概念,但有的地方会把二者混为一谈

相关

目前 Unicode 中收录的所有 emoji 表情

https://www.unicode.org/emoji/charts/emoji-list.html

各版本 Unicode 中收录的 emoji 表情的相关数据

https://unicode.org/Public/emoji/

Unicode 只是规定了 emoji 的码点和含义,并没有规定它具体表现成什么形式,Unicode 联盟主要负责的就是 emoji 的审核、管理和编码等工作,而设计 emoji 外观的任务则交到了各平台手里

有的平台出于规避版权风险,有的平台出于自己的设计理论、品牌风格来重新设计 Emoji 表情。比如有的 Emoji 表情富有立体感,并含有着渐变和阴影的细节,有的 Emoji 表情趋于扁平简约化

image-20221029040419525

因而发出去同个 emoji 表情(同个码位),在不同平台上看到的样式可能是截然不同的

image-20221029145017

image-2022103085747

相关

emoji 的百科网站

网站 Emojipedia

https://emojipedia.org/zh/

网站 EmojiXD

https://emojixd.com/

网站 EMOJIALL

https://www.emojiall.com/zh-hans

输入

emoji 表情没有办法直接通过键盘输入,但可以通过复制粘贴,或通过码点输入 emoji 表情(对于其他 Unicode 字符也同样适用)

  • dddd是十进制码点,hhhh 是十六进制码点
  • 在 HTML 中,可以写成 HTML 实体 &#dddd;&#xhhhh;
  • 在 CSS 中,可以写成 \hhhh
  • 在 JavaScript 中,可以写成 \uhhhh
  • 在部分平台上(如 GitHub、Slack 等),可以使用 emoji 简短代码(Emoji Shortcode)
  • 有的平台可能会有特定的快捷输入 emoji 的方式

以 emoji 表情为例,可以将其码点 U+1F600 写成 HTML 形式 😀(十进制)或 😀(十六进制),CSS 形式 \1F600,JavaScript 形式 \uD83D\uDE00(辅助平面的字符需借助 UTF-16 编码成 8 位),在部分平台上简短代码 :grinning:

相关

emoji 简短代码介绍

https://www.emojiall.com/zh-hans/help-shortcode

微信快捷输入 emoji 表情方法

https://www.emojiall.com/zh-hans/platform-wechat

序列

对应

emoji 序列相关知识学习自《emoji 编码规则介绍》

https://blog.csdn.net/chriscross/article/details/104746788

一个 emoji 表情,通常由一个 Unicode 码点表示,但也可以由多个 Unicode 码点组合成一个序列表示

但由于并不是所有的系统都支持最新的 emoji 标准,因而在有的系统上,多个 Unicode 码点组合成一个序列表示 emoji 表情会被拆成多个 emoji 表情进行显示

表示序列

有些字符,它既可以显示成黑白文本,也可以显示成彩色 emoji 表情,有的默认显示为前者,有的默认显示为后者,此处列举几个

表示序列(emoji presentation sequence),用于说明一个字符显示为文本还是 emoji 表情

如果一个字符后面加上 U+FE0E,那么它就作为文本显示

如果一个字符后面加上 U+FE0F,那么它就作为 emoji 表情显示

格式

基础字符 + 显示方式 = 文本/emoji表情


例子

U+26C4) + U+FE0E = ︎(U+26C4 U+FE0E


例子

image-20221029020923203

修饰序列

修饰序列(emoji modifier sequence),由一个基础字符(base)和一个修饰字符(modifier)组成,主要用来修改 emoji 表情中人的肤色

image-20221029143820028

格式

基础 emoji 表情 + 肤色 = 对应肤色的 emoji 表情


例子

U+1F9D1) + (U+1F3FE) = (U+1F9D1 U+1F3FE

image-20221029143730886

image-2022103092104

相关

emoji 肤色类型

https://www.arpansa.gov.au/sites/default/files/legacy/pubs/RadiationProtection/FitzpatrickSkinType.pdf

旗帜序列

旗帜序列(emoji flag sequence)

格式

区域指标字母1 + 区域指标字母2 = 2个字母组成的国家码对应的国旗


例子

U+1F1E8) + (U+1F1F3) = (U+1F1E8 U+1F1F3

键盘序列

键盘序列(emoji keycap sequence)

格式

数字 + U+FE0E + 方框 = 数字键盘


例子

2(U+0032) + U+FE0F + ⃣ (U+20E3) = 2️⃣ (U+0032 U+FE0F U+20E3

零宽连接序列

零宽连接序列(emoji zero width joint sequence),通过 ZWJ 等宽连接符(U+200D),对多个 emoji 表情进行组合

目前有 5 种组合方式

格式

emoji 表情1 + U+200D + emoji 表情2 = 合成 emoji 表情


例子

‍(U+1F468) + U+200D + ‍(U+1F469) + U+200D + ‍(U+1F467)= ‍(U+1F468 U+200D U+1F469 U+200D U+1F467

image-20221029143938865

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_42077074/article/details/127588334

智能推荐

机器学习模型评分总结(sklearn)_model.score-程序员宅基地

文章浏览阅读1.5w次,点赞10次,收藏129次。文章目录目录模型评估评价指标1.分类评价指标acc、recall、F1、混淆矩阵、分类综合报告1.准确率方式一:accuracy_score方式二:metrics2.召回率3.F1分数4.混淆矩阵5.分类报告6.kappa scoreROC1.ROC计算2.ROC曲线3.具体实例2.回归评价指标3.聚类评价指标1.Adjusted Rand index 调整兰德系数2.Mutual Informa..._model.score

Apache虚拟主机配置mod_jk_apache mod_jk 虚拟-程序员宅基地

文章浏览阅读344次。因工作需要,在Apache上使用,重新学习配置mod_jk1. 分别安装Apache和Tomcat:2. 编辑httpd-vhosts.conf: LoadModule jk_module modules/mod_jk.so #加载mod_jk模块 JkWorkersFile conf/workers.properties #添加worker信息 JkLogFil_apache mod_jk 虚拟

Android ConstraintLayout2.0 过度动画MotionLayout MotionScene3_android onoffsetchanged-程序员宅基地

文章浏览阅读335次。待老夫kotlin大成,扩展:MotionLayout 与 CoordinatorLayout,DrawerLayout,ViewPager 的 交互众所周知,MotionLayout 的 动画是有完成度的 即Progress ,他在0-1之间变化,一.CoordinatorLayout 与AppBarLayout 交互时,其实就是监听 offsetliner 这个 偏移量的变化 同样..._android onoffsetchanged

【转】多核处理器的工作原理及优缺点_多核处理器怎么工作-程序员宅基地

文章浏览阅读8.3k次,点赞3次,收藏19次。【转】多核处理器的工作原理及优缺点《处理器关于多核概念与区别 多核处理器工作原理及优缺点》原文传送门  摘要:目前关于处理器的单核、双核和多核已经得到了普遍的运用,今天我们主要说说关于多核处理器的一些相关概念,它的工作与那里以及优缺点而展开的分析。1、多核处理器  多核处理器是指在一枚处理器中集成两个或多个完整的计算引擎(内核),此时处理器能支持系统总线上的多个处理器,由总..._多核处理器怎么工作

个人小结---eclipse/myeclipse配置lombok_eclispe每次运行个新项目都需要重新配置lombok吗-程序员宅基地

文章浏览阅读306次。1. eclipse配置lombok 拷贝lombok.jar到eclipse.ini同级文件夹下,编辑eclipse.ini文件,添加: -javaagent:lombok.jar2. myeclipse配置lombok myeclipse像eclipse配置后,定义对象后,直接访问方法,可能会出现飘红的报错。 如果出现报错,可按照以下方式解决。 ..._eclispe每次运行个新项目都需要重新配置lombok吗

【最新实用版】Python批量将pdf文本提取并存储到txt文件中_python批量读取文字并批量保存-程序员宅基地

文章浏览阅读1.2w次,点赞31次,收藏126次。#注意:笔者在2021/11/11当天调试过这个代码是可用的,由于pdfminer版本的更新,网络上大多数的语法没有更新,我也是找了好久的文章才修正了我的代码,仅供学习参考。1、把pdf文件移动到本代码文件的同一个目录下,笔者是在pycharm里面运行的项目,下图中的x1文件夹存储了我需要转换成文本文件的所有pdf文件。然后要在此目录下创建一个存放转换后的txt文件的文件夹,如图中的txt文件夹。2、编写代码 (1)导入所需库# coding:utf-8import ..._python批量读取文字并批量保存

随便推点

Scala:访问修饰符、运算符和循环_scala ===运算符-程序员宅基地

文章浏览阅读1.4k次。http://blog.csdn.net/pipisorry/article/details/52902234Scala 访问修饰符Scala 访问修饰符基本和Java的一样,分别有:private,protected,public。如果没有指定访问修饰符符,默认情况下,Scala对象的访问级别都是 public。Scala 中的 private 限定符,比 Java 更严格,在嵌套类情况下,外层_scala ===运算符

MySQL导出ER图为图片或PDF_数据库怎么导出er图-程序员宅基地

文章浏览阅读2.6k次,点赞7次,收藏19次。ER图导出为PDF或图片格式_数据库怎么导出er图

oracle触发器修改同一张表,oracle触发器中对同一张表进行更新再查询时,需加自制事务...-程序员宅基地

文章浏览阅读655次。CREATE OR REPLACE TRIGGER Trg_ReimFactBEFORE UPDATEON BP_OrderFOR EACH ROWDECLAREPRAGMA AUTONOMOUS_TRANSACTION;--自制事务fc varchar2(255);BEGINIF ( :NEW.orderstate = 2AND :NEW.TransState = 1 ) THENBEG..._oracle触发器更新同一张表

debounce与throttle区别及其应用场景_throttle和debounce应用在哪些场景-程序员宅基地

文章浏览阅读513次。目录概念debouncethrottle实现debouncethrottle应用场景debouncethrottle场景举例debouncethrottle概念debounce字面理解是“防抖”,何谓“防抖”,就是连续操作结束后再执行,以网页滚动为例,debounce要等到用户停止滚动后才执行,将连续多次执行合并为一次执行。throttle字面理解是“节流”,何谓“节流”,就是确保一段时..._throttle和debounce应用在哪些场景

java操作mongdb【超详细】_java 操作mongodb-程序员宅基地

文章浏览阅读526次。regex() $regex 正则表达式用于模式匹配,基本上是用于文档中的发现字符串 (下面有例子)注意:若未加 @Field("名称") ,则识别mongdb集合中的key名为实体类属性名。也可以对数组进行索引,如果被索引的列是数组时,MongoDB会索引这个数组中的每一个元素。也可以对整个Document进行索引,排序是预定义的按插入BSON数据的先后升序排列。save: 若新增数据的主键已经存在,则会对当前已经存在的数据进行修改操作。_java 操作mongodb

github push 推送代码失败. 使用ssh rsa key. remote: Support for password authentication was removed._git push remote: support for password authenticati-程序员宅基地

文章浏览阅读1k次。今天push代码到github仓库时出现这个报错TACKCHEN-MB0:tc-image tackchen$ git pushremote: Support for password authentication was removed on August 13, 2021. Please use a personal access token instead.remote: Please see https://github.blog/2020-12-15-token-authentication_git push remote: support for password authentication was removed on august 1