-
字节和字符 字节 8位二进制 字符(文化概念,字符串索引中英文都是1字符)
-
ASCII码 Unicode ASCII码只能表示英语字母和符号128个(1字节)
Unicode表示大部分国家常用字符,包括ASCII,1到4字节都有可能 -
GBK和UTF-8 UTF-16 GBK无论中文2字节,英文1字节 Unicode虽然能表达所有常用字符,但是1到4字节都有可能,转成字符存储后不知道如何解析,所以要有一定规则进行编码如UTf-8
每个字节开头有几个1就表示接下来几个字节都是同一个字符
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
UTF-8是Unicode的实现,使用1到4字节编码,汉字2-4个字节,英文1字节, windows上选择编码方式Unicode其实是UTF-16,使用2字节或者4字节,英文和大多数中文都用2字节
历史、基本介绍
https://www.cnblogs.com/gavin-num1/p/5170247.html
常见编码GBK、GB2312、UTF-8、ISO-8859-1的区别
https://blog.csdn.net/shijing_0214/article/details/50908144