2025-11-20 07:17:44
汉字占的字节数要看怎么存。如果是老铁们常用的GB2312或者GBK编码,每个汉字占两个字节。要是用UTF-8编码的话,有些汉字要占三个字节,比如“囧”“龍”这种复杂字。
老铁们知道为啥这样吗?因为汉字编码分单字节和双字节两种体系。GB2312只能存6763个常用字,每个占两个字节,所以总共用了16万汉字空间。但后来出现更多生僻字,就发展出GBK和GB18030,GBK还是双字节但能存更多字,GB18030直接升级到四字节。UTF-8是国际标准,普通汉字用两个字节,但遇到生僻字就自动用三个字节。比如“龘”在UTF-8里就是三个字节,编码是E4 B8 A0 E4 B8 A1 E4 B8 A2。不过现在用UTF-8的话,大部分情况还是两个字节,三个字节的情况很少见。就像手机输入法,平时打“你好”是四个字节,遇到“囧”就变成六个字节。
本题链接: