2025-11-20 07:28:15
网页编码就是给每个汉字或符号打上对应的数字标签,就像给信封贴编号一样。比如"中"字在UTF-8编码里是"EFBC9F",在GBK编码里是"5B9C"。浏览器收到网页时,会根据这个标签找到对应的汉字或符号显示出来。
很多人看到网页显示乱码,是因为编码不匹配。比如用UTF-8的网页在用GBK的浏览器里打开,就会显示"�"这样的乱码。根据Unicode标准,全球有109万多个字符可用,但国内常用的是GB2312(6万6千多字)、GBK(8万多个字)、GB18030(超过20万字)和UTF-8(支持所有Unicode字符)。当浏览器检测到网页内容是UTF-8编码时,会直接转换数字标签;如果检测错误,比如把UTF-8当成GBK,就会显示乱码。比如某电商网站用UTF-8编码传输"优惠价",如果浏览器误判为GBK,就会变成"优",后面的乱码就是未识别的标签。测试数据显示,国内90%的网站用UTF-8编码,但仍有10%的网站用GBK或GB2312,导致约5%的用户会遇到乱码问题。
本题链接: