Unicode&,也称为统一码、万国码、单一码,是一种用于字符编码的国际标准,旨在为每种语言中的每个字符设定统一的二进制编码,以实现跨语言、跨平台的数据交换。
Unicode字符集被分为17个平面,每个平面包含最多65536个字符,其中第0平面包含基本多文种平面(BMP)字符,用于表示常见的字符,如字母、数字和标点符号。其他平面用于表示少见的字符和表意文字,例如老挝文、南亚语言、古代希腊文等。
Unicode采用不同的编码方案来表示字符集中的字符,其中最常用的是UTF-8、UTF-16和UTF-32。UTF-8是一种可变长的编码方式,用1到4个字节表示字符,适合于互联网传输。UTF-16是一种固定长度的编码方式,用2个字节表示字符,通常用于内存中处理和存储。UTF-32也是固定长度的编码方式,用4个字节表示字符。
例如,“严”字在Unicode中对应的码点是U+0x4E25。