字符编码

HTML5文档中使用的默认字符编码为UTF-8

但是对于早期网络,普遍使用的字符编码是ASCII码。

后来,从HTML2.0到HTML4.01,一般以ISO-8859-1作为标准。

对于XML和HTML5,使用UTF-8终于解决了很多字符编码上的问题。

以ASCII码开始

计算机信息(数字、文本、图片)以二进制(0和1)形式储存。

为了规范字符数字字母的存储, 创建了美国标准信息交换码(American Standard Code for Information Interchange),缩写为ASCII。 它定义了使用7位二进制数(0~127)表现字母(a-z,A-Z)、数字(0-9)、记号( ! $ + - ( ) @ )。ASCII只能表示128个不同的字符。

ASCII最大的弱点是,它排除了非英文字母。

ASCII至今仍然被广泛使用,特别是大型计算机系统。

Windows上的ANSI

ANSI(又称为Windows-1252)是Windows的默认字符编码。

ANSI是ASCII码的扩展,添加了国际字符。采用了完整字节(8位)表现256个不同的字符。

因为ANSI是Windows中的默认字符编码,所以所有浏览器都支持ANSI。

HTML4中的ISO-8859-1

由于很多其他国家还要使用ASCII之外的字符,所以在HTML2.0中,标准改为ISO-8859-1

ISO-8859-1是ASCII码的扩展,增加了国际字符。与ANSI一样,采用了完整字节表示256个不同的字符。

当浏览器检测到ISO-8859-1的页面,通常默认为ANSI,因为ANSI与ISO-8859-1几乎相同,不同之处就是,ANSI有32个额外的字符。

如果HTML4页面上使用与ISO-8859-1不同的字符编码时,应该在<meta>中指定,方法如下:


<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

注:UTF-8是HTML5的默认字符编码, 所有的HTML4处理器都支持UTF-8,以及所有的HTML5、XML处理器都支持UTF-8和UTF-16。

HTML5中的UTF-8编码

由于上面列出的字符用途有限,不支持多语言环境,Unicode协会开发了Unicode标准。

Unicode标准几乎涵盖所有的字符,标点符号。

Unicode能够实现处理、存储和传送字符,有独立的平台和语言。

HTML5的默认字符编码是UTF-8。