HTML 字元編碼



字元編碼是將位元組轉換為字元的方法。為了正確驗證或顯示 HTML 文件,程式必須選擇正確的字元編碼。

HTML 字元集屬性

元標籤的 HTML charset 屬性用於指定網頁的字元編碼。

<meta charset="UTF-8">

ASCII 字元集

計算機中最常用的字元集或字元編碼是 ASCII **(美國資訊交換標準程式碼)**,這可能是電子文字編碼中最廣泛使用的字元集。ASCII 編碼包含 128 個字元 (0-127)。

  • 英文字母 (A-Z 和 a-z)
  • 數字 (0-9)
  • 特殊字元 (@, #, $, %, 等)

您可以檢視完整的 **可列印 ASCII 字元** 集。

ANSI 字元集

ANSI 字元集通常用於 Windows 系統,也稱為 windows-1252。它包括:

  • 從 0 到 127,ANSI 遵循 ASCII 字元。
  • 從 128 到 159,添加了一些額外的特殊字元。
  • 從 160 到 255,它與 UTF-8 相同。

ISO-8859-1 字元集

ISO-8859-1 是 HTML 4 的預設字元集。此字元集支援 256 個不同的字元程式碼。

  • 前 128 個字元與 ASCII 相同
  • 不使用 128 到 159 的字元
  • 從 160 到 255 與 ANSI 和 UTF-8 相同

UTF-8 字元集

HTML5 規範建議開發者在網頁中使用 UTF-8 編碼,因為 UTF-8 涵蓋了世界上所有字元和符號。UTF-8 的字元是:

  • 0 到 127 個字元與 ASCII 相同
  • 128 到 159 個字元為空
  • 從 160 到 255 使用與 ANSI 和 8859-1 相同的字元
  • 其他語言的字元使用 256 到 1000 指定

國際標準化組織建立了一系列字元集來處理不同的國家字元。對於英語和其他大多數西歐語言的文件,廣泛支援的編碼 ISO-8859-1 被使用。

ISO 字元集

以下是世界各地使用的字元集列表及其描述。

字元集 描述
ISO-8859-1

拉丁字母第 1 部分

涵蓋北美洲、西歐、拉丁美洲、加勒比地區、加拿大、非洲

ISO-8859-2

拉丁字母第 2 部分

涵蓋東歐

ISO-8859-3

拉丁字母第 3 部分

涵蓋東南歐、世界語、其他雜項

ISO-8859-4

拉丁字母第 4 部分

涵蓋斯堪的納維亞/波羅的海地區 (以及 ISO-8859-1 中未包含的其他地區)

ISO-8859-5

拉丁/西裡爾字母第 5 部分

ISO-8859-6

拉丁/阿拉伯字母第 6 部分

ISO-8859-7

拉丁/希臘字母第 7 部分

ISO-8859-8

拉丁/希伯來字母第 8 部分

ISO-8859-9

拉丁 5 字母第 9 部分

與 ISO-8859-1 相同,但土耳其字元替換了冰島字元

ISO-8859-10

拉丁 6 拉丁 6 拉普蘭語、北歐語和愛斯基摩語

ISO-8859-15

與 ISO-8859-1 相同,但添加了更多字元

ISO-2022-JP

拉丁/日語字母第 1 部分

ISO-2022-JP-2

拉丁/日語字母第 2 部分

ISO-2022-KR

拉丁/韓語字母第 1 部分

隨後成立了 Unicode 聯盟,以設計一種方法來顯示不同語言的所有字元,而不是為不同語言使用這些不同的不相容字元程式碼。

因此,如果您想建立使用來自多個字元集的字元的文件,則可以使用單個 Unicode 字元編碼來做到這一點。

因此,Unicode 指定了可以以特殊方式處理字串的編碼,以便為其包含的巨大字元集留出足夠的空間。這些被稱為 UTF8、UTF-16 和 UTF-32。

UTF 字元集

字元集 描述
UTF-8

一種 Unicode 轉換格式,以 8 位單元 (即位元組) 出現。UTF8 中的一個字元可以是 1 到 4 個位元組長,使 UTF8 成為可變寬度。

UTF-16

一種 Unicode 轉換格式,以 16 位單元 (即短整數) 出現。它可以是 1 或 2 個短整數長,使 UTF16 成為可變寬度。

UTF-32

一種 Unicode 轉換格式,以 32 位單元 (即長整數) 出現。它是一種固定寬度格式,長度始終為 1 個“長整數”。

Unicode 字元集的前 256 個字元對應於 ISO-8859-1 的 256 個字元。預設情況下,HTML 4 處理器應支援 UTF-8,而 XML 處理器應支援 UTF-8 和 UTF-16;因此,所有符合 XHTML 標準的處理器也應支援 UTF-16。

廣告