2022.10.25

【系列】輕鬆易懂!內建字體“了解字元集和字元代碼”

標題: 正文:

介紹

「輕鬆易懂!嵌入式字體」是一篇講解嵌入式字體基礎知識和術語的部落格。本期我們總結了字元集和字元代碼的講解、常用程式碼清單以及選擇字體時需要考慮的要點。

字元集

字元集是為了在電腦上顯示和交換字元和符號而定義的一組字元。

代表性字符集

日文字符集

官方標準(JIS:日本工業標準(舊稱日本工業標準)所製定的標準)

  • JISX0201:158個字元(JIS半角字元)
  • JISX0208:6,879 個字元(JIS 非漢字、1 級/2 級漢字)
  • JISX0213:11,223 個字元(JISX0208 加上 3 級和 4 級漢字字元)

特定公司或組織制定的標準

 Adobe Systems 為日文 DTP 定義的字元集。

  • Adobe-Japan1-3:9,354 個字符
  • Adobe-Japan1-4:15,444 個字符
  • Adobe-Japan1-5:20,317 個字符
  • Adobe-Japan1-6:23,058 個字符

 微軟的 Windows 字元集

  • Microsoft 標準字元集(Windows31J):7,881 個字元

  JISX0208、JISX0201、NEC 特殊字元、NEC 選定的 IBM 擴充字元、IBM 擴充字符
  
*這是 Morisawa 提供的用於嵌入式使用的日文字符集。

外部字元集

有些字元沒有包含在標準字元集規範中,但為了特定目的而進行了標準化。
以下是典型的外部字元集(ARIB 外部字元)。這些是數位廣播應用所需的日語外部字符,除 JIS 標準中規定的字符外,還由無線電產業協會 (ARIB) 進行了標準化。

主要 ARIB 標準

  • ARIB STD-B24:數位廣播的資料廣播編碼和傳輸標準
  • ARIB STD-B3:FM多路廣播操作標準
  • ARIB STD-B62:數位廣播多媒體編碼標準

ARIB外部字符集

主要產品:數位電視、錄影機、汽車導航器、其他數位廣播接收機

字元編碼

字元代碼是為了在電腦上處理字元集(字元集合)而分配給每個字元或符號的唯一編號(字元代碼)。
*字符集和字符代碼通常被理解和用作同義詞。

以下是美國工業標準 ANSI 制定的資料交換標準字元代碼(7 位元 ASCII)。它最初是美國的國內標準,但現在已成為國際標準化組織 (ISO) 制定的國際標準(ISO-646)。

ASCII碼表

赤字控製字符是指以字元代碼定義的字符,用於操作(控制)顯示器、印表機和通訊設備等輸出設備。雖然它們被稱為“字元”,但由於它們不會輸出到顯示器或印表機上,因此也被稱為非列印字元。

單字節字元代碼

以 1 個位元組(8 位元:0-255)的資料表示的字元。代表性範例包括 JISX0201(ANK 字元),它是 ASCII 的擴展,包含數字和字母,並包含日語半角字元;以及 ISO8859,它包含歐洲語言,用於字元類型較少的語言。

JISX0201字元代碼表

雙位元組字元代碼

用兩個位元組(16 位元:0 至 65,535)的資料表示的字元。它用於日語、中文和韓語等字元數眾多、無法用單一位元組(0 至 255)表示的語言。

JISX0208字元代碼表

代表字元代碼

Shift JIS

重新排列(移動)JIS X 0208 以處理雙位元組和單字節混合字元的字元代碼。

Unicode

一種字符代碼,旨在作為通用字符集來處理來自世界各地的字符
 *最新版本 15.0.0(2022 年 9 月):包含 149,186 個字符
常見的編碼方式有以下幾種:
UTF8:以8位元為單位表示的編碼方式(長度可變,1~4個位元組)
UTF16:以16位元為單位表示的編碼方式(固定長度為2~4個位元組)

GB2312

簡體中文字元代碼
在中國(中國大陸)使用。

GB18030

漢字編碼
包含簡體、繁體中文,以及日韓漢字,並包含GB2312。

Big5

繁體中文字元代碼
它在台灣、香港和澳門使用。

KSX1001

韓文字元代碼
它包括韓文和漢字。

■ 代碼頁

按語言組織的字元代碼。切換代碼頁以使用每種語言。
當電腦還比較落後時,不可能在一個地方處理世界上所有的字符,因此需要為每種語言分別記錄字符。

ISO/IEC 8859:典型的單字元代碼。主要定義歐洲語言。

ISO8859-1 (Latin1)英語/德語/法語/義大利語/西班牙語/葡萄牙語/
荷蘭語/丹麥語/瑞典語/挪威語/芬蘭語
印度/冰島/愛爾蘭/阿爾巴尼亞等
ISO8859-2 (Latin2)克羅埃西亞語/捷克語/斯洛伐克語/斯洛維尼亞語/匈牙利語
波蘭語/羅馬尼亞語等
ISO8859-3 (Latin3)世界語/馬耳他語等
ISO8859-4 (Latin4)愛沙尼亞語/拉脫維亞語/立陶宛語等
ISO8859-5(西里爾文)俄語/烏克蘭語/塞爾維亞語/保加利亞語/白俄羅斯語
/馬其頓語等
ISO8859-6(阿拉伯語)阿拉伯
ISO8859-7(希臘文)希臘文
ISO8859-8(希伯來文)希伯來文
ISO8859-9 (Latin5)土耳其
ISO8859-10 (Latin6)因紐特語/格陵蘭語/薩米語/拉普蘭語等
ISO8859-11泰國
ISO8859-14 (Latin8)威爾斯語/蓋爾語/凱爾特語等

WindowsCodePage (CP):由 Microsoft 定義,用於 Windows

CP932日文 (ShiftJIS)
CP936簡體中文(GB2312)
CP949韓文(KSC5601:1987)
CP950繁體中文(Big5)
CP1252英語/德語/法語/義大利語/西班牙語/葡萄牙語/荷蘭語/
瑞典語/芬蘭語/丹麥語/挪威語等
*ISO8859-1 包含一些附加字符,例如「€」符號。
CP1250捷克語、斯洛伐克語/波蘭語/羅馬尼亞語/匈牙利語/斯洛維尼亞語
克羅埃西亞語等
CP1251俄語/烏克蘭語/塞爾維亞語/保加利亞語/白俄羅斯語/馬其頓語
ETC。
CP1253希臘文
CP1255希伯來文
CP1256阿拉伯
CP1257愛沙尼亞語/拉脫維亞語/立陶宛語等
CP1258越南語
CP874泰國

編碼

這是指根據某些規則轉換數據,在這種情況下是指為每個字元分配特定的字元代碼。

考慮字體時,請檢查您需要哪種語言、字元集和字元代碼。

  • 所需語言(支援國家):[範例]日語、英語、德國、法國
  • 所需字符集:[範例] JISX0208、ISO8859-1
  • 字元代碼:[範例] Unicode(UTF16)

所需的字元集可能會因您使用服務的方式而異,例如您在使用時是否輸入數據,因此請聯絡我們以獲取有關您的特定使用情況的更多資訊。


至此我們對字符集和字符代碼的解釋就結束了。
如果您有任何疑問,請直接透過電子郵件與我們聯繫。

接觸
森澤株式會社銷售創新部 salesinnovation@morisawa.co.jp