2022.10.25

【系列】轻松易懂!内置字体“了解字符集和字符代码”

标题: 正文:

介绍

“轻松易懂!嵌入式字体”是一篇讲解嵌入式字体基础知识和术语的博客。本期我们总结了字符集和字符代码的讲解、常用代码列表以及选择字体时需要考虑的要点。

字符集

字符集是为了在计算机上显示和交换字符和符号而定义的一组字符。

代表性字符集

日语字符集

官方标准(JIS:日本工业标准(旧称日本工业标准)制定的标准)

  • JISX0201:158个字符(JIS半角字符)
  • JISX0208:6,879 个字符(JIS 非汉字、1 级/2 级汉字)
  • JISX0213:11,223 个字符(JISX0208 加上 3 级和 4 级汉字字符)

特定公司或组织制定的标准

 Adobe Systems 为日语 DTP 定义的字符集。

  • Adobe-Japan1-3:9,354 个字符
  • Adobe-Japan1-4:15,444 个字符
  • Adobe-Japan1-5:20,317 个字符
  • Adobe-Japan1-6:23,058 个字符

 微软的 Windows 字符集

  • Microsoft 标准字符集(Windows31J):7,881 个字符

  JISX0208、JISX0201、NEC 特殊字符、NEC 选定的 IBM 扩展字符、IBM 扩展字符
  
*这是 Morisawa 提供的用于嵌入式使用的日语字符集。

外部字符集

有些字符没有包含在标准字符集规范中,但为了特定目的而进行了标准化。
以下是典型的外部字符集(ARIB 外部字符)。这些是数字广播应用所需的日语外部字符,除 JIS 标准中规定的字符外,还由无线电产业协会 (ARIB) 进行了标准化。

主要 ARIB 标准

  • ARIB STD-B24:数字广播的数据广播编码和传输标准
  • ARIB STD-B3:FM多路广播操作标准
  • ARIB STD-B62:数字广播多媒体编码标准

ARIB外部字符集

主要产品:数字电视、录像机、汽车导航仪、其他数字广播接收机

字符编码

字符代码是为了在计算机上处理字符集(字符集合)而分配给每个字符或符号的唯一编号(字符代码)。
*字符集和字符代码通常被理解和用作同义词。

以下是美国工业标准 ANSI 制定的数据交换标准字符代码(7 位 ASCII)。它最初是美国的国内标准,但现在已成为国际标准化组织 (ISO) 制定的国际标准(ISO-646)。

ASCII码表

赤字控制字符是指以字符代码定义的字符,用于操作(控制)显示器、打印机和通信设备等输出设备。虽然它们被称为“字符”,但由于它们不会输出到显示器或打印机上,因此也被称为非打印字符。

单字节字符代码

用 1 个字节(8 位:0-255)的数据表示的字符。代表性示例包括 JISX0201(ANK 字符),它是 ASCII 的扩展,包含数字和字母,并包含日语半角字符;以及 ISO8859,它包含欧洲语言,用于字符类型较少的语言。

JISX0201字符代码表

双字节字符代码

用两个字节(16 位:0 至 65,535)的数据表示的字符。它用于日语、中文和韩语等字符数众多、无法用单个字节(0 至 255)表示的语言。

JISX0208字符代码表

代表字符代码

Shift JIS

重新排列(移动)JIS X 0208 以处理双字节和单字节混合字符的字符代码。

Unicode

一种字符代码,旨在作为通用字符集来处理世界各地的字符
 *最新版本 15.0.0(2022 年 9 月):包含 149,186 个字符
常见的编码方式有以下几种:
UTF8:以8位为单位表示的编码方式(长度可变,1~4个字节)
UTF16:以16位为单位表示的编码方式(固定长度为2~4个字节)

GB2312

简体中文字符代码
在中国(中国大陆)使用。

GB18030

汉字编码
包含简体、繁体中文,以及日韩汉字,并包含GB2312。

Big5

繁体中文字符代码
它在台湾、香港和澳门使用。

KSX1001

韩文字符代码
它包括韩文和汉字。

■ 代码页

按国家语言组织的字符代码。切换代码页以使用每种语言。
当计算机还比较落后时,不可能在一个地方处理世界上所有的字符,因此需要为每种语言分别记录字符。

ISO/IEC 8859:典型的单字节字符代码。主要定义欧洲语言。

ISO8859-1 (Latin1)英语/德语/法语/意大利语/西班牙语/葡萄牙语/
荷兰语/丹麦语/瑞典语/挪威语/芬兰语
印度/冰岛/爱尔兰/阿尔巴尼亚等
ISO8859-2 (Latin2)克罗地亚语/捷克语/斯洛伐克语/斯洛文尼亚语/匈牙利语
波兰语/罗马尼亚语等
ISO8859-3 (Latin3)世界语/马耳他语等
ISO8859-4 (Latin4)爱沙尼亚语/拉脱维亚语/立陶宛语等
ISO8859-5(西里尔文)俄语/乌克兰语/塞尔维亚语/保加利亚语/白俄罗斯语
/马其顿语等
ISO8859-6(阿拉伯语)阿拉伯
ISO8859-7(希腊语)希腊语
ISO8859-8(希伯来语)希伯来语
ISO8859-9 (Latin5)土耳其
ISO8859-10 (Latin6)因纽特语/格陵兰语/萨米语/拉普兰语等
ISO8859-11泰国
ISO8859-14 (Latin8)威尔士语/盖尔语/凯尔特语等

WindowsCodePage (CP):由 Microsoft 定义,用于 Windows

CP932日语 (ShiftJIS)
CP936简体中文(GB2312)
CP949韩语(KSC5601:1987)
CP950繁体中文(Big5)
CP1252英语/德语/法语/意大利语/西班牙语/葡萄牙语/荷兰语/
瑞典语/芬兰语/丹麦语/挪威语等
*ISO8859-1 包含一些附加字符,例如“€”符号。
CP1250捷克语、斯洛伐克语/波兰语/罗马尼亚语/匈牙利语/斯洛文尼亚语
克罗地亚语等
CP1251俄语/乌克兰语/塞尔维亚语/保加利亚语/白俄罗斯语/马其顿语
ETC。
CP1253希腊语
CP1255希伯来语
CP1256阿拉伯
CP1257爱沙尼亚语/拉脱维亚语/立陶宛语等
CP1258越南语
CP874泰国

编码

这是指根据某些规则转换数据,在这种情况下是指为每个字符分配特定的字符代码。

考虑字体时,请检查您需要的语言、字符集和字符代码。

  • 所需语言(支持国家):[示例]日语、英语、德国、法国
  • 所需字符集:[示例] JISX0208、ISO8859-1
  • 字符代码:[示例] Unicode(UTF16)

所需的字符集可能因您使用服务的方式而异,例如您在使用时是否输入数据,因此请与我们联系并提供您的具体使用详情。


至此我们对字符集和字符代码的解释就结束了。
如果您有任何疑问,请直接通过电子邮件与我们联系。

接触
森泽株式会社销售创新部 salesinnovation@morisawa.co.jp