字元
此條目翻譯品質不佳。 |
文字 |
---|
文字史 |
字位 |
文字列表 |
拼音文字相關 |
字母 |
字母的歷史 |
文字系統類型 |
表音文字 |
全音素文字 |
輔音音素文字 |
元音附標文字 |
半音節文字 |
特徵文字 |
音節文字 |
語素文字 |
輔助使用 |
速記 |
音標 |
特殊使用 |
數字 |
盲文 |
相關條目 |
象形文字 |
形意文字 |
搭配使用的符 號 |
附加符號 |
標點符號 |
可轉換為文字 的其他使用 |
電報編碼 |
字元 |
在電腦和電信領域中,字元(character)是一個資訊單位。對使用字母系統或音節文字等自然語言,它大約對應為一個音位、類音位的單位或符號。簡單來講就是一個漢字、假名、韓文字……,或是一個英文、其他西方語言的字母。
字元的例子有:字母、數字系統或標點符號。另外有所謂控制字元的概念,它是指:並不對應到自然語言中的某個特定符號,而是對應到語言中一些用來處理文句的概念(類似排版)。例子為列印機或其它顯示裝置的命令,如Enter或Tab。
字元編碼緣
電腦和通訊裝置會在表示字元時,會使用字元編碼。是指將一個字元對應為某個東西。傳統上,是代表整數的位元序列,如此,則可透過網路來傳輸,同時亦便於儲存。兩個常用的例子是ASCII和用於Unicode編碼的UTF-8。根據谷歌的統計,UTF-8是目前最常用於網頁的編碼方式。(頁面存檔備份,存於網際網路檔案館)相較於大部分的字元編碼把字元對應到數字或位元串,摩斯密碼則是使用不定長度的電子脈衝的序列來表現字元。
術語
從歷史來說,「字元」這個辭彙在工業專業中被廣泛用來指一個編碼過的字元(通常用於程式設計語言的API)。同樣地,字元集則被廣泛指為那些對應到特定位元序列的抽象字元的集合。隨著Unicode編碼等未指定位元形式的字元編碼的到來。更精確的術語獲得愈來愈多的認同。
對某些檔案而言,區分一個字元是資訊單位而非任何特定的視覺顯示是很重要的。如aleph(א)這個希伯來字母常用於數學中,表示某種無窮,但它同時又用於原本的希伯來檔案中。在統一碼中,儘管這兩種用法有一樣外形,但它們是不同的字元,而且由不同的碼位來區分。相對地,如「水」這個中文表意文字,在日文檔案會和中文檔案中有些微不一樣的外觀,這會反映在不同地區的字體。但它們仍代表相同的資訊,即視為一樣的字元,並且在統一碼中使用一樣的碼位。
字形(glyph)這個辭彙用於描述一個特定字元實質的外觀。很多電腦字體包含許多字形,且由一個字元的統一碼碼位來對其字形做索引。
Unicode標準(Unicode standard)和通用字元集彼此定義「字元」和「抽象字元」為「用來組織、控制或表達資料的成份所組集合的成員之一」。統一碼的定義則補充了一些解釋用的註釋,鼓勵讀者去區分字元、字位和字形。這個準則也區分抽象字元和「編碼過的字元」,後者是指和數字編碼成對,以利於電腦中的表示。
另見
外部連結
- Characters: A Brief Introduction (頁面存檔備份,存於網際網路檔案館) by The Linux Information Project (LINFO)
- ISO/IEC TR 15285:1998 summarizes the ISO/IEC's character model, focusing on terminology definitions and differentiating between characters and glyphs
- 字元與編碼 (頁面存檔備份,存於網際網路檔案館) 字元,位元組和編碼