「我覺得……很好」系列第六篇

我覺得《萬國碼標準》很好

我覺得《萬國碼標準》很好,不是說覺得萬國碼標準(Unicode Standard)很好。萬國碼標準好不好我不敢說,我說覺得好的是萬國碼標準的規格書,叫《萬國碼標準》(The Unicode Standard。對,這很像繞口令,但這不是我的問題,是他自己把名字取成這樣的……

如果你不知道什麼是萬國碼(Unicode,他是一套包含了世界上大部分文字的編碼系統,也是現在最通行的標準。什麼是編碼?就是一套把文字轉換成代號的規則。為什麼要轉換成代號?因為可以方便資料的儲存與處理。例如你在紙上寫一個字,我又在另一張紙上寫那個字,抄來抄去、看來看去很麻煩。如果可以把不同人寫的同一個字轉換成相同的一組數字,然後把這組數字儲存在電腦系統裡,這樣處理起來就簡單多了。

但是從這裡我們很快地會發現一些問題。例如世界上不同地方的人寫的漢字,有些一模一樣,有些長得像卻有小細節不一樣,有些本來一樣的字演變成長相完全不同,這些字應該算是是同一個字嗎?例如台灣標準寫法寫成「說」的字,日本人寫成「説」。或者是在英文字母裡面,有時候會在字母上加上一些小的符號,例如「u」加上兩個點變成 「ü」,像這樣加了小符號的字母,儲存的時候應該要切分成兩個代號,還是視為一個整體?這些問題有時沒有很明顯的答案,尤其困難之處在於要滿足不同的需求。例如有一些以前制定的其他編碼系統,裡面的一些文字可能其實沒有編碼的必要,但是如果要能夠把這些舊編碼的文字轉換成新的編碼,那新的編碼勢必也要放入那些文字。

儘管有這些問題,制定出一個標準還是有必要性,萬國碼就是在這些妥協中誕生的。但是做為這套編碼標準的使用者⸺無論你是打造資訊系統的工程師,還是使用這些系統的人,包含現在打著這段文字的我,以及讀著這段文字的你⸺都不能不被這些問題影響。因此了解這個系統、了解他的運作方式與問題,是一件很有用的事。如果你單純只是遇到了一些問題,看了一些字元的資料,你可能會感到困惑。其實很多問題在他的規格書可以找到指引。《萬國碼標準》就如同他的這個中文譯名「萬國」描述的一樣,裡面包含了各國上百種不同書寫系統的資訊。如果你是對各種語言、文書處理、甚至是設計、出版有興趣的人,或是正在學習某種文字,都可以在這裡找到一些如何在電腦上處理這些文字的說明。

現在也有很多人的想法是,在遇到這類問題的時候,都會先去網路上搜尋相關資料,或是詢問 AI,但是使用那些來路不明的資源當然比不上直接參考像《萬國碼標準》這樣的規格書來得可靠。你可以在這個網址找到最新版的《萬國碼標準》:https://www.unicode.org/versions/latest/。參考可靠資料是一件很簡單、很舒服的事。不要再相信沒有依據的說法了。

後記

「萬國碼」這個名字也有按照原文字面上的意思翻成「統一碼」的。這其實還滿有意思的。現代人說「國際」、「世界」的東西,舊時很多是說成「萬國」,例如:萬國博覽會萬國新語萬國公法。但是這個詞在這裡顯得更微妙。萬國碼既統合了以前不同地方的編碼,同時卻又包容了他們。「萬國」、「統一」這兩種在字面上幾乎是相反的翻譯,難道不是暗示了「合眾為一(e pluribus unum」 這句格言的真意嗎?