回應 Ptt Perl 版「Unihan 查詢」文章兩則

作者：gugod 發佈於：2015/09/20

數日前在 Ptt Perl 版兩篇回應關於 Unihan 查詢的一些文字 (1, 2)，原始的問題，是在詢問如何查詢 Unicode 之中的漢字。以下將回應文章重新訂正編輯之後，重新發表如下。

Unicode 方面的檢索，可直接使用 unicode.org，其中有一頁是漢字相關的：

http://www.unicode.org/charts/unihan.html

雖然 CTA 做得好像不存在似的，但 Lookup 鈕旁邊可以輸入漢字，並查到各種資料。以下是「行」字 ( U+884C )

http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=%E8%A1%8C

在這頁最下面可以看到這碼位有個對應的 kZVariant 是 U+FA08。

關於 z variant 其奇妙無比的解釋，請詳閱

http://www.unicode.org/reports/tr38/index.html#N10211 http://www.unicode.org/reports/tr38/index.html#kZVariant

摘錄如下：

... Briefly, however, the three-dimensional model uses the x-axis to represent meaning,
and the y-axis to represent abstract shape. The z-axis is used for stylistic variations.

簡譯如下：

... 不過簡單地說, 就是以三維模型來表示變種。X 軸表意，Y 軸象型。Z 軸則用來區別風格。

也就是說，如果有兩個碼位互為 Z 變種，表示那兩碼位對應的字是同意同型，但「書寫風格」不同。

不過由許多例子看來，同型倒也不是指筆劃完全相同，實在是很奇妙。像「說」與「説」這對是 Z 變種，「貓」與「猫」則是 Y 變種。

要得知哪些碼位有 Z 變種，可下載 Unihan.zip （在頁面左方可找到連結）

<ftp://ftp.unicode.org/Public/UNIDATA/Unihan.zip>

解開在找 Unihan_Variants.txt 檔案中找 kZVariant

> grep kZVariant Unihan_Variants.txt | perl -CO -aE 'say join " ", map { ($_, chr(hex($_ =~ s/^U\+//r)))} @F[0,2]' | head -20
U+3588 㖈 U+439B 䎛
U+363D 㘽 U+39B3 㦳
U+39B3 㦳 U+363D 㘽
U+3ADA 㫚 U+66F6 曶
U+418B 䆋 U+9F9D 龝
U+439B 䎛 U+3588 㖈
U+4E04 丄 U+4E0A 上
U+4E05 丅 U+4E0B 下
U+4E0A 上 U+4E04 丄
U+4E0B 下 U+4E05 丅
U+4E0C 丌 U+5176 其
U+4E0D 不 U+F967 不
U+4E16 世 U+4E17 丗
U+4E17 丗 U+4E16 世
U+4E18 丘 U+4E20 丠
U+4E21 両 U+5169 兩
U+4E23 丣 U+9149 酉
U+4E26 並 U+5E77 幷
U+4E2C 丬 U+723F 爿

(ptt 可能無法儲存某些字，會變問號，請自已試試)

Dan Kogai 曾經釋出 Unicode::Unihan ，基本上是處理這個檔案，但已經七年沒更新了，自行處理一下可能較為適合。

此外，討論「㊎」（U+328E）與「金」(U+91D1) 兩字，「㊎」為圈起來的「金」，是否應視為等同於「金」？

私以為，㊎、金二字在在各種使用情境中多半指稱不同實物，因此意義不同，不必視為同一個字處理。而 Unicode 中有組合用字，也就是由多個碼位來合成一個字符。遇到時，「〇」和「金」會各自出現。

而組字專用的碼位，其名稱都會有 "COMBINING" 這個字，實際上會使用到是兩個以上的碼位來表示一個組合字，所以其實很好處理。可以使用 uni 來找到所有 COMBINING 碼位：

使用方法如下：

> uni combining | head
 ̀ - U+00300 - COMBINING GRAVE ACCENT
 ́ - U+00301 - COMBINING ACUTE ACCENT
 ̂ - U+00302 - COMBINING CIRCUMFLEX ACCENT
 ̃ - U+00303 - COMBINING TILDE
 ̄ - U+00304 - COMBINING MACRON
 ̅ - U+00305 - COMBINING OVERLINE
 ? - U+00303 - COMBINING TILDE
....

也可以直接打字:

> uni 金
金- U+091D1 - CJK UNIFIED IDEOGRAPH-91D1

以「圈起來的金」為例，則是 U+20DD 後面接上 U+91D1。

配合 charnames::viacode, ord 等函式，也可自行在程式中取得該碼位在 Unicode 標準中的「名字」：

> perl -Mcharnames=:full -E 'say charnames::viacode("91D1")'
CJK UNIFIED IDEOGRAPH-91D1

> perl -Mutf8 -Mcharnames=:full -E 'say charnames::viacode(ord("金"))'
CJK UNIFIED IDEOGRAPH-91D1

也就是說工具都有了，要把組合專用的碼位除掉，其實頂容易的。

但是否要去掉組合用的碼位，則視用途了... 繁簡轉換及 z variant 比較像是正規化處理。但通常是在搜尋這個領域的應用才比較需要。