MySQL 5.5でデータベース作成の際、文字コード「utf8mb4」を見かけたついでに4バイト文字について加筆しておこう。
以前まとめた文字コードのページ →
近年は2バイト文字(16進数で0000~FFFF、10進数で0~65535)に含まれない文字(JIS第3水準、JIS第4水準の漢字の一部など)が、普通に表示されるようになってきた。
めっったに使われないけれども例えば
山形県鶴岡市 櫛引 たらのき代
という所は、ずっと『木荒』代と表記していたので
𣗄代
Unicode(16進数表示):235C4
と表示された時は、喉につっかえていた小骨がとれたような感じがした。
いわゆるサロゲートペアと呼ばれている4バイト文字は、
サロゲート Surrogate:代用の ; ペア Pair:対
Unicodeの
上位サロゲート領域(2バイト) U+D800~U+DBFF ・・・ 1024文字
と
下位サロゲート領域(2バイト) U+DC00~U+DFFF ・・・ 1024文字
を組み合わせて表示したもので、2バイト文字の 65536を大きく上回る100万以上(1024 × 1024 = 1048576)の文字を登録できる。
ちなみに4バイトだけどUnicode(16進数表示)は8桁ではなく5桁
U+10000~U+10FFFFへ割り当てて表記
変則的なので、1文字だけど2文字とみなされたり、プログラミングする人は、めっったに使われない文字に振り回される可能性がある。
4バイト文字実用
ついでに𣗄代以外で、小骨がとれたような感じがした日本国内の地名は
福島県いわき市 常盤関船町 𣖔木作(ほうのきざく)
Unicode(16進数表示):23594
和歌山県串本町 野𣷓(野凪)
Unicode(16進数表示):23DD3
長野県長野市 𣘹原山(たらら山)
Unicode(16進数表示):23639
は、このWordPressでは表示されないけど『木寅』という字
一方、小骨がつっかえたままの地名は今のところ
神奈川県鎌倉市 勝上『山献』(しょうじょうけん)
勝上献とも表記されるが、厳密には『山かんむり+献』
→ glyphwiki.org/wiki/pyrite_x046-13-01
兵庫県丹波篠山市 大たわ(大『山定』)、小倉たわ(小倉『山定』)
→ glyphwiki.org/wiki/pyrite_x046-08-01
地名以外では、𩸽(ホッケ)も 4バイト文字
Unicode(16進数表示): 29E3D