HTML5への対応 |
作成日:2017-10-08 最終更新日: |
UTF-8 への対応では、検索側の utf-8 への対応について述べた、 一方、前処理側のほうは、特段の対応は不要であった。というのは、 内部に nkf モジュールがあり、このモジュールが自動的に入力のコードを判別し、 EUC に変換していたからだ。
ところが、nkf で救いきれない文字群があった。それは、ASCII 7 bit 英数字でもなく、 EUC で表現できる日本語文字でもない文字である。 その多くをダイアクリティカルマーク付き文字が占める。 ダイアクリティカルとは発音が区別されるべき文字に付される記号であり、 具体的にはアクセントやウムラウトが該当する。 したがって、ダイアクリティカルマーク付き文字(記号)は、 アクセント付き文字(記号)とかウムラウト付き文字(記号)というように呼ばれることが多い。
フランスの作曲家、ガブリエル・フォーレ ( Gabriel Fauré ) には、e の字にアクセント、 正確には鋭いアクセント(アクサン・テギュ)がつけられた é の字がつけられている。 この é の字が、nkf では変換できない。
まりんきょ学問所 > 全文検索システム Namazu > HTML5への対応