2009年06月22日

ことえりを賢くする(1)

Leopardになって、ことえりは賢くなったそうなんですが、未だに結構馬鹿な変換をして困る。
まあ、eggとかCannaに比べればずいぶんましだと思うけど、WindowsのIMEと比べると・・・。
そこで、賢くなるように辞書を大幅に強化した。

面倒な人は、999円を支払って山葵辞書を導入する事をおすすめします。
こちらの方が精査されていると思うので。

この方法はかなり時間と労力がかかるので覚悟してください。

まず、必要なものを用意します
OpenOffice

テキストエディターのMi
を使いました。

テキストエディターは、文字コードが変更できれば何でも良いです。
少なくともUnicodeとeucに対応したものを用意してください。

辞書といっても、元のものがないと沢山登録するのはちょっと難しいです。

そこで、フリーの辞書であるpubdic+を使用しました。
元々はWnn用の辞書ですが、テキストなのでこれをいじります。

ダウンロードURLはこちら
http://www.remus.dti.ne.jp/~endo-h/wnn/

pubdic+-wnn-1.0.tar.gz
をダウンロードして解凍して行くと、pubdic+-wnnというフォルダになります。

この中から、拡張子がuのファイルだけを残して後は削除します。
これが辞書ファイルです。



  


Posted by ふっかふ〜か at 15:40Comments(2)ことえり

2009年06月22日

ことえりを賢くする(2)

OpenOfficeを開いて、表計算ドキュメントを選んでください。
ファイルを開いて、とりあえずkihon.uを選択します(まだ開かない)
ファイルの種類から、「テキストCSV」を選んでください。リストの中程にあります。
これで開くと、文字コードと区切り文字を選べます。


文字コードに「日本語EUC」
区切り文字に「スペース」
を選ぶと、ちゃんと区切られ、読める文字になります。


このように読み込めます。

読み込んだら、Dの列は不要なので削除します

Aの列は「読み」
Bの列は「登録単語」
Cの列は「品詞」
です。

が、この形式だとそのまま読み込めないので品詞を書き換えます。

このページを参考にして書き換えを行いました
http://www.hyperteika.com/ime/common/hinsi.html

が、接頭語、接尾語、固有名詞という品詞名はうまく登録されません。
固有名詞は「その他の固有名詞」にすると登録できます。

ひとつ一つはやってられないので、置換で一気に書き換えます。

書き換えが終ったら保存に移ります。  


Posted by ふっかふ〜か at 15:57Comments(0)ことえり

2009年06月22日

ことえりを賢くする(3)

保存は、OpenOfficeのメニューから、
ファイルー別名で保存する
を選んでください。


このとき、フィルタ設定を編集するに必ずチェックをいれてください。

ファイル名は何でも良いです。

次にこんなウインドウが出てきますが、気にせず
「現在の書式を保持」
を選びます


保存のオプションが出てきます。
このときに、文字コードに「Unicode」を選びます。
Unicode(UTF-8)も、Unicode(UTF-7)もだめです。リストの一番上にあるので確認してください。
フィールドの区切り記号は「,」
テキストの区切り記号は「"」
セルの内容を表示通りに保存にチェックして保存します。

保存すると、保存したフォルダに拡張がcsvのファイルができます。

この拡張子をcsvからtxtに変えてください。

次に、新しいユーザー辞書を作ります  


Posted by ふっかふ〜か at 16:14Comments(0)ことえり

2009年06月22日

ことえりを賢くする(3)

保存は、OpenOfficeのメニューから、
ファイルー別名で保存する
を選んでください。


このとき、フィルタ設定を編集するに必ずチェックをいれてください。

ファイル名は何でも良いです。

次にこんなウインドウが出てきますが、気にせず
「現在の書式を保持」
を選びます


保存のオプションが出てきます。
このときに、文字コードに「Unicode」を選びます。
Unicode(UTF-8)も、Unicode(UTF-7)もだめです。リストの一番上にあるので確認してください。
フィールドの区切り記号は「,」
テキストの区切り記号は「"」
セルの内容を表示通りに保存にチェックして保存します。

保存すると、保存したフォルダに拡張がcsvのファイルができます。

この拡張子をcsvからtxtに変えてください。

次に、新しいユーザー辞書を作ります  


Posted by ふっかふ〜か at 16:14Comments(0)ことえり

2009年06月22日

ことえりを賢くする(4)

ことえりのアイコン
通常は画面の右上に「あ」というアイコンがあるので、これをクリックします
単語登録/辞書編集を選んでください。

ことえり単語登録というウインドウが出るのでフォーカスを合わせます。

上のメニューから、[辞書]ー[新規ユーザー辞書の作成]を選びます


名前に、わかりやすい名前を付けます。
例「pubdic+基本」

保存ボタンを押すと、新しく辞書ができます。

ことえり単語登録のウインドウで、今作った辞書が選ばれている事を確認して、辞書のファイルを読み込ませます。
メニューから
[辞書]ー「テキストや辞書から取り込む」
を選びます

ファイルの選択ウインドウが出てくるので、さっき作った拡張子txtに変更したファイルを読み込ませます。

もし取り込みでエラーがあった場合は、
ホームディレクトリの「ライブラリ」の中の「Dictionaries」というフォルダに「ImportError.txt」ができるので、中を確認してください。

私はいくつかエラーになったものを消したのですが、一度に28300語くらい登録できました。

更に、他にもpubdic+に収録された拡張子uのファイルから同様に取り込みを行います。

取り込みが終ったら、一度ログアウトしてもう一度ログインしてください。
これで辞書が有効になるはずです。

更に、gerodicなどを読み込ませれば、人名にかなり強い辞書になりますので、後は変換効率をあげるように変換をトレーニングすればかなり使いやすくなります。  


Posted by ふっかふ〜か at 16:26Comments(1)ことえり