2009年06月22日
ことえりを賢くする(1)
Leopardになって、ことえりは賢くなったそうなんですが、未だに結構馬鹿な変換をして困る。
まあ、eggとかCannaに比べればずいぶんましだと思うけど、WindowsのIMEと比べると・・・。
そこで、賢くなるように辞書を大幅に強化した。
面倒な人は、999円を支払って山葵辞書を導入する事をおすすめします。
こちらの方が精査されていると思うので。
この方法はかなり時間と労力がかかるので覚悟してください。
まず、必要なものを用意します
OpenOffice
と
テキストエディターのMi
を使いました。
テキストエディターは、文字コードが変更できれば何でも良いです。
少なくともUnicodeとeucに対応したものを用意してください。
辞書といっても、元のものがないと沢山登録するのはちょっと難しいです。
そこで、フリーの辞書であるpubdic+を使用しました。
元々はWnn用の辞書ですが、テキストなのでこれをいじります。
ダウンロードURLはこちら
http://www.remus.dti.ne.jp/~endo-h/wnn/
pubdic+-wnn-1.0.tar.gz
をダウンロードして解凍して行くと、pubdic+-wnnというフォルダになります。
この中から、拡張子がuのファイルだけを残して後は削除します。
これが辞書ファイルです。
まあ、eggとかCannaに比べればずいぶんましだと思うけど、WindowsのIMEと比べると・・・。
そこで、賢くなるように辞書を大幅に強化した。
面倒な人は、999円を支払って山葵辞書を導入する事をおすすめします。
こちらの方が精査されていると思うので。
この方法はかなり時間と労力がかかるので覚悟してください。
まず、必要なものを用意します
OpenOffice
と
テキストエディターのMi
を使いました。
テキストエディターは、文字コードが変更できれば何でも良いです。
少なくともUnicodeとeucに対応したものを用意してください。
辞書といっても、元のものがないと沢山登録するのはちょっと難しいです。
そこで、フリーの辞書であるpubdic+を使用しました。
元々はWnn用の辞書ですが、テキストなのでこれをいじります。
ダウンロードURLはこちら
http://www.remus.dti.ne.jp/~endo-h/wnn/
pubdic+-wnn-1.0.tar.gz
をダウンロードして解凍して行くと、pubdic+-wnnというフォルダになります。
この中から、拡張子がuのファイルだけを残して後は削除します。
これが辞書ファイルです。
2009年06月22日
ことえりを賢くする(2)
OpenOfficeを開いて、表計算ドキュメントを選んでください。
ファイルを開いて、とりあえずkihon.uを選択します(まだ開かない)
ファイルの種類から、「テキストCSV」を選んでください。リストの中程にあります。
これで開くと、文字コードと区切り文字を選べます。
文字コードに「日本語EUC」
区切り文字に「スペース」
を選ぶと、ちゃんと区切られ、読める文字になります。
このように読み込めます。
読み込んだら、Dの列は不要なので削除します
Aの列は「読み」
Bの列は「登録単語」
Cの列は「品詞」
です。
が、この形式だとそのまま読み込めないので品詞を書き換えます。
このページを参考にして書き換えを行いました
http://www.hyperteika.com/ime/common/hinsi.html
が、接頭語、接尾語、固有名詞という品詞名はうまく登録されません。
固有名詞は「その他の固有名詞」にすると登録できます。
ひとつ一つはやってられないので、置換で一気に書き換えます。
書き換えが終ったら保存に移ります。
ファイルを開いて、とりあえずkihon.uを選択します(まだ開かない)
ファイルの種類から、「テキストCSV」を選んでください。リストの中程にあります。
これで開くと、文字コードと区切り文字を選べます。
文字コードに「日本語EUC」
区切り文字に「スペース」
を選ぶと、ちゃんと区切られ、読める文字になります。
このように読み込めます。
読み込んだら、Dの列は不要なので削除します
Aの列は「読み」
Bの列は「登録単語」
Cの列は「品詞」
です。
が、この形式だとそのまま読み込めないので品詞を書き換えます。
このページを参考にして書き換えを行いました
http://www.hyperteika.com/ime/common/hinsi.html
が、接頭語、接尾語、固有名詞という品詞名はうまく登録されません。
固有名詞は「その他の固有名詞」にすると登録できます。
ひとつ一つはやってられないので、置換で一気に書き換えます。
書き換えが終ったら保存に移ります。
2009年06月22日
ことえりを賢くする(3)
保存は、OpenOfficeのメニューから、
ファイルー別名で保存する
を選んでください。
このとき、フィルタ設定を編集するに必ずチェックをいれてください。
ファイル名は何でも良いです。
次にこんなウインドウが出てきますが、気にせず
「現在の書式を保持」
を選びます
保存のオプションが出てきます。
このときに、文字コードに「Unicode」を選びます。
Unicode(UTF-8)も、Unicode(UTF-7)もだめです。リストの一番上にあるので確認してください。
フィールドの区切り記号は「,」
テキストの区切り記号は「"」
セルの内容を表示通りに保存にチェックして保存します。
保存すると、保存したフォルダに拡張がcsvのファイルができます。
この拡張子をcsvからtxtに変えてください。
次に、新しいユーザー辞書を作ります
ファイルー別名で保存する
を選んでください。
このとき、フィルタ設定を編集するに必ずチェックをいれてください。
ファイル名は何でも良いです。
次にこんなウインドウが出てきますが、気にせず
「現在の書式を保持」
を選びます
保存のオプションが出てきます。
このときに、文字コードに「Unicode」を選びます。
Unicode(UTF-8)も、Unicode(UTF-7)もだめです。リストの一番上にあるので確認してください。
フィールドの区切り記号は「,」
テキストの区切り記号は「"」
セルの内容を表示通りに保存にチェックして保存します。
保存すると、保存したフォルダに拡張がcsvのファイルができます。
この拡張子をcsvからtxtに変えてください。
次に、新しいユーザー辞書を作ります
2009年06月22日
ことえりを賢くする(3)
保存は、OpenOfficeのメニューから、
ファイルー別名で保存する
を選んでください。
このとき、フィルタ設定を編集するに必ずチェックをいれてください。
ファイル名は何でも良いです。
次にこんなウインドウが出てきますが、気にせず
「現在の書式を保持」
を選びます
保存のオプションが出てきます。
このときに、文字コードに「Unicode」を選びます。
Unicode(UTF-8)も、Unicode(UTF-7)もだめです。リストの一番上にあるので確認してください。
フィールドの区切り記号は「,」
テキストの区切り記号は「"」
セルの内容を表示通りに保存にチェックして保存します。
保存すると、保存したフォルダに拡張がcsvのファイルができます。
この拡張子をcsvからtxtに変えてください。
次に、新しいユーザー辞書を作ります
ファイルー別名で保存する
を選んでください。
このとき、フィルタ設定を編集するに必ずチェックをいれてください。
ファイル名は何でも良いです。
次にこんなウインドウが出てきますが、気にせず
「現在の書式を保持」
を選びます
保存のオプションが出てきます。
このときに、文字コードに「Unicode」を選びます。
Unicode(UTF-8)も、Unicode(UTF-7)もだめです。リストの一番上にあるので確認してください。
フィールドの区切り記号は「,」
テキストの区切り記号は「"」
セルの内容を表示通りに保存にチェックして保存します。
保存すると、保存したフォルダに拡張がcsvのファイルができます。
この拡張子をcsvからtxtに変えてください。
次に、新しいユーザー辞書を作ります
2009年06月22日
ことえりを賢くする(4)
ことえりのアイコン
通常は画面の右上に「あ」というアイコンがあるので、これをクリックします
単語登録/辞書編集を選んでください。
ことえり単語登録というウインドウが出るのでフォーカスを合わせます。
上のメニューから、[辞書]ー[新規ユーザー辞書の作成]を選びます
名前に、わかりやすい名前を付けます。
例「pubdic+基本」
保存ボタンを押すと、新しく辞書ができます。
ことえり単語登録のウインドウで、今作った辞書が選ばれている事を確認して、辞書のファイルを読み込ませます。
メニューから
[辞書]ー「テキストや辞書から取り込む」
を選びます
ファイルの選択ウインドウが出てくるので、さっき作った拡張子txtに変更したファイルを読み込ませます。
もし取り込みでエラーがあった場合は、
ホームディレクトリの「ライブラリ」の中の「Dictionaries」というフォルダに「ImportError.txt」ができるので、中を確認してください。
私はいくつかエラーになったものを消したのですが、一度に28300語くらい登録できました。
更に、他にもpubdic+に収録された拡張子uのファイルから同様に取り込みを行います。
取り込みが終ったら、一度ログアウトしてもう一度ログインしてください。
これで辞書が有効になるはずです。
更に、gerodicなどを読み込ませれば、人名にかなり強い辞書になりますので、後は変換効率をあげるように変換をトレーニングすればかなり使いやすくなります。
通常は画面の右上に「あ」というアイコンがあるので、これをクリックします
単語登録/辞書編集を選んでください。
ことえり単語登録というウインドウが出るのでフォーカスを合わせます。
上のメニューから、[辞書]ー[新規ユーザー辞書の作成]を選びます
名前に、わかりやすい名前を付けます。
例「pubdic+基本」
保存ボタンを押すと、新しく辞書ができます。
ことえり単語登録のウインドウで、今作った辞書が選ばれている事を確認して、辞書のファイルを読み込ませます。
メニューから
[辞書]ー「テキストや辞書から取り込む」
を選びます
ファイルの選択ウインドウが出てくるので、さっき作った拡張子txtに変更したファイルを読み込ませます。
もし取り込みでエラーがあった場合は、
ホームディレクトリの「ライブラリ」の中の「Dictionaries」というフォルダに「ImportError.txt」ができるので、中を確認してください。
私はいくつかエラーになったものを消したのですが、一度に28300語くらい登録できました。
更に、他にもpubdic+に収録された拡張子uのファイルから同様に取り込みを行います。
取り込みが終ったら、一度ログアウトしてもう一度ログインしてください。
これで辞書が有効になるはずです。
更に、gerodicなどを読み込ませれば、人名にかなり強い辞書になりますので、後は変換効率をあげるように変換をトレーニングすればかなり使いやすくなります。