ことえりの気持ちを理解して少しでも日本語を気持ち良く入力するために

漢字Talk7.5の時代からMac OSX10.5の現在まで、Macの日本語入力システムは常に「ことえり」だった。ことえりは時代と供に進化を続けてきたが、その都度、どこかで、必ず、お馬鹿扱いされてきた経緯がある。その一方、どの時代にも創意工夫で調整して、そこそこの入力効率である程度の満足感を味わっている人も必ず居る。要は、道具としての使い方なのか、それともATOKEGBRIDGEには追い付けない壁があるのか...。*1

環境

ことえりの日本語変換の試験

以前、日本語入力のおもしろ誤変換例がどこかのページで紹介されていた。明らかに誤変換を誘う文章とかもあってちょっと意地悪だけど、その文章を使って辞書学習なしの状態*2でどのように変換されるか試してみた。(数詞であっても、発音を仮名入力で打ち込んだ。)

変換例

目指す入力 ことえりの変換一発目
うまくいかない画像サイズになった。 うまくいかないが贈サイズになった。
山田さんの質問は要注意かと思います。 山田さんの質問は幼虫以下と思います。
日本の秘境百選。 日本の卑怯100戦。
小学生問題。水の三態変化を書け。 小学生問題。水野さん大変かを書け。
何かと胡散臭い時がある。 何かとうさんくさいときがある。
今日居ないもんね。ゴメン〜。 今日いないもんね。ごめん〜。
置いてかれた感じだ。 おいてかれた感じだ。
あの人もう重役になったんだって。 あの日ともう重役になったんだって。
裸のままですけど包装しないんですか? 裸のままですけど放送しないんですか?
6個作ってください。 肋骨食ってください。
俺麻疹になった。 俺は歯科になった。
了解金曜にお願い。 了解金曜にお願い。
新宿花園郵便局 新宿は謎の郵便局
部隊活動 舞台活動
今日12号棟見学できます。 今日十二号棟見学できます。
渡しましょう。 渡しましょう。
変わる時なんだよ。 かわるときなんだよ。
食事した上で来てください。 食事した上できてください。
ふんわりソフト感覚が楽しめます。 ふんわりソフト感覚が楽しめます。
恋人たちの季節。 恋人たちの季節。
講習会の出欠を確認してください。 講習会の出欠を確認してください。
あなたのことを理解したい。 あなたのことを理解したい。

仮名だけを見て、漢字仮名混じりの文章を想像するのは意外と難しい。(普通は前後の文章との関係も重要な判断材料となる)

  • 常識的に考えれば、すぐ判断できるものもあるけど...
    • 「ろっこつくってください。」
  • 一瞬見ただけでは迷ってしまう文章もある。
    • 「しんじゅくはなぞのゆうびんきょく」

かなり笑える変換も出てきた。ただし、上記の実験はことえりの辞書学習一切なし、変換一発目で表示された日本語だ。もう少し詳しく見てみる。

正しく変換されるまでの経過を見る

例:「やまださんのしつもんはようちゅういかとおもいます。」

「幼虫」「以下」の文節の区切りがおかしいので、
その部分に→キーで移動して、
シフトキーと←で文節の区切り方を修正
シフトキーと←で文節の区切り方を修正
正しい文節の区切りになると、日本語変換も修正された。

  • ことえりの誤変換は、上記の例のようにほとんどが文節の区切り間違いによって発生している。文節の区切り間違いが一カ所発生すると、その後の区切りも連鎖的に間違えることが多い。最初の文節区切りを正しく修正すれば、文章全体も正しく区切られて、一気に正しい日本語に変換されるパターンが多いと感じた。
  • そして、一旦正しく変換して確定した文章は、しっかりと辞書に学習され、同じ文章をもう一度入力すれば、ほとんど一発目で正しい日本語が表示された。
辞書の中身
  • それでは学習結果は、辞書にどのように記録されているのだろうか?ことえりの辞書は以下のファイルに保存されるようだ。
~/Preferences/com.apple.JapaneseAnalysis/LearningDictionary.dict
日本語変換の確定によって自動学習する辞書
~/Preferences/com.apple.JapaneseAnalysis/DictionaryTrainer/Trainer.dict
Apple純正のメールソフト「Mail」の内容から自動学習する辞書
~/Library/Dictionaries/ユーザ辞書
自分で意図的に登録した単語の辞書
  • 例:「山田さんの質問は...」確定直後のLearningDictionary.dictの中身を確認してみる。左記のファイルを直接見ることは出来ないので、以下のようにしてみた。
    • メニューバー左側のことえりメニューから「単語登録/辞書編集...」を選択して「ことえり単語登録」を起動する。
    • メニューバーの「辞書」>>「新規ユーザー辞書の作成...」で適当な辞書を新規作成する。(自分は辞書名「test」とした。)
    • 新規作成した辞書を選択して、「辞書」>>「テキストや辞書から取り込む...」を選択して「~/Preferences/com.apple.JapaneseAnalysis/LearningDictionary.dict」を指定する。
    • 取り込みが完了したら、「辞書」>>「テキストに書き出す...」を選択して適当な名前を付けてデスクトップに書き出した。ダブルクリックして開いてみると、以下の内容だった。
"ようちゅういか","要注意か","普通名詞"
"ようちゅういかとおも","要注意かと思","普通名詞"
  • おもしろ誤変換例をある程度学習すると、LearningDictionary.dictは以下のような内容になっていた。
"ごめん〜","ゴメン〜","普通名詞"
"うさんくさいときがあ","胡散臭い時があ","普通名詞"
"い","居","活用語尾"
"いる","居る","一段動詞"
"い","居","活用語尾"
"きょうい","今日居","普通名詞"
"ぶたい","部隊","普通名詞"
"ぶたいかつどう","部隊活動","普通名詞"
"ひきょう","秘境","普通名詞"
"おく","置く","カ行五段"
"ようちゅういか","要注意か","普通名詞"
"おれはしか","俺麻疹","普通名詞"
"みずのさんたいへんか","水の三態変化","普通名詞"
"き","来","活用語尾"
"しょくじしたうえでき","食事した上で来","普通名詞"
"とき","時","普通名詞"
"うさんくさいとき","胡散臭い時","普通名詞"
"うさんくさい","胡散臭い","形容詞"
"おいてかれたかんじ","置いてかれた感じ","普通名詞"
"いかないがぞうさいず","いかない画像サイズ","普通名詞"
"あのひと","あの人","普通名詞"
"おれはしかに","俺麻疹に","普通名詞"
"いかないがぞうさいずに","いかない画像サイズに","普通名詞"
"しんじゅくはなぞの","新宿花園","普通名詞"
"ようちゅういかとおも","要注意かと思","普通名詞"
"かわる","変わる","ラ行五段"
"みずのさんたいへんかを","水の三態変化を","普通名詞"
"せん","選","数字列接尾語"
"せん","選","人名接尾語"
"ひきょうひゃくせん","秘境百選","普通名詞"
Mail本文からの学習
  • OSX10.4以降は、Apple純正のメールソフトMailを利用していると、その本文の内容も学習してくれるらしい。
  • そういえば、絶対変換できそうもない固有名詞が一発で変換されて驚いたことがあったが、Mailから学習していたとは...。
  • 辞書の中身を見てみると、カタカナだけでなく、漢字まじりの辞書も含まれている。どうやって読みのひらがなを取得しているのだろう?

予想とか作戦とか

以上のことから考えて、ことえりの性能とか作戦とかを自分勝手に以下のように考えてみた。

  • 文章の前後の流れは読まない。
  • 文節の流れは読む。(というより、複合語として辞書登録して擬似的に文節の流れを読んだように見せかけているのかもしれないが。)
  • 文節区切りを正確に設定して日本語変換を確定することで、より高精度な変換を学習できる。(ちなみに、変換一発目で確定した時は、何も学習しなかった。)
  • どのような複合語として学習されるかはことえり側の性能による。
  • 複合語の選択肢を増やすためにも、なるべく長くかな入力して、一気に変換した方が良さそう。
  • 細切れ変換を繰り返すと、複合語として学習できず、文節の流れが無視された変換が繰り返されてしまう。
  • ユーザー辞書として複合語を工夫して登録することで、ことえりはかなり賢くなるのではないだろうか?
ことえりが学習しない入力例
  • 「山田さんの質問は幼虫以下と思います。」で一旦確定。
  • 「幼虫以下」を選択して、「要注意か」と修正する。

上記方式だと、いつまで経っても変換一発目は「幼虫以下」が繰り返されてしまう可能性がある。

  • 「山田さんの質問は」で確定。
  • 「要注意かと思います。」で確定。

この場合、ことえりの学習する複合語が「要注意かと思います。」にすべて含まれているのでうまく学習されたが、もし「山田さんの質問は」から続く複合語として学習しようとした場合は学習の機会が失われることになる。(と思う)

ことえりに効率的に学習してもらうには...
  • なるべく長くかな入力して、一気に変換する。
  • 文節区切りは正確に修正する。
  • 目指す日本語が表示されるまでは、絶対に確定しない。(どうしても候補が出てこない時はしょうがないけど...。)

以上のことを心掛けるだけで、かなり気持ち良く日本語入力できる可能性がある。

公開されていることえり辞書を利用する

当り前のことだが、ことえりにとって辞書は非常に重要だ。そして文節の流れを読む辞書までもが、シンプルな複合語として登録されている。なんだ、なんちゃってAI変換かと悲観する必要はない。逆に工夫して、先手を打って複合語をユーザー辞書として登録してしまうことで、ことえりはさらに賢くなる可能性を秘めているのだから。そして、そんな素晴らしい辞書が開発され、公開されていた。(感謝です!)

*1:自分がことえりを使いこなせているとはとても言えないが、個人的にはOSX10.4以降は、ことえりに対する不満はそれほどなかった。ATOKEGBRIDGEも試してみた。ストレス無く日本語変換できる気がした。しかし、ことえりが使えないかと言うとそうでもなく、一旦学習してしまえば日本語の変換効率としてはそれほどの違いは感じなかった。それよりもATOKEGBRIDGEに付属して、関連する語彙を検索できる機能が羨ましいと思ったりした。

*2:ストアカウントでOSにログインして試してみた。