サジェスト機能は「私」の考えを先読みできるのか?

Google日本語入力(ベータ)が公開された。かつて、2008年1月にEGBRIDGEが販売終了し、OSX環境における一般的な日本語入力環境は、標準添付される「ことえり」か「ATOK」しか選択肢がなくなっていた。*1それが今年2009年10月にはEGBRIDGEを引き継ぐ「かわせみ」が発売され、そして2009年12月には「Google日本語入力」も公開された。一気に選択肢は倍になるという、喜ばしい状況になった。

早速、ワクワクしながらいろいろ試してみた。

誤変換を誘う例題

  • いつもの如く、意地悪な例題で入力を試してみた。
  • インストール直後のデフォルト設定で、学習なしの状態。
  • 変換一発目の結果をリストアップしている。
  • どのインプットメソッドも、文節区切りを訂正、あるいは次の候補に変換していけば、ほぼ満足な結果になる。
  • ことえりについては、辞書を追加したり、自動学習やMail本文からの学習が進めば、インストール直後とは見違える使い易さになることを実感している。
  • それは、ことえり以外についても同様。辞書や学習成果によって、使い勝手は大きく変わるはず。
れいだい:うまくいかない画像サイズになった。
グーグル:上手くいかない画像サイズになった。
かわせみ:うまくいかない画像サイズになった。
ことえり:うまくいかないが贈サイズになった。

れいだい:山田さんの質問は要注意かと思います。
グーグル:山田さんの質問は要注意かと思います。
かわせみ:山田さんの質問は要注意かと思います。
ことえり:山田さんの質問は幼虫以下と思います。

れいだい:日本の秘境百選。
グーグル:日本の秘境百戦。
かわせみ:日本の秘境百選。
ことえり:日本の卑怯百戦。

れいだい:小学生問題。水の三態変化を書け。
グーグル:小学生問題。水野さん大変かをかけ。
かわせみ:小学生問題。水の三態変化を書け。
ことえり:小学生問題。水野さん大変かを書け。

れいだい:何かと胡散臭い時がある。
グーグル:何かと胡散臭い時がある。
かわせみ:なにかとうさんくさい時がある。
ことえり:何かとうさんくさいときがある。

れいだい:今日居ないもんね。ゴメン〜。
グーグル:今日いないもんね。ごめん〜。
かわせみ:驚異内門ね。後免〜。
ことえり:今日いないもんね。ごめん〜。

れいだい:置いてかれた感じだ。
グーグル:おいてかれた感じだ。
かわせみ:おいて枯れた感じだ。
ことえり:おいてかれた感じた。

れいだい:あの人もう重役になったんだって。
グーグル:あの人もう重役になったんだって。
かわせみ:あの日ともう重役になったんだって。
ことえり:あの日ともう重役になったんだって。

れいだい:裸のままですけど包装しないんですか?
グーグル:裸のままですけど放送しないんですか?
かわせみ:裸のままですけど放送しないんですか?
ことえり:裸のままですけど放送しないんですか?

れいだい:6個作ってください。
グーグル:ロッコ作ってください。
かわせみ:六個つくってください。
ことえり:肋骨食ってください。

れいだい:俺麻疹になった。
グーグル:俺は鹿になった。
かわせみ:俺は市価になった。
ことえり:俺は歯科になった。

れいだい:了解金曜にお願い。
グーグル:了解金曜にお願い。
かわせみ:漁解禁用にお願い。
ことえり:了解金曜にお願い。

れいだい:新宿花園郵便局。
グーグル:新宿花園郵便局。
かわせみ:新宿は謎の郵便局。
ことえり:新宿は謎の郵便局。

れいだい:部隊活動。
グーグル:舞台活動。
かわせみ:舞台活動。
ことえり:舞台活動。

れいだい:今日12号棟見学できます。
グーグル:今日中に強盗見学できます。
かわせみ:今日中に強盗見学できます。
ことえり:今日十二号棟見学できます。

れいだい:食事した上で来てください。
グーグル:食事した上できてください。
かわせみ:食事した上で来てください。
ことえり:食事した上できてください。

れいだい:講習会の出欠を確認してください。
グーグル:講習会の出血を確認してください。
かわせみ:講習会の出欠を確認してください。
ことえり:講習会の出欠を確認してください。

ブログ的な文章の例題

なるべく過去に入力したことのない、オリジナルな文章がないものか探していたところ、Google日本語入力のリリースを紹介する公式ブログをそのまま入力してみるのが、テストにはぴったりと気付いた。

入力してみて分かったこと。

かなと英数のモード切替について
  • かなモードで入力中に、英数キーを押して半角英数モードに変更すると、入力途中のかなの状態で確定してしまう。と思ったら...
    • かなモードで入力中に、shiftキーを1回押すと、日本語入力状態を維持して半角英数モードに移行できた。
    • そして、shiftキーを2連打すると、再びかなモードに戻ることができた。

shiftキーの操作でインラインでの英数かな切替は実現できるが、かなキーと英数キーも同じ挙動であって欲しい。
きっと、操作の問題なので、いずれ改善されるはず。

英語の日本語読み変換について
  • 英語の発音をかな入力して、英単語に変換することが殆どできない。(例:うぃんどうず→Windows

辞書の問題なので、そのような辞書を取り込めば解決するはず。

数字のかな入力について
  • 数字の発音をかな入力すると、変換できない数字もある。
    • 「よんちょうめじゅうにばんち」→「4丁目12番地」NG

どうやら、Google日本語入力は、まだ11以上のアラビア数字の読みを知らないようだ。

  • 日本語には数字によって濁る変化がある。(例:かい・がい)
    • 「ここはにかいです」→「ここは2階です」OK
    • 「ここはさんがいです」→「ここは3階です」NG

どうやら、濁る変化に対応できないようだ。
同じく、辞書の問題なので、そのような辞書を取り込めば解決するはず。

行間から読み取る

おそらく、1回読んだだけでは気付かない。でも、操作感を確認しながら、Google Japan Blog: 思いどおりの日本語入力 - Google 日本語入力をサンプルとして、ことえり・かわせみ・Google日本語入力で何度も、何度も、繰り返し入力してるうちに気付くこともある。今後、Google日本語入力が素晴らしいインプットメソッドに成長することに期待しながら、現状の懸念事項を考えてみた。(自分勝手な言いがかりですいません。)

このように工藤と小松の二人で始めたプロジェクトですが、徐々に 20% プロジェクトとしての貢献者も増え、しばらくたつと、Anthy, WinAnthy, scim-skk, skkime, AjaxIME, PRIME, MeCab などの日本語処理システムや日本語入力システムの開発に携わっていたエンジニアや Windows の TSF での開発経験のあるエンジニア、各種オペレーティングシステムの開発経験者がこのプロジェクトに様々な形で参加するようになっていました。今回お届けする Google 日本語入力は、このような自然言語処理や各種プラットフォームの開発経験者たちのノウハウが凝縮されたものとなっています。

思いどおりの日本語入力 - Google 日本語入力
ポリシー
  • 文章全体に渡って、半角文字と全角文字が半角spaceで区切られている。なぜだろう?
    • 自分でも同じように入力する場合があるが、文章全体においてそのような入力をするのはかなりの負担に感じる。
    • 正式には「Google日本語入力」ではなく、半角スペースを空けて「Google 日本語入力」なのだろうか。
    • Google公式ブログ日本語版のその他の記事も同様に半角スペースが多用されているので、これはGoogleの公式ブログ規約なのだろうか。
  • 英単語を列挙する時に半角カンマ「,」を利用している。
    • 環境設定の句読点でも「、」と「,」を区別しているのだから、並列に列挙するなら中黒「・」を使った方が統一感があって良さそう。(実際、中黒「・」で列挙している箇所もある。)
    • おそらく、入力モードを切り替えずに、半角モードで入力を続けるとこのようになる。
    • プログラミング時のコーディング規約を守るのと同様、文章を綴る上でも必要最小限の文字の使い分けルールは決めておくべき。(インプッドメソッドの公式ページなら特に気を使うべき。)
  • 「このように〜参加するようになっていました。」までの一文が非常に長く、意味を捉えにくい。
  • 「しばらくたつと」の意味は「しばらく経過すると」つまり「ある程度時間が経過すると」だろうか?
    • 「しばらくして」の意味「少し時間を置いて」と混同して、意味を捉えにくい。
    • OSX付属の大辞泉によると...


しばら‐く【暫く・姑く・須臾】

〘副〙スル《「しまらく」の音変化》

  1. すぐではないが、あまり時間がかからないさま。少しの間。しばし。「―お待ちください」「―して主人が現れた」
  2. 時間的にある程度長く続くさま。当分。「好天は―続くだろう」「―は当地に滞在する」
  3. 一時的であるさま。仮に。「その件は―おくとして」
  4. 「―衣裳にたきものすと知りながら」徒然•八〉


類 語 (1(しば)少しちょっとやや一時(いっとき)一頻(ひとしき)暫時(ざんじ)少時(しょうじ)寸時須臾(しゅゆ)/(3当分当面当座差し当たり


  • 「しばらく」という言葉ひとつとっても、適切に使いこなすには執筆者の国語力が必要だと気づいた。
  • Google日本語入力は、日本語処理システム・日本語入力システム・テキスト入力API・各種オペレーティングシステムの開発経験者たちが参加して、その道の専門家であるメンバーのノウハウが凝縮されたものとなっているようだ。
    • このように聞かされると、隙のない優れた日本語入力システムであるように思えてしまう。
    • しかし、いくら優秀な人たちが集まっても、皆を束ねる強烈な個性のリーダーが革新的な方向に導かないと、得てして、素晴らしい結果につながらないことが多い。
語彙力と正確さ
  • Google日本語入力の特徴は、桁違いの語彙力と、強力なサジェスト機能。しかし...
    • 桁違いの語彙力だが、元になるのはWebから機械的・自動的に収集した情報である。正しい用例と間違った用例が混ざっているはずである。
    • それを校正する作業は必要だと思うし、最終的には人手による作業が最も高品質な結果をもたらすと思う。桁違いの語彙力なので、その作業は困難を極めるだろう。
  • また、現在ベータ版であるが、桁違いの語彙力と言いながら、
    • 英語単語の日本語読みによるかな入力には対応していない。
    • 数字の読みのかな入力も11以上の数字には対応していない。
サジェスト機能
  • 強力なサジェスト機能も、検索するためのキーワード入力、または携帯端末等の不自由な入力環境では重宝するかもしれないが、ブログのような比較的長いオリジナルな文章の入力には向いていないと思われる。
  • そもそも、自分の入力スタイルが文節単位の入力ではなく、次の句読点まで一気に入力する方法なので、ブログ執筆中にサジェスト機能の恩恵を受ける機会があまりないのだ。
  • キー入力することにストレスを感じない環境なら、文章を入力する過程で思い浮かんだ言葉を句読点まで入力して一気に変換した方が、文節単位で変換するよりも思考の途切れがなくて快適に思う。
  • 何より、いつ予測変換候補が表示されるか気にしながら入力するよりも、最後まで自分の言葉で一気に入力してしまいたい欲求に駆られる。
  • また、自分の考えていることを先読することはある程度できても、そうそう多くの場面で利用することはできないと思う。(ひねくれ者なので先読みされたら別の言葉を使いたくなるかもしれないし。)
  • Google日本語入力の公式ブログを見る限り、半角の英単語・数字の入力スタイルを見ると、その開発者の方は文節単位で変換すると感じた。
  • また、サジェスト機能を活かすためにも、文節単位で変換するスタイルの方が都合がいい。
  • 果たして、Google日本語入力は今後、文章一括入力派にも優しい日本語入力環境になるのだろうか?

究極の時事ワード辞書として利用

  • 現状のGoogle日本語入力はまだメインのインプットメソッドとして利用するには、自分にとって、変換効率も操作性も不足しているところがある。
  • しかし、最新のWebを反映したと言う辞書は、他のインプットメソッドには真似できない魅力を備えている。
  • 旬なWebの人・話題の芸能人の名前・その他時事ワードなど、今を反映する言葉にサジェスト機能は敏感に反応する。
    • 「婚活・離活・草食系男子」など
  • 時事ワード辞書として、ことえりに取り込みたいくらいだ。しかし、Google日本語入力の辞書はプログラム本体に組み込まれている。メイン辞書の書き出しも普通はできない。(できると嬉しい)
  • ならば、インプットメソッドはことえりを利用しつつ、サジェスト機能だけGoogle日本語入力を利用する、なんていう都合の良い使い方はできないだろうか?

複数のインプッドメソッドの良いとこ取りで利用できる環境になればいいのに。

正しい日本語が知りたい

  • 言葉を常に正しく使うのは相当難しいことで、入力している本人でさえ同音異義語の選択に迷ってしまうことだってある。
  • 例:「あつい」を変換する場合
    • Google日本語入力は、選択候補をリストアップするだけで、言葉の使い分けについての情報は示してくれない。


    • ことえり・かわせみについては、同音異義語の使い分けの情報まで含めて表示してくれる。(情報がある場合)

ことえり
かわせみ


個人的には、変換効率を極めるより、使い分けや類義語の辞書と連動した情報が表示される方が、嬉しい。自信を持って文章を綴れる環境にしたい。

*1:UNIX系ならAquaSKKとか、さらにX11環境ならCannaWnn、skkinput、Anthyなども利用できるが。