Oct 31/2002 最新の音声認識技術(1) DSR - 分散型音声認識
DSRとは、Distributed Speech Recognitionの略で、「分散型音声認識」と訳します(といってもこれは多分日本語が先に考えられて、その後英語になった)。分散型の音声認識が実現すると、PDAとか携帯電話のような、CPUパワーとメモリがPoorな機械でも音声認識が可能になるという、革命的な技術です。ここではこの、「DSR」について解説します。[連続音声認識ソフト AmiVoice Medicalのページ]
これは、いままでの音声認識を説明した図です。ちょとごちゃごちゃしていますが、要するに、「音声の入力→テキスト出力」の過程で、2つの大きな処理を行っていると言うことです。

その処理は1) 前処理と2)認識デーコーダです。2)の認識デコーダの部分は、音響モデル解析とか、あらかじめ登録してあるユーザ辞書や言語モデルとの比較を行うプロセスですが、これは大きなメモリと高速なCPUが必要です。

これに対し、前処理(Front End)の部分は、入力した音声の特徴を抽出しこれを圧縮するプロセスで、これはごく小さなソフトとメモリで行うことができます。そこで、この前処理の部分だけを分離して携帯用の端末に入れるわけです。

そうするとこのようになります。「モバイルクライアント」というのは、PDAなどの携帯用の端末のことです。つまりPDAなどに話しかけてこれをサーバで解析するわけです。実際にはどのような仕掛になっているのでしょうか。
はい、これが用いるPDAです。Pocket PC型*のPDAです。上部についているものは、無線LANのための通信カードです。この無線LANを介して、主解析装置とのやりとりを行うのです。

*PDAには現在大別して3種類あります。シャープが発売しているザウルス、多数の機種が出ているPalm OS搭載機、そしてWindows CE 搭載のPocket PCタイプです。Ami Voiceは現在Windows上およびLinux上で動作します。Palm上では動作しないのでPocket PC型にまず移植されています。

こちらが主解析装置です。ここではデモのために、ノートパソコンが使用されています。このノートパソコンにも無線LANカードが挿入されており、これを介してPDAとの通信が行われます。

主解析装置は、インターネット上なら、遠く離れたアドバンストメディア社などのコンピュータということになります。

ではDSRによる音声認識を始めます。PDAに向かって、読影レポートを作成するときの要領で発声し、音声入力を始めます。

音声入力を始めると、PDA上でリアルタイムに音響の特徴が解析され、圧縮されます。このように前処理されたデータはリアルタイムに無線LANを介して主解析装置に送られます。

このとき主解析装置の上では忙しく音声認識の主プロセスが行われています。通常はこのプロセスはユーザーに表示されませんが、ここでは見えるように表示してもらいました。これももちろんリアルタイムに進行するわけです。

認識結果は直ちにPDA側にテキストデータとして送られます。

認識結果です。発生後わずかなタイムラグ(だいたい3〜5秒)がありますが、このようにPDA上に認識結果が表示されます。パーフェクトな認識結果です。

ユーザーには、まるでこのPDAですべての仕事が行われたかのようにしか見えません。

いま音声認識の辞書は徐々に増えつつあり、ここに示すように、メール版、政治経済版、健康診断版、放射線科レポート版、そして電子カルテ版があります。このうちもっとも変換効率が良いのは政治経済版と放射線科レポート版ですが、今後カルテ版やメール版も認識率が向上すると思われます。

認識率は、90%と95%ではまったく違います。これは、誤認識率(エラーレート)でいくと、10%と5%になり、倍の差があるからです。現在放射線科のものは97%もしくはそれ以上ありますが(拙著*)、このあたりまで来るときわめて高速に入力ができます。

* 日本放射線学会誌 62(1): 23-26, 2002 (PDF書類)

カルテ版の結果を示します。
この技術は汎用性がありますので、このように「乗り換え案内」などでも使用することができます。「上野から池袋まで、19時台」と言った結果がこれです。PDA上にあるアプリではなく、主解析装置(この場合ノートPC)上にあるアプリが動作しています。すごいと思いませんか。
■DSRがもたらすもの

次項で示す声紋認識などの技術とあわせ、DSRは入力の様々なシーンで用いられる重要な基礎的な技術と
思われます。医療上への応用だけでなく、汎用的に用いられていくことになると思います。

PDAだけで音声認識ができるとなると、主解析装置1台に対して、多数のPDAを使用する1対多対応が
できるようになります。このため、電子カルテ化された病院で、病棟を看護婦さんが回るときにノートPC
でなくPDAで記録したり、ナースセンターで看護婦記録を書いたり、医師がムンテラ*の結果を記録したり
することを同時に様々な場所で行うことができるようになりそうです。

また、これはすでに携帯電話への実装化はほぼ技術的に解決していますので、そう遠くない将来に、音声
で携帯メール(主にビジネスメールでしょうが)を書ける時代もくると思われます。

(おまけ) *ムンテラ:サ変名詞 
ムント・テラピーの略。ムント(Munt)はドイツ語で口の意味。テラピー(Therapy)は治療。つまり口で治療するという意味。
いまはより一般的に「(単なる)説明」として使われることが多いのだが、これは残念なことである。この言葉は、「昨晩は
どうしても寝れなくて先生つらいんです」などと訴える患者さんに対して、医師がよく話しを聞いてあげて、「そうですか。
それはさぞつらいですね。でも大丈夫ですよ。すこし眠れるように薬も出しますからね。安心してください」などのように
話しをすると患者さんがほっとして楽になるといったことを指している。「病は気から」ということわざがあるが、気を楽
にしてあげることで、病もあるていど治すことができるという意味内容である。
だから「ムンテラする」ときにはそういう意味を含んでいると言うことを忘れないようにねー、とポリクリの時に話すように
しています。今は放射線科診断医なので外来にでることはないのですが、小児科医や、田舎の診療所勤務をしていて往診に
回ったりしていたときにこれが必要であることを痛切に感じたし、何と言ってもポリクリの学生さんがこのことをほとんど
知らないので、ちょっと脱線ですけど書いておこうと思います。

\ HOME (MRI)\HOME (PowerPoint)\自己紹介\MRIの本\学会報告\
\ 学会TIPS\発明\便利グッズ\\最近の活動\Taro's\LINKS\