 |
はい、これから声紋認識をするところです。発話するのはアドバンスト・メディア社の岸さん。上司の中村さんと一緒に杏林大学に来られました(杏林では音響モデルの構築に関するAmiVoice Medical共同研究をしているため)。
彼はいろいろな仕事をしているようですが、営業もしているのですでにご存じの放射線科医の先生方もいらっしゃることと思います。
|
 |
まず最初に、認識したい人の音声を登録します。これはきわめて簡単です。
左上の「話者登録開始」ボタンをクリックして、登録を開始します。登録といっても自由に適当な言葉をしゃべるだけです。「今日はお天気がいいですねえ。富士山がよく見えました」とか「今日は杏林大学に来て共同研究の作業をしています」など何でも良いわけです。話していくと情報が蓄積されてきて、下端にある青い棒グラフ(処理状況を示す)が伸びていきます。青い棒グラフが右端まで伸びたら(左図)、「話者登録中止」を押すと、登録完了です。
このとき、上から4行目の人(これが登録している岸さん本人)の棒グラフだけ非常に長いことに注目してください。この棒グラフは、機械が推定するある特定話者の話し方に対する一致指数です。本人がしゃべると当然高い訳ですが、本人の指数は95%ぐらいあるのに比較して、その他の人は一致指数30%以下であることがわかります。このような状態になれば、発話している人が岸さんであることが特定できるというわけです。
|
MP4 (300KB)
QuickTime (2.2MB)
MP4(1.4MB)
|
登録完了後、今度は実際に認識して話者特定ができるかどうかのチェックです。これはデジカメで動画を撮ったので、動画でご覧ください。
いくつかのファイルを用意したので、適当なものでご覧ください(下の方がより高画質です)
|
| ■自由文入力声紋認識の今後
これもまたいろんな応用が考えられる訳ですが、さしあたり、電子カルテとか読影レポートのシステムでは、通常の作成動作の時に、バックグラウンドでこれを動かすことができるわけです。従って、カルテや読影レポートを第三者が改ざんあるいは作成すること(「なりすまし」など)を阻止することが可能です。レポートを作成し始めたら、「あなたは岸さんではありませんね。最初からログインしなおしてください」という警告を発して、システムが閉じてしまうわけです。自分の話し方自体が複雑なパスワードになるわけなので、これは他の人には事実上介入されない完全なセキュリティが構築できるというわけです。もちろん医療用以外にもこの技術は使用できるので、これもかなり将来普及するのではないかと思います。いままでの声紋認証は、認証できないとなんども同じ言葉を繰り返す必要がありましたが、これは適当に話すことでOKということも利点だと思います。
とここまで書いて、5年後はきっとすごいな〜と思ったのですが、10年後とかだと、逆にコンピュータが発話能力を獲得してしまい、コンピュータによる「なりすまし」が発声、じゃなくて発生するかもしれませんね。技術の進歩というのは常に二面性があるのだニャ〜。お後がよろしいようで。
|