デバジャン・ゴシュ(Debanjan Ghosh)、AI/MLソフトウェア、エッジAIプリンシパル・エンジニア
ヤコフ・シュコルニコフ(Yakov Shkolnikov)
2026年3月31日
音声は、ますます多くのアプリケーションでユーザー・インターフェースとして活用されるようになっています。自宅ではスピーカーやウェアラブル・デバイスに、職場では産業用やヘルスケア用デバイスに、さらには通勤中の車内でも、声によって操作することができます。正しく活用すれば、音声は自然でスムーズなものになります。しかし、こちらの意図を理解しないシステムを相手に、何度も同じことを繰り返すことがあまりにも多くあります。アナログ・デバイセズ(ADI)のチームは、この問題を解決するための新たなアプローチとして、「キーワードの選定」に着目しました。
音声システムは、連続する音声ストリームの中から特定の単語やフレーズを検出するキーワード・スポッティング(KWS)のアルゴリズムに依存しています。この分野の研究の多くは、KWSモデルをより小型化、高速化、柔軟化すること、すなわちモデルの圧縮や端末側学習に焦点を当てています。アナログ・デバイセズの独自モデルは最近、小型化と高精度を両立させるという点で新たな境地を切り拓きました。アナログ・デバイセズのチームは、これまでほとんど注目されてこなかったある疑問に答えようとしたのです:
そもそも適切なキーワードを見つけられるのでしょうか?そして、「より良い」キーワードは、ノイズの多い環境でも効果を発揮するのでしょうか?
なぜキーワードの選定が重要なのでしょうか?
病院で患者の受付を行う音声認識システムを想像してみてください。コマンドは「患者を受け入れる」かもしれませんが、特に騒々しい病院の環境では、「患者を登録する」という表現の方がシステムにとって認識しやすいとしたらどうでしょうか?
KWSアルゴリズムは、リソースに制約のあるハードウェア上で動作しているにもかかわらず、このようなコマンドに対して即座に正確に応答しなければなりません。速度が極めて重要であり、ネットワークの遅延は許容できないため、アルゴリズムはデバイス上でローカルに実行される必要があります。セキュリティとプライバシーの向上が、このアプローチのもう一つの利点です。
これまでの研究では、モデルの量子化やプルーニングなど、ローカル実行を可能にする手法が優先的に検討され、目覚ましい成果を上げてきました。しかし、選択されたキーワードの検出が困難な場合、特にノイズの多い環境では、最も効率的なモデルであっても処理が困難になることがあります。アナログ・デバイセズは、成功や失敗が単語の形態素といったキーワード自体の構造に左右される可能性があると考えています。
形態素とは、単語の中で意味を持つ最小の単位のことです。たとえば、「redo」の「re」や「running」の「ing」などがそれに当たります。アナログ・デバイセズの仮説は、一般的でない形態素(たとえば「register」の「gister」のような)を含むキーワードを選定することで、一般的な形態素を含む場合よりも高い検出精度が得られるというものです。さらに言えば、このようなKWSシステム向けに最適化されたキーワード・セットを設計することは可能でしょうか?
アナログ・デバイセズのアプローチ:よりスマートなキーワード選定のための、AIを活用した実践的な手法
アナログ・デバイセズのチームは、2段階のアプローチを採用しました:
-
テキストベースの分析
この作業ストリームの目的は、形態素のエントロピー、すなわち単語内での形態素の予測可能性を検証することでした。OpenAIのGPTモデルを用いて、ヘルスケア分野特有のキーワードとその同義語のリストを作成し、各単語を含む20文以上の文章を生成しました。その後、LLMは各単語を形態素に分解し、エントロピー指標を用いてそれぞれを評価しました。
- 重み付きエントロピーは、一意性の尺度を用いて形態素の希少性を反映します。
- 結合エントロピーは、それらの形態素がキーワード内で一緒に現れる頻度がどれほど低いかを測定します。結合エントロピー値が高いほど、そのキーワードは使用頻度が低いことを意味しました。
ソース・マテリアルとして、頻繁に使用される会話のデータセット1を用い、そこから文を抽出し、単語を形態素に分割しました。その後、特定した各形態素について、その出現頻度に基づいてエントロピー値を算出しました。
-
スピーチベースの分析
この段階では、実際の環境におけるキーワードの検出可能性に大きな影響を与えるものの、モデルのみを用いた評価ではしばしば無視されがちな、音響ノイズ、信号歪み、センシングの限界といったフィジカル・インテリジェンスの要因をはっきりと考慮に入れています。エントロピーはキーワード選定の指針となる一方で、実際の状況においてそれらのキーワードがどの程度検出可能かを評価することも同様に重要なことです。そのため、対象となるキーワードとその同義語を含む文の音声サンプルを生成しました。以下の手順で処理を行いました:
- ChatterboxTTS(テキスト読み上げ機能)を使用して、サンプル文を音声に変換しました。各サンプル文には、候補となるキーワードが含まれていました。
- 実際の環境を再現するため、PASCAL CHiMEデータセットから、SN比(SNR)が異なるバックグラウンド・ノイズを追加しました。
- DeepFilterNetモデルを使用して、サンプルからノイズを除去しました。
- 次に、自動音声認識モデルであるWhisperを使用し、ノイズ除去済みの音声サンプルを再び文章に変換しました。
- 最後に、元の文章と新たに生成された文章の両方をテキスト埋め込み(つまり、類似したテキストほど埋め込みの類似度が高くなる数値ベクトル)に変換し、それらの類似度を比較しました。特定のキーワードの値が高いほど、ノイズの多い環境下での検出が容易であることを示しています。一般化を高めるため、候補のキーワードに対する全文の平均類似度を報告します。
言語学と音声研究の知見を融合させたこの2段階の学際的なパイプラインは、キーワードの評価と選定を行うための体系的かつ再現性のある枠組みを提供します。この処理によって類似していると判定された単語は、本質的にノイズの多い環境下でもより検出されやすいはずです。
調査結果
この調査の結果、エントロピーの高い単語ほど、KWSアルゴリズムによって正しく検出される確率が高いことが判明しました。この結果は、適切なキーワードを選択することで、特に騒々しい環境において、音声制御システムの信頼性を大幅に向上させることができることを示しています。たとえば、「患者を登録する」は「患者を受け入れる」よりも高い評価を得ており、「薬を処方する」は「薬を投与する」を上回りました。これらの結果は、テキスト評価と音声評価の両方で確認され、最良のケースでは、SN比-10dBの条件下で音声類似度スコアが0.9を超えました。つまり、ノイズ・レベルが音声そのものの約10倍にも達するような状況であっても、特定されたキーワードは高い精度を維持していました。
今後の展望
この研究は、キーワードの選定を最適化することでKWSモデルの性能を向上させるための実践的な枠組みを提供します。このプロセスにより、現在進行中のモデル・レベルでのユース・ケースの適応と開発を加速させることができます。言語が音響、センシング、そして環境ノイズとどのように相互作用するかを考慮することで、キーワード選定はエッジにおける広範なフィジカル・インテリジェンスのアプローチの一部となります。今後の取り組みでは、これらの手法を車載システムを含む他の産業や、英語以外の言語へと拡大していく予定です。各分野の専門家と連携することで、キーワードの選定を実際の運用環境にさらに適合させることができます。この適合により、音声システムが導入される環境において、その正確性、自然さ、信頼性を維持できるようになります。
出典:
1「Switchboard Dialog Act Corpus」、「Cornell Movie-Dialogs Corpus」、および「Reddit Dialog Corpus」