音声認識とは
音声認識とは、人の発話内容を解析し文字情報としてテキスト化する技術です。スマートフォンの「音声で入力する」機能や、Amazon社のアレクサ、Google社のGoogleアシスタント、アップル社のSiriにも音声認識が利用されています。
このように、音声認識は今や身近な技術であり多くの人が日常のなかで利用している光景を見ることができます。しかし、音声認識技術の歴史は意外と長く、1960年頃よりアメリカで開発が始められました。ここからは、音声認識にどのような歴史があるのかを解説していきます。
1-1. 音声認識の歴史
音声認識の歴史は、次のようにまとめられます。
- 1960年代……アメリカで開発がスタート
- 1970年代……本格的な研究が始まる
- 1975年……IBM社が民間企業として初となる音声認識技術に着手
- 1990年代……音声認識技術がゲームで活用され始める
- 2000年代……AIと組み合わせることで技術が飛躍的に躍進
- 2022年現在……スマートフォンで手軽に利用できるように
音声認識の開発は1960年代から始められていましたが、一般家庭にまで普及するほど精度は高くありませんでした。大きな転換点となったのが、2000年代に見られたAIの進歩です。それと同時にコンピュータの性能も高くなり、小型端末が普及したことで音声認識も注目を集めるようになりました。
2011年にアップル社がiPhoneにSiriを搭載したことを皮切りに、『バーチャルアシスタント』を誰もが利用できるようになります。その後、飛躍的に普及してビジネスシーンでも利用されるようになり、「コールセンターでの応対記録」や「議事録の作成」など、音声認識技術は広く活用されるようになっていきました。
1-2. 音声認識を用いた商品サービス
先ほども少し触れましたが、音声認識を活用した商品やサービスとして次のようなものがあります。
- 自動で議事録を作成してくれる
- 自動で通訳をしてくれる
- 人間の感情を音声から分析してくれる
- コールセンター向けの音声認識サービス
- 音声認識で入力できる電子カルテ
このように、業界を問わずさまざまなシーンで音声認識の実用化が進んでいるのです。
音声認識の仕組み
そもそも音声認識はどのような仕組みになっているのでしょうか。
現在、多くの音声認識システムで採用されているのが『DNN-HMM型』です。DNN-HMM型では、以下の4つの仕組みが必要となります。
- 仕組み(1)音響分析で音声をデータ化
- 仕組み(2)音響モデルで音声データから音素を抽出
- 仕組み(3)発話辞典と言語モデルで音素を単語に変換
- 仕組み(4)自然な日本語としてテキスト出力
これら4つの仕組みについて、解説していきましょう。
仕組み(1)音響分析で音声をデータ化
まずは入力した音声をデータ化するところから始めます。ここでは、音声を定量的に示した、「特微量」と呼ばれる数値に変換します。このように、AIが認識しやすい特微量に音声を変換する作業を『音響分析』と言います。
音響分析では具体的に、音の周波数や強弱、間隔、時系列といった特徴を抽出します。そして、アナログ情報をデジタル信号に変換し、コンピュータが認識しやすいデータに加工します。
仕組み(2)音響モデルで音声データから音素を抽出
次に、音響分析で抽出された特微量が、どのような「音素」にどれくらい近いかを計算します。「音素」とは、日本語における母音、子音、撥音のことです。コンピュータの学習パターンと音素を照らし合わせ、特徴が近い音素を抽出する作業を行っていくのです。
ここで使われる学習パターンは、数千人や数千時間分の音声を統計処理したものが利用されます。そして特微量との整合率を計算し、適切な文字とマッチングさせるのです。
仕組み(3)発話辞典と言語モデルで音素を単語に変換
音素だけではアルファベットが抽出された状態なので、「発話辞典」と「言語モデル」で意味が通じる日本語に変換する必要があります。発話辞典とは、発音と単語が登録されたデータベースです。発話辞典を使って音素と単語をマッチングさせ、意味のある言葉に変換していきます。
また、言語モデルには、発話辞書で特定した単語と出現頻度を照合し、よく使われる文章に変換される仕組みがあります。ここでは、大量の日本語テキストを統計処理した言語モデルが使用されます。
仕組み(4)自然な日本語としてテキスト出力
以上の処理を経て、日本語として自然な文字列で文章が作成され、テキストとして出力されます。そして、議事録作成や自動翻訳、コールセンターなどで利用されていくのです。
現在はAI(人工知能)の利用で精度向上を実現
音声認識は、AI(人工知能)を搭載させることで精度の向上が実現しました。ここでは、まず『AI』について解説し、続いて『AI搭載型の音声認識の仕組み』についてお伝えしていきます。
3-1. そもそもAIとは
AIとは「Artificial Intelligence」の略称で、人間のような知能を持つコンピュータを指します。人間に特有な知性や知覚を人工的に再現したもので、特にディープラーニング(深層学習)は音声認識に大きな影響を与えました。
ディープラーニングは、人間がなにも指示を出さなくても、多くのデータからAIが自律的に学習することが可能となる仕組みです。自動でデータのルールや特徴を抽出し予測分析できるため、AIを搭載することで音声認識の精度が大きく向上しました。
3-2. AI搭載型の音声認識の仕組み
次に、ディープラーニングを用いた音声認識技術について解説します。
従来の手法では、上記で解説したように“統計モデルを用いた音声認識”が実施されていました。しかし、AI搭載型の音声認識では、「音響モデル」から「言語モデル」までを、“人間の脳の働きをモデルとしたニューラルネットワークモデル”で実装しました。そして、ディープラーニングに置き換えられるようになったのです。
具体的には、たとえば言語モデルで「私は自転車に」とインプットされると、「乗る」「乗らない」といった次に出現されやすい単語を自動で予測します。ディープラーニングは極めて高い精度で大量のデータに含まれる特徴を自動学習するので、多くの音声情報を処理できるようになったのです。
AI音声認識を導入する3つのメリット
AI音声認識をビジネスに導入すると、多くのメリットがあります。ここでは3つを挙げて解説してみましょう。
メリット(1)業務効率化
例えば、AI音声認識を搭載した議事録作成ツールを用いると、業務効率化が実現します。会議中の音声を認識させれば、リアルタイムでテキスト化しますので、人の手間をかけることなく議事録が完成するからです。
議事録作成ツールのなかには、テキスト化した文章をリアルタイムで外国語に翻訳する機能のあるツールもあります。このようなツールを駆使すれば、会議内容の共有スピードが加速化されるはずです。
メリット(2)業務精度の向上
AI搭載の音声認識は非常に精度が高くなってきており、音声を正しく認識して自動でテキスト化してくれます。人間が文字入力をするとどうしてもヒューマンエラーが発生することもありますが、それらを防止することができますので、業務精度の向上も期待できるでしょう。
メリット(3)顧客満足度の向上
コールセンターで録音した通話内容をAI音声認識でテキスト化すれば、問い合わせ内容の抽出やオペレーターの応対品質の改善に活用可能です。お客様から多く寄せられるトラブルや疑問の解決に役立つほか、オペレーターへのフィードバックにも利用でき、結果的に顧客満足度の向上に貢献します。
AI音声認識の活用事例3選
それでは次に、実際にAI音声認識を活用した事例を3つご紹介しましょう。
事例(1)JALカード:音声認識でコールセンター業務を効率化
株式会社JALカードのコールセンターでは、音声内容をテキスト化する機能がなく、テキスト化が必要な場合は音声を聞きながら書き起こす必要がありました。そこで音声認識でテキスト化できるソリューションを導入したところ、音声内容の書き起こしにおいて大幅な業務効率化が実現しました。
事例(2)東京都港区:議事録の作成を音声認識で自動化
従来は手作業で議事録を作成していましたが、職員から「自動作成ツールを利用したい」という声が9割以上に上っていたと言います。そこで、音声認識を利用した自動の議事録作成ツールを導入。その結果、従来は1時間の会議に対して4時間かけて議事録を作成していたところ、ツール利用で1時間まで短縮することに成功しました。
事例(3)名古屋大学:音声認識と自動翻訳で講義動画に日本語字幕を作成
名古屋大学の数理・データ科学教育研究センターでは、英語のレクチャーを日本人向けに教育コンテンツとして利用するため、日本語字幕をレクチャー動画に挿入したところ、受講者にとっても理解しやすい日本語で字幕がつけられることになりました。
応対品質を改善するならパーソルビジネスプロセスデザインへ
音声認識の仕組みは、AIの発展により精度が向上しています。ビジネスにAI搭載型の音声認識ツールを取り入れることにより、業務効率化や生産性向上などさまざまな恩恵を享受できるはずです。
コールセンターにおいても、音声認識の技術は活用されています。通話内容がテキスト化されれば、オペレーターによる応対品質の改善ポイントを抽出しやすくなるのがメリットです。
しかし、テキスト化できたとしても「どのような基準でテキスト内容を評価すべきか分からない」という担当者も少なくありません。
そこでぜひご利用いただきたいのが、パーソルビジネスプロセスデザインの「応対品質改善サービス」です。パーソルビジネスプロセスデザインでは、評価基準として、国際的に認知された「HDI国際スタンダード」を採用しています。
オペレーターの公正な評価ができるだけでなく、カスタマーサービスに共通の指標を用いた評価が実現するので、応対品質の向上が期待できるはずです。
また、オペレーターの対応をモニタリングや面談で評価し、個人レベルに合わせた研修までお任せいただけます。さらに、ミステリーコールやさまざまなモニタリング方法で対応をチェックしますので、応対品質でお困りのことがあればパーソルビジネスプロセスデザインまでご相談ください。