人の声から感情を判定する音声感情認識AI「Empath」
声の高さや抑揚などから相手の気分を感じ取ることは、多くの方がなさっているでしょう。そうした、音声から感情を読み取る行為をAIに行わせ、数値化・可視化してビジネスなどに活かす取り組みが広がっています。社会や産業のデジタルイノベーションに取り組むCACは、この分野にも着目しており、2023年4月に株式会社Empath(現在の社名は株式会社Poetics)から譲り受けた音声解析AI事業の拡大を推進しています。この事業の中心となる技術が音声感情認識AI「Empath(エンパス)」です。
こちらでは、音声感情認識AI「Empath」とEmpathを活用した新サービスについてレポートします。
音声感情認識AI「Empath」とは
音声感情認識(または音声感情分析)とは、人の声をAIが分析して、その人の感情を判定する技術です。
例えば、同じ人の「おはようございます」という挨拶でも、心身ともに元気な時の「おはようございます」と気分が沈んでいる時の「おはようございます」とでは、声のスピードやトーンといった状態には違いが生じます。
音声感情認識AIは、こうした声に表れる状態をもとに人の感情を解析します。
Empathは、通話や対話の音声から雑音や発話がない部分を切り取って発話のみを検知し、人が話す言葉の意味内容ではなく、声のスピードや抑揚、トーンといった物理的な特徴量から気分の状態を独自のアルゴリズムで判定します。数万人の音声データベースをもとにして「喜び」「平常」「怒り」「悲しみ」の4つの感情に「元気度」を加えた5つの指標により分析を行い、その結果を視覚的に表します。
Empathは、言葉の内容ではなく声の状態で感情を分析するため、日本語や英語といった言語を問わずに分析が可能で、これまでに世界50ヵ国、4,300社以上で利用されています。
また、他の海外製等の音声感情認識技術とEmpathが大きく異なる特徴として、「リアルタイムでの解析が可能」なことと、「感情解析のモデルのチューニングが可能」なことが挙げられます。
特にモデルに関しては、独自開発の統合AI学習環境により音響特徴から様々なAIモデルを比較的短期間で創出することができ、有効なモデルをクラウド環境、オンプレミス環境で提供できます。
これらにより、Empathなら幅広い分野で、様々な目的に対応した自由度の高い音声感情認識技術の活用が可能になるのです。
最初のプロジェクトは東日本大震災被災地の支援スタッフの
メンタルヘルス・ケア
Empathは、これまで様々な領域で活用の実績があります。例えば、毎日の音声から気分状態を計測するスマートフォン用アプリや、ロボットとの音声対話への技術活用、さらにエンターテインメント分野で感情に合わせた音楽出力や感情表情デザインへの技術活用などの例があります。
様々なビジネス領域で活用が広がりつつあるEmpathですが、特にその活用が期待される分野の1つが、メンタルヘルス・ケアです。
Empathのもとになる音声解析AI技術は、東日本大震災の被災地で活動するボランティアのメンタル状況の測定や管理に用いられたものでした。
被災地で活動するボランティアの中には、精神的に厳しい状況のもとで、あまり表に感情を出さず、「大丈夫」と言っていても実際は無理をしてメンタルに不調を抱えてしまう方もいました。当時、そうした現場で音声解析AI技術を活用することにより、メンタル不調者を発見し、早めに休みを取ることを促したり、産業医に連携するなどのケアを行うことで、ボランティアの健康管理に貢献できました。
こうした経緯もあり、Empathはメンタルヘルス・ケア分野での活用を念頭に開発が進められてきた側面もあります。
「音声の特徴量から人の感情を分析する」「メンタルヘルス・ケア分野での活用に適する」というEmpathの特性を活かせるのが、企業などにおけるコンタクトセンター、特にコールセンター業務です。
コールセンターは、企業にとってイメージや売り上げ、そして顧客満足といった観点から重要で、そのポイントは顧客等と音声のみでやり取りを行うオペレータの応対の品質にあります。一方で、コールセンターのオペレータは顧客からクレームなどの際に心無い言葉や罵声を浴びせられることもあるなどメンタルへの負担が高く、丁寧なケアが必要です。また、コールセンターにとってはオペレータの離職を防ぐことも課題になっています。
こうしたコールセンター業界の課題に対して、Empathでは企業、オペレータ、顧客のいずれにとってもより良い結果が得られるよう、オペレータ・ケアや応答品質向上の評価、通話を解析した顧客満足度の測定といったサービスの提供を行っており、導入が進んでいます。
コールセンター向け新サービス「Beluga Box SaaS」
2023年7月にCACは、Empathを活用したコールセンター向けの新たなサービス「Beluga Box SaaS(ベルーガ・ボックス・サーズ)」の提供を開始しました。
Beluga Box SaaSは、コールセンター等での顧客とオペレータ間の通話音声から「感情」「話し方」「顧客満足度」を解析する「Beluga Box」の機能をSaaS型で提供するとともに、コールセンター向けに、オペレータの応答品質向上とオペレータ・ケアのための2つの新機能(品質評価の自動スコアリング機能、オペレータのメンタル支援機能。オプションで提供)を備えていることが特徴です
品質評価の自動スコアリング機能は、手本となる通話データをプリセットし、評価対象となるオペレータや通話がどのくらい手本に近いかで応対品質を自動評価します。これによりオペレータはより適切な応答を学ぶことが可能になります。
オペレータのメンタル支援機能は、通話の音声からオペレータ自身が元気かどうかを測定します。また、オペレータが応対した顧客から叱責などを受けた回数をカウントし、ストレスが高くなっているオペレータを早期に発見して管理者に通知します。この機能により、オペレータへの適切なケアを行うことが可能になり、離職の防止などにも役立てられます。
業界屈指の低価格で音声感情解析を提供
リーズナブルな価格もBeluga Box SaaSの特徴です。
Beluga Box SaaSは、1分あたり0.2円と従来の同様のサービスと比較しても低価格での利用が可能です。
これまで企業が音声感情解析技術を利用する場合は、製品を購入して実装するソフトウェア型のものは初期の導入コストが高くなる傾向があり、従量制サービスはコールセンターなどの音声を解析する際に対象音声のデータ量が大きく割高になることが、それぞれ導入へのネックとなっていました。
こうした状況に対して、Beluga Box SaaSでは、過去10年間に収集・蓄積した実環境上の音声データをもとに機械学習を繰り返して軽量なモデルの構築に成功したことにより、リーズナブルな価格で高精度のモデルを提供することが可能となりました。
今後の展望 ― Empathが持つ可能性
現在、音声感情認識AI「Empath」はコールセンターでの活用にとどまらず、モビリティやゲーム、セキュリティといった業界からも関心を集めています。
コールセンターでの活用で培われてきたEmpathの高い対話の解析技術は、「音声」を扱う業界・業種であれば、様々な活用の可能性があります。また、Empathの分析手法は言葉の意味内容を問わないため、グローバルな範囲で活用も検討できます。
さらに、昨今のChat GPTをはじめとしたLLM(Large Language Model, 大規模言語モデル)を活用した対話AIの急速な進化に対して、Empathの音声感情認識技術を活用する余地が十分にあると考えています。例えば、音声UIにEmpathを組み込むことで、企業などは自社サービス利用者の感情を考慮・反映したサービスを提供し、より高い顧客満足の実現が可能になるかもしれません。
CACは、音声コミュニケーションへのEmpathの活用は、よりよい社会実現の可能性を秘めていると考えており、音声感情認識AIを活用した社会課題の解決やビジネス革新の取り組みへの支援に取り組んでまいります。