人の声には、そのスピードや抑揚などにさまざまな感情が乗っている。それ故同じ言葉を話していても、話し方によって印象が大きく異なることは、日常の中で体感しているだろう。こうした人が発話している音声から感情を認識するAI「Empath」を提供しているのがCAC identityだ。同社は、このEmpathの技術をさまざまな製品やサービスに組み込んできた。ソフトからハードまで広がる音声感情認識AI技術の活用シーンを見ていこう。

音響特徴を機械学習したAI

CAC identity
下地貴明

 人の声から感情を判定する音声感情認識AIであるEmpath。本技術は「喜び」「平常」「怒り」「悲しみ」「元気度」という五つの感情指標を基に、発話者の感情を分析する。発話した言葉の意味や内容は考慮しておらず、声のスピードや抑揚、トーンなどの音響の特徴から感情が分析できる点が大きなポイントだ。本技術開発に当たり、4万人分の音声データを収集し、15人の評価者が全てを聞いて感情ラベルを付与。その結果を機械学習し、高精度な音声感情分析を可能にしている。

 本音声解析AI事業はもともとAI企業のEmpathが担っていたが、2023年5月1日にシーエーシー(CAC)が本事業の事業譲渡契約を締結している。2025年7月1日にはCACが音声解析AI事業を担う新規事業開発部の事業を分割し、同社子会社として新たにCAC identityを設立した。そのため現在Empathをはじめとした音声感情認識AI技術の開発や事業展開はCAC identityが担っている。

 CAC identity Affective Computing事業部長 下地貴明氏はもともとEmpathの創業者であり、このEmpath技術の開発者だ。下地氏は「Empathの音声感情認識AIの技術はクラウド型APIとして提供しており、幅広い利用実績があります。具体的には現在、約4,600社のデベロッパーが利用しています。特に多いのがコールセンターでの利用で、現在アクティブに利用している接続先だけでも約3,100席あります。また日本のみならずグローバルで利用されており、50カ国に跨って活用が進んでいます」と語る。

 活用用途も幅広い。例えばメンタルヘルス状態を可視化するようなアプリだ。従業員の気分を音声で可視化するアプリに組み込み、従業員のストレス軽減につなげたり、健康保険指導対象者向けに提供しているアプリに組み込んだりすることで、フィジカルだけでなくメンタルの健康チェックを行えるようなサービスとして提供されているという。また食品メーカーや化粧品メーカーが行うユーザーテストにおいて、テキストでの回答だけでは得られにくいユーザーの本音を探るため、Empathの音声感情認識AI技術を活用する例もあるという。

「ゲーム開発に活用された事例もあります。スクエア・エニックスが発売したゲーム『FORSPOKEN』では、事前収録された声優の台詞の音声を基に感情値を時系列データで出力し、3Dアニメーションソフトに読み込ませてキャラクターの表情の自動生成を行いました。これは手作業で行うと、1日の作業でも2分程度のデータしか作れないそうなのですが、Empathの技術を活用することで表情の自動生成を行った結果、約95%の作業時間の削減が実現できたと聞いています」と下地氏は振り返る。本事例を基に、3Dゲームの表情生成支援サービス「DeepEmo」の提供も行っている。

mimityを活用することで、通話ごとに自動生成される点数と改善ポイントをオペレーターの個人単位で確認可能だ。スーパーバイザーはこのフィードバックを効率的で的確な指導に役立てられる。
mimityは音声解析によるテキスト認識と、音響解析による声のトーン、抑揚、発話かぶりなどの印象分析を組み合わせて評価を行う。人が耳で受ける印象に近い粒度で会話の解析が可能だ。

言葉と感情の乖離を指摘する

 コンタクトセンターで活用される事例も多い。NTTコミュニケーションズ(現:NTTドコモビジネス)ではEmpathの技術を活用し、オペレーターの声を感情分析することで、顧客から受けた怒りの感情の蓄積を可視化し、優先的にケアすべきオペレーターを検出するような活用につなげているという。

 こうしたコンタクトセンター向けのサービスとして、CAC identityはEmpathの音声感情認識AIの技術とLLMを組み合わせたコンタクトセンター向け自動品質評価サービス「mimity」を2025年10月21日から提供している。もともと同社では、コールセンター向けに応対品質の自動スコアリング機能や、メンタル支援機能を提供するクラウド型対話データ解析サービス「Beluga Box SaaS」を販売していた。mimityはこのBeluga Box SaaSを発展させたサービスだ。

「コンタクトセンターのオペレーターの品質評価を行うのはなかなか大変です。例えば1人当たり1日20件電話応対をしているとすると、1カ月で400件の応対をしていることになります。オペレーターの指導をする管理者はこの音声を聞いて評価する必要がありますが、全てを聞いて判断するのは現実的ではありません。そこで、Empathのような音声感情認識AIがオペレーターの声色を分析し、その応対品質を評価することでオペレーターの育成や指導に繋げられます」と下地氏。

 例えば、顧客からクレームの電話があったとして、「大変申し訳ありません」と言葉で謝っていても、声音にその謝罪の感情が表れていなければさらに怒らせてしまう可能性があるだろう。そうした感情を分析し、より効果的な応答ができるように改善を促すのがmimityだ。

 mimityはEmpathのデータを独自の知見で統合し、発話した言葉の印象と内容をLLMに判断させることで、各通話を項目ごとにスコアリングして、根拠や改善アドバイスを含むレポートを自動生成する。将来的には導入したコンタクトセンターがプロンプトチューニングを行い、コンタクトセンター独自の評価もmimityで行えるように機能強化をしたい考えだ。

フィジカルAI時代に向けた可能性

「まだ開発段階ではありますが、コンタクトセンター向けにはユーザーの解約を防ぐためにEmpathの技術が活用できないか検証している事例もあります。サービスの解約を問い合わせてきた際に、多くの場合は解約を決めて電話をしてきていますが、解約を迷っているケースもあります。通話の冒頭部分の顧客の音声の特徴量から、解約を阻止できるかという可否を推定するAIモデルを作成しており、これを活用することで売り上げ向上につながる可能性もあるでしょう」と下地氏。

 下地氏は「音声解析AI事業では現在、コールセンターなど人と人の会話の解析ができるよう技術開発を進めており、これは今後も強化していきます。しかし昨今、フィジカルAI※が注目されているように、今後AIは物理的なタスクを実行するハードウェアに実装されていくことが予想されており、音声UIはそのハードウェアの基本コンソールになっていくでしょう。Empathの技術はロボットに実装された例もありましたが、当時はLLMの技術がなかったため広がりませんでした。しかし昨今のLLMの盛り上がりもあり、音声コミュニケーションの技術可能性は非常に高まっています。マシンと人が自然にコミュニケーションを取るようになる近い将来に向けて、生活者に寄り添うAIが生まれてくればいいと思いますし、そこに寄与するような音声解析AIの開発を進めていきます」と展望を語った。


※フィジカルAI:現実世界の物理法則を理解し、自律的に判断・行動できるAI技術。ロボットや自動運転技術に用いられる。