音声感情認識の仕組み

NTTドコモ(ドコモ)とEmpathは、雑音環境での音声感情認識技術を共同で開発した。この技術を、2018年度中にドコモの自動車向け音声エージェントサービス「AIインフォテイメントサービス」に導入することを目指す。

雑音環境での音声感情認識技術は、NTTグループのAI「corevo」を構成するドコモ独自の音声感情認識技術と、Empathの音声感情解析AI「Empath」の技術をもとに開発。車とドライバーを感情によって結びつけ、ドライバーが自動車に愛着をもって楽しく運転したり、運転に集中して居眠り運転を解消したりなどに寄与する。

ドコモとEmpathは、17年11月から18年3月までに期間、走行雑音がある環境で音声による感情推定の認識率向上の取り組みを実施。その結果、停車中のような雑音が小さい条件から高速道走行中のように大きな走行雑音がある条件で、自然に発声された対話音声の「怒り」「喜び」「悲しみ」といった感情の認識を業界で最高水準となる75%まで引き上げた。

また、AIが感情を理解して感情にあわせた声かけを行うことで、ドライバーの眠気やだるさなどの倦怠感を表す指標値が50%に減少。被験者の93%は、AIが自分の気持ちに寄り添ってくれていると感じて気分よく運転できることを実証実験で確認した。このような取り組みで、雑音環境での音声感情認識技術の共同開発を実現した。