生成AI音声判定技術の革新、ダイナミックな情報社会への貢献

データアナリティクスラボ株式会社（以下、DAL）は、エヴィクサー株式会社と共に行った生成AIに関する音声判定技術の研究成果を発表しました。これは、総務省が推進する「インターネット上の偽・誤情報等への対策技術の開発・実証事業」の一環として実施されたもので、現代社会における音声情報の信頼性を確保するための取り組みです。

研究の背景と目的

生成AI技術が進化する中、合成された音声や映像が日常的に使用されるようになり、それに伴い偽情報や誤情報が拡散するリスクも増大しています。このような事態に対抗するため、音声コンテンツを正確に判定する技術が求められています。この研究では、エヴィクサーが持つ音響信号処理技術と、DALのAI・データ分析技術を融合させることで、合成音声に対する効果的な判定手法の開発を目指しました。

主要な研究成果

1. 検証基盤の構築

本研究では、さまざまな音声生成モデルを分析し、それに対する検証基盤を設けました。特に、日本語を含む多様な合成音声を扱うために、最新のモデルであるTortoise、XTTS、Qwen3-TTSを比較検討し、現実の生成環境に近い条件での結果を出すことに成功しました。

2. 合成音声データの生成と解析

生成した合成音声に対して、スペクトログラムなどの音声信号を解析し、自然音声との違いを明確にしました。これにより、生成モデルに依存しない汎用的な判定技術の開発が進展しました。

3. 深層学習を用いた判定モデル

生成音声の判定につながる深層学習モデルの調査と検証も行い、学習用データセットの構築および判定精度の評価プロセスを整えることで、実用的な判定モデルの有効性をある程度確認しました。

4. 音響信号処理とAIの融合による技術の向上

エヴィクサーが持つ音響信号処理技術とDALのAI技術を組み合わせた検証支援により、合成音声判定の精度向上に寄与する知見を得ました。具体的には、合成音声データの生成、音声信号の特徴解析、深層学習モデルによる判定精度の検証が含まれます。

社会的意義

AI技術の進展は、音声や映像コンテンツの信頼性を確保するための重要な課題となっています。本研究によって得られた知見は、ディープフェイク対策や情報の真正性確認、AIガバナンスおよび標準化の分野での技術開発に直接寄与するものとして位置づけられます。

今後の展望

DALは、エヴィクサーと連携しつつ、音響信号処理とAIを融合した偽情報対策の研究と技術開発を継続的に進めていく方針です。これにより、信頼性の高い情報社会の構築に貢献していく所存です。

本件に関する問い合わせは、データアナリティクスラボの広報担当までご連絡ください。240文字以上でお送りし、さらに詳しい情報も提供しています。