新たな音声AI技術「いざなみ」と「くしなだ」の概要
国立研究開発法人 産業技術総合研究所は、音声AIの新技術である日本語音声基盤モデル「いざなみ」と「くしなだ」を公開しました。これらのモデルは、感情や音声のバリエーションを豊富に含む6万時間の日本語音声データに基づいており、高性能な音声AIの構築が容易になります。
音声基盤モデルの意義
音声基盤モデルは、音声データの解析や処理を行う汎用的なAIモデルであり、音声認識や音声感情認識に幅広く応用されています。しかし、これまでのモデルは数千時間以上の音声データを必要とし、多様な感情表現を扱う際には十分な性能を発揮できない問題がありました。
産総研は、今回新たに収集した6万時間という膨大なデータを使い、「いざなみ」と「くしなだ」という2つの基盤モデルを開発しました。名前は、日本の神話に由来しており、これからの音声AIの発展を目指す意義が込められています。
各モデルの特徴
- - 「いざなみ」: 利用者が持つデータを用いて簡単に改良でき、人々のニーズに柔軟に対応可能な特性があります。特に、少量のデータでも高品質な音声AIを実現できる点が魅力です。
- - 「くしなだ」: 高度な音声感情認識能力を誇り、日本語の音声認識でも優れた成果を上げています。特に、感情表現が求められる場面での実用性が高まることが期待されています。
これらのモデルは、高齢者のケアや地域的な方言に対応した音声認識にも活用され、特に音声データが限られる環境においても効果を発揮します。将来的には、地方議会での議事録作成等、さまざまな場面での利用が見込まれています。
社会的な背景
近年、音声AIは様々な分野での利用が進展しています。スマートスピーカーや、会議の内容を文字起こしするシステムなど、音声技術は私たちの生活に欠かせない要素となっています。しかし音声データの収集には限界があり、特に感情表現が豊かな音声には、十分なデータが不足しているという課題がありました。
この課題を克服すべく、音声基盤モデルの開発が求められたのです。従来のモデルは、主に英語音声を使用していたため、日本語特有の感情表現や音声の特徴を適切に学ぶことができていませんでした。
産総研が構築した「いざなみ」と「くしなだ」は、日本語の特性に適応した設計がなされており、従来の問題を解決するための大きな一歩となることでしょう。
今後の展望
音声AIの普及に向けて、今後は方言や多世代の音声データを活用したモデルの改良を進めていく予定です。また、企業や大学と協力しながら、少量のデータでも高性能な音声AIを実現していくことが目指されています。これにより、地域や世代の違いに起因する音声認識技術の偏差が改善され、より多くの人々に役立つ技術へと成長することが期待されています。
「いざなみ」と「くしなだ」は、AIモデル公開プラットフォームHugging Faceからダウンロード可能であり、ユーザーはこれらを各自のプロジェクトに利用することができます。日本語音声AIの未来がますます楽しみになる中、これらの技術が生活の中でどのように役立つのか、目が離せないところです。