AI技術を支える新音声データセットの提供開始！怪談の朗読データが登場

新たな音声データセットの登場

Visual Bank株式会社が、AI開発を支援する新しい音声データセット「日本語・1話者・怪談系テーマの朗読音声コーパスとトランスクリプト」の提供を開始しました。このデータセットは、主に自動音声認識（ASR）や音声理解、そして大規模言語モデル（LLM）の研究や開発に利用されることを意図しています。

データセットの概要

本データセットは、日本人話者が一人で怪談や怖い話を朗読する音声と、その内容を正確に書き起こしたトランスクリプトから構成されています。語り口には不安感や緊張感が漂い、物語の展開とともに感情が自然と表現されているのが特徴です。この構成は、音声データが単純な読み上げだけではなく、感情を伴った連続発話としての活用を可能にしています。

さらに、怪談という特性から、抑揚や間、声のトーンの変化が文脈に密接に関わっており、長文コンテキストでの音声理解や音声認識能力のトレーニングを視野に入れたデータデザインがなされています。これにより、話者分離を必要としないモデルの検証や、話者条件を固定した音声・言語の挙動分析が行いやすい環境が整っています。

収録内容と形式

データ形式

- 音声データ：mp3形式
- テキストデータ：txt, json, csv形式

収録時間

音声は、30秒から90分の範囲で、それぞれの朗読が収められています。収録された内容は、怪談やホラー作品の一節を感情豊かに朗読するシーンが中心です。

サンプル詳細

詳細なサンプルは、こちらのリンクから確認可能です。

ユースケースの紹介

このデータセットは、以下のような用途に最適です。

研究用途

- 音声認識の評価：怪談朗読に含まれる連続的な語りを使用し、ASRモデルの長文発話認識精度の検証に役立ちます。
- 言語モデルの文脈理解：音声認識結果を入力とし、LLMや音声理解モデルが物語の文脈をどのように保持し、理解するかを評価できます。

産業用途

- 音声対話AIの検証：抑揚や間を含む音声表現を用いて、音声対話AIやナレーション生成AIの入力理解や出力品質を検証します。
- コールセンター向け音声モデルの事前検証：感情を伴う連続発話を通じて、音声UIや音声処理基盤の安定性や誤動作リスクを検証。

Qlean Datasetについて

Qlean Datasetは、Visual Bank子会社のアマナイメージズが提供する商用利用可能なAI学習用データソリューションです。多様なデータ形式に対応しており、研究用から商用まで幅広く活用できる環境を整えています。さらに、データパートナーとの協力により、業界特化のデータラインナップ「AIデータレシピ」を継続的に拡充。

このように、Qlean Datasetは、AI開発におけるデータ収集や整理の負担を軽減し、法的リスクのない開発環境をサポートしています。

詳細については、Qlean Datasetの公式サイトをご覧ください。