Visual Bankが落語音声データセットを提供開始
Visual Bank株式会社が展開するAI学習用データソリューション『Qlean Dataset(キュリンデータセット)』に、新たに『日本語・1話者・落語音声コーパスデータセット』が追加されました。このデータセットは、落語家による実演音声を収録した音声データであり、特に話者が一人の構成となっています。落語特有のリズムや間、抑揚を含むだけでなく、会場からの笑い声や拍手なども収録されており、実演の雰囲気をそのまま体感できるのが大きな魅力です。
データセットの特徴
このデータセットは、約15〜30分の音声が447時間分収録されており、様々なジャンルの落語が含まれています。音声ファイルはmp3形式で提供され、収録は屋内の会場で行われています。これにより、自然な音声データが得られるため、AIモデルの開発や評価に非常に有用です。具体的な使用例を見ていきましょう。
ユースケースの幅広さ
1.
音声認識と自然発話理解AIの開発 それぞれの落語の長尺な構造を持つ語りは、自然発話の学習に非常に役立ちます。また、笑い声や拍手音といった環境音も含まれているため、音声認識技術のノイズロバスト性のテストにも最適です。
2.
音響やコミュニケーション解析データの研究 笑い声や拍手といった複数の音響イベントが同時に収録されているので、音響の分類や環境音の解析など、音響イベント検知のための重要な資料になります。
3.
音声生成や表現AIへの応用 落語独自のリズムや間があるため、音声合成技術における学習資料としての活用が期待できるでしょう。これにより、より自然で多彩な音声生成が可能になります。
4.
文化・教育領域での利用 明瞭な語り口調を生かして、日本語教育やリスニング教材の開発にも応用できます。さらには高座での実演音声はアーカイブ価値も高く、自動解析技術の向上に貢献します。
5.
実環境データを用いたAI応用 音響環境の中でのより現実的な音声処理技術の検証ができるため、社会実装を見据えた研究開発にも寄与します。
組織とパートナシップ
『Qlean Dataset』を提供するVisual Bankは、他の業界でのデータパートナーと連携しています。この取り組みを通じて、特化されたデータセットを拡充し、研究や商用利用のニーズに応える準備を進めています。特に、千葉ロッテマリーンズや東洋経済新報社など多様な分野とのコラボレーションにより、最新トレンドに即したデータラインナップを構築しています。
まとめ
Visual Bankが展開する『Qlean Dataset』は、AI開発を支える強力なプラットフォームです。落語音声データセットの提供は、日本語の音声理解技術の向上だけでなく、様々な分野での新しいビジネスモデルの提案にも繋がることでしょう。今後の展開に期待が寄せられます。詳細はこちらから確認できます。
Qlean Dataset公式サイト