新たな日本語音声データセット『Qlean Dataset』が登場!
Visual Bank株式会社(東京都渋谷区)は、傘下のアマナイメージズを通じて、AI学習用データソリューション『Qlean Dataset(キュリンデータセット)』を正式に販売開始しました。このたび、同社は音声データパートナーと連携し、合計7万時間を超える日本語音声データセットを新たに追加しました。このデータセットはあらゆる研究や商業向けAI開発に対応しており、多様なシーンで活用できるのが特長です。
Qlean Datasetの特長と新しいラインナップ
Qlean Datasetでは、商用利用可能なオリジナルデータのラインナップを『データレシピ』として提供しており、用途に応じて自由にデータ素材が組み合わせられます。今回追加された音声データは、以下の様々な収録形式を網羅しています。これにより、開発者は必要に応じてデータを選択しやすくなっています。
1話者音声の種類
- - 独白・朗読:小説や物語の朗読音声。
- - 教育・講義:大学の講義や専門的な教育用教材のデータ。
- - 文化・芸能:落語や講談などの伝統的な日本文化に根ざした音声。
- - その他:さまざまなエンタメ系トークや日常会話。
2話者音声の種類
- - ビジネス会話:対面や電話での自然なビジネス会話。
- - 模擬通話:プライベートとビジネスのシーンを再現した音声。
- - 医療会話:医師・患者間の診療シーンに基づくデータ。
3話者以上の音声の種類
- - グループ会話:3人以上のビジネスやプライベートの会話。
- - メディア系音声:テレビ番組や映画の自然な会話。
これらは、AIの精度向上や教育、医療分野の専門シナリオ構築においても有効に活用されるでしょう。
商用利用に最適な環境
全てのデータセットは権利処理が完了しており、商用利用が可能です。これにより研究開発者や企業は安心してデータを利用できます。また、Qlean Datasetはクオリティの高いデータをスピーディに提供し、開発の効率性を向上させます。
アカデミア支援プログラムの提供
Visual Bankは、大学や研究機関に対して無償でデータ提供を行うプログラムも開始しています。これにより、研究者は豊富なデータを容易に手に入れることができ、AIの研究開発が加速します。
まとめ
Visual Bankの『Qlean Dataset』は、商用利用可能な日本語音声データを7万時間以上提供し、研究者や開発者に新たな選択肢を提供しています。このデータセットを通じて、AI開発における課題解決が期待されます。興味がある方は、ぜひ詳細を確認してみてください。