Visual Bankが提供する『日本語・1話者・講談の音声コーパスとトランスクリプト』のススメ
東京都港区に本社を置くVisual Bank株式会社が、この度傘下の株式会社アマナイメージズを通じて、AI学習用データソリューション『Qlean Dataset』に新たなデータセットを追加しました。それが、日本の伝統的な話芸「講談」をテーマにした『日本語・1話者・講談の音声コーパスとトランスクリプト』です。このデータセットは、音声認識(ASR)や言語モデルの研究・開発など、さまざまな用途に対応しています。
日本の講談の特徴
このデータセットには、日本の講談とは何かを知るための重要な要素が詰まっています。講談は、物語を語る際に特有の抑揚や間を活かしながら進行する語り芸です。このコーパスには、1名の話者が物語を語る音声と、その内容を正確に書き起こしたテキストが含まれています。
データの構成
本データセットは、音声データとテキストデータから構成され、音声はmp3形式、テキストはtxt、json、csvなどの形式で提供されます。収録時間は30秒から45分まで多岐にわたり、サンプルの詳細は
こちらから確認できます。
研究への貢献
このデータセットは、特に以下のような研究用途に適しています。
- - 日本語音声認識モデルの精度検証: 詳細な情感表現や間を活かした連続音声を使用し、従来の音声データとは異なる自然発話条件下での認識精度を検証。
- - 音声と言語表現の対応関係の研究: 音声と書き起こしテキストの対を分析し、日本語における物語の表現や韻律がどのように言語理解に影響を与えるかを探ります。
産業用途への展開
産業界でも、このデータセットは多様な利用が可能です。
- - 音声入力型AIでの長尺音声処理の検証: AIプロダクト開発において、長時間の講談音声を用いた音声分割や全文書き起こしの機能を検証できます。
- - 日本語音声言語モデルの事前学習: 日本特有の語り口を持つこのデータセットは、音声モデルの事前学習や評価に欠かせません。
Qlean Datasetとは?
『Qlean Dataset』は、Visual Bankが提供する商用利用可能なAI学習用データソリューションです。画像や動画、音声、3D、テキストなど多彩なデータ形式に対応し、研究・商用の両方で安全に利用できます。また、業界特化のデータラインナップ『AIデータレシピ』としても広がり続けています。
AI開発に必要なデータを効率的に提供することで、法律リスクのない環境を構築し、データ収集や整備の負担を軽減します。今後も日本の音声・言語領域における多様なデータの整備を進め、AI研究と開発の基盤を支えることを目指しています。
まとめ
Visual Bankの『日本語・1話者・講談の音声コーパスとトランスクリプト』は、日本の伝統文化と最新のAI技術を融合させたデータセットです。国産の音声データが今後どのようにAI技術の発展に寄与していくのか、その可能性に期待が高まります。