文学朗読音声データセットの提供を開始したQlean Datasetの波紋

新たな文学朗読音声データセットが登場

Visual Bank株式会社が、高性能な音声合成（TTS）モデルや自動音声認識（ASR）の精度向上、さらには自然言語処理（NLP）の研究に役立つ「日本語・1話者の文学朗読音声データセット」を提供開始しました。このデータセットは、日本文学や小説の朗読音声データと、その正確な書き起こしから構成されており、AI研究者や開発者にとって非常に価値あるリソースとなっています。

データセットの特徴

本データセットは、同一の日本人話者による朗読音声が収録されており、各作品の情景描写や地の文を丁寧に一定のテンポで朗読しています。そのため、音声には長時間にわたる一貫性があり、文学作品の微妙な抑揚や感情表現を反映した高品質な音声が得られるのです。追加的な特性として、感情を抑えた安定した調子から文学的な表現に基づく微妙な変化まで幅広く含まれています。この特徴により、文脈を考慮した音声生成技術の検証にも適しています。

データ形式と収録時間

このデータは、音声データ（mp3形式）およびテキストデータ（txt, json, csv形式）で提供され、収録時間は30秒から160分までの幅広い範囲をカバーしています。高い音声レート（44.1kHzまたは48kHz）で提供されるため、クリアな音質での利用が可能です。データセットは、朗読するシーンとして、作品の地の文や情景描写を含む日本の小説や文学作品が対象となっています。

ユースケース

研究用途

このデータセットは、主に研究者による長尺文脈における音声合成（TTS）の韻律制御の研究に活用されています。たとえば、数十分から一時間を超える長尺のテキストに対して、一貫した話者性を保ちながら自然なポーズや抑揚を生成するモデルを検証する際に、このデータが役立ちます。

産業用途

産業においては、オーディオブックやナレーション生成AIの開発にも利用されます。特に、出版業界やエンターテインメント分野では、複雑な構文を正確に読み上げるためのナレーションAIの学習データとして期待されています。この技術により、人間の朗読に近い自然なリスニング体験を実現することが見込まれています。また、文学表現に特化した自動音声認識（ASR）の音響モデルの最適化にも利用できます。特有の語彙や文語体が含まれる文学作品の音声を、正確に認識しテキスト化するためのファインチューニングにもなるというわけです。

Qlean Datasetについて

『Qlean Dataset』は、Visual Bank傘下のアマナイメージズが提供する、商業利用可能なAI学習用データソリューションです。このデータソリューションは、画像や動画、音声、3D、テキストなど様々な形式のデータに対応しており、研究や商業利用の両方において安全に活用できる環境が整います。AI開発現場におけるデータ収集や整備の負担を軽減し、法的リスクのない開発環境を提供することを目的としています。

今後も、Visual Bankおよびアマナイメージズは、生成AI及び音声・言語系AIのニーズに応じたデータ提供を通じて、国内外のAI研究や開発を支援していくとしています。興味のある方はぜひ、Qlean Datasetの公式サイト（こちら）を訪れてみてください。