Shisa V2シリーズ正式リリース
Shisa.AI(東京都港区)が、日本語タスクに特化したバイリンガル汎用チャットモデル「Shisa V2」シリーズの正式リリースを発表しました。このシリーズは業界標準ベンチマークで日本語処理において圧倒的なスコアを達成し、英語能力も高い水準を維持しています。特に注目すべきは、実運用環境において優れたコストパフォーマンスを発揮する12Bおよび14Bのパラメータモデルが新たに追加された点です。
進化のポイント
1. 日本語処理能力の大幅向上
Shisa V2は、ダウンロード数が100万を突破したShisa V1を元にさらに進化しました。業界の標準ベンチマークでは、複数のモデルクラスで1位を獲得。コストのかかる事前学習に代えて合成データを活用し、訓練後の最適化を重点的に行ったことで、出力の自然さや文脈理解力が大幅に向上しました。翻訳やロールプレイを含む実用的なタスクにおいてもその実力を発揮しています。
2. モデルファミリーの拡充
Shisa V2は、7Bから70Bまでといった小型から大型まで幅広いバージョンを持ちます。Qwen2.5やLlama3.1といった基盤モデルを活用し、日本語処理能力が大幅に向上。日常業務から専門タスクにいたるまで、高い実用性を備えています。以下は各モデルの概要です。
モデル名 | パラメータ数 | 日本語ベンチマーク | 英語ベンチマーク |
---|
-- | -- | ---- | --- |
shisa-v2-qwen2.5-7b | 7B | 71.06 | 54.86 |
shisa-v2-llama3.1-8b1 | 8B | 70.83 | 54.75 |
shisa-v2-mistral-nemo-12b | 12B | 72.83 | 53.33 |
shisa-v2-unphi4-14b | 14B | 75.89 | 60.10 |
shisa-v2-qwen2.5-32b | 32B | 76.97 | 67.41 |
shisa-v2-llama3.3-70b1 | 70B | 79.72 | 67.71 |
独自の日本語ベンチマークを開発
Shisa V2モデルは従来の評価指標で優れた性能を示すだけでなく、実用的なタスクに焦点を当てた新たな日本語ベンチマークを自社開発しています。
- - shisa-jp-ifeval:高度な日本語指示追従能力を評価。
- - shisa-jp-rp-bench:複雑なロールプレイや複数ターンの対話能力を評価。
- - shisa-jp-tl-bench:高品質な日英翻訳能力を評価。
これらのベンチマークは近日中にオープンソースとして公開され、日本のAI研究・開発コミュニティに貢献する予定です。
Shisa.AIについて
Shisa.AIは、シリコンバレーの技術チームによって設立された次世代AIスタートアップで、日本語特化型AIとデータドリブン開発を柱にしています。今後も日本語処理技術の先端を走り続け、日本発のAIイノベーションを世界へ向けて発信していきます。
AKA Virtualとの提携について
また、Shisa.AIはAKA Virtualと戦略的提携を結び、2024年10月より、バーチャルアイドル事業へのShisaの言語モデル技術導入を開始します。特に、AIキャラクターサービス「DE-AI」においてShisaの先進的なLLM技術を採用し、高品質なユーザー体験を実現しています。
公式リンク