新たな視覚言語モデルの開発
国立研究開発法人産業技術総合研究所(産総研)が、複数物体の幾何的関係性を理解し、説明できる新しい点群言語モデルを開発しました。この技術革新は、製造業でのAI活用の可能性を大きく広げるものです。
1. 研究の背景と課題
製造現場では、部品同士の接合や形状の違いを理解することが不可欠です。従来の視覚言語モデルは、主に単一物体を認識することに限られており、複数物体を見比べることにおいては課題が残っていました。特に「どの部品が接合するか」や「どの部分が異なるか」といった解析が行えないため、現場の作業効率に影響を及ぼしていました。このため、AIによる進化した解析能力が急務となっていたのです。
2. 新しいデータセット「MO3D」
産総研では、複数物体の幾何的関係性について学習させるため、約7万件の三次元点群データから成るデータセット「MO3D」を構築しました。このデータセットは、部品の接合や形状比較を行うための質問応答を含んでおり、AIが実世界の物体を理解するための新しい基盤を提供します。
3. Multi-3DLLMの開発
「MO3D」を利用し、部品レベルで複数物体を比較できる点群言語モデル「Multi-3DLLM」が開発されました。このモデルは、複数の物体の幾何的関係性を直接的に捉えることができ、さらにその理解を言葉で説明する能力を持っています。評価実験では、従来型の視覚言語モデルを上回る結果を示し、特に物体比較に関する課題では正答率が約1.8倍に向上しました。
4. 期待される応用分野
この新技術は、設計や製造現場の効率化に大いに貢献すると期待されています。たとえば、ロボットによる部品選別や組立支援、また3D設計ソフトを用いた形状編集など、幅広い分野での応用が見込まれます。これにより、専門家の判断を必要とする場面での判断支援や効率化を進めることが可能になるでしょう。
5. 今後の展開
今後は、さらに多様で複雑な物体関係のデータを追加し、より高度なAIモデルへの進化を目指します。特に、製造現場で実践的な応用を図るために、装置間での複雑な関係性や多段階の接合関係を理解できるデータの拡張が必要です。
6. 結論
産総研によるこの研究は、製造業界がAI技術を導入するうえでの礎となり、今後の技術進化に大きな影響を与えることが期待されています。学会発表も予定されており、研究成果のさらなる発展に目が離せません。今後の展開を注視しつつ、この新たな表現力豊かなAI技術の進化を楽しみにしていきましょう。