NVIDIAがAIモデル群「Cosmos 3」を公開

*上画像は当サイトにてAIで作成。

NVIDIAが高性能画像生成モデル＆動画生成モデルを含むフィジカルAI基盤モデル群「Cosmos 3」を公開

NVIDIAが日本時間の2026年6月1日にフィジカルAIの基盤モデル群「Cosmos 3」を発表しました。Cosmos 3はロボットや自動運転での活用を目的としたモデル群で、画像生成モデル「Cosmos3-Super-Text2Image...

nvidia/Cosmos3-Nano · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

ざっくり説明

NVIDIAがAIモデル群「Cosmos 3」を公開。Cosmos3-Nano: 16B（テキスト、画像、動画、音声、動作を入力にする汎用ＡＩ、高速版）、Cosmos3-Super: 64B（テキスト、画像、動画、音声、動作を入力にする汎用ＡＩ）、Cosmos3-Nano-Policy-DROID: 16B（ロボット制御向けＡＩ）、Cosmos3-Super-Image2Video: 64B（画像から動画生成ＡＩ）、Cosmos3-Super-Text2Image: 64B（テキストから動画生成ＡＩ）の5つのＡＩを含む。

NVIDIAってGPUのイメージでAIそのものを作っているイメージなかったけどAIも作っているのね。

AIっていろんな会社が作っているけど、このニュースはNVIDIAがすごいいい感じの動画、画像を作るAI作ったぞって理解でいいの？

NVIDIAは前からAIのモデルも作っている。にゃあ。

評価が高い画像生成、動画生成のAIしかもローカルで実行できるモデルをリリースしたというはニュース。にゃあ。

でももう一つ、注目したいところがある。にゃあ。

それは入出力の多さ。にゃあ。

？？？

チャットGPTにしろ、Geminiしろ、おしゃべりもできるし画像生成もできるわよ？

基本的にそれらのモデルはおしゃべりと画像生成は別のモデルでやっている。にゃあ。おしゃべりモデルが画像生成モデルを読んでいると思ってもらっていい。にゃあ。

一つのモデルで入力、出力できるデータは見た目より少ないってこと。にゃあ。

まあGeminiとか一つのモデルで画像生成とおしゃべりできるモデルもあるんだけど、通常そうしないことがほとんど。にゃあ。

AIモデルっていうのは一つのことをやるのが基本なのね。

それに対してCosmos3-NanoとCosmos3-Superはテキスト、画像、動画、音声、動作を入力、出力ともに使えると言っている。にゃあ。この入出力の仕様は、知る限り最も汎用AIであるAGIに迫っていると言っていいと思う。にゃあ。

さらにしれっと書いてある動作の仕様は以下のように書かれている。にゃあ。

The generated action is only supported for compatible embodiments, including general camera motion (9D), autonomous vehicle (9D), egocentric motion (57D), single Franka Panda arm with RobotiQ gripper (10D), dual Franka Panda arm with RobotiQ gripper (20D), Agibot (29D), UR (10D), Google robot (10D), WidowX 250 (10D), UMI (9D).

この仕様って人型やArmの制御ができる仕様。にゃあ。

先日公開されたNVIDIAのロボットのリファレンスに組み込めば、歩いてしゃべるかも、って言っている。にゃあ。