Google DeepMindの「Genie 2」は、たった一枚の画像からユーザーが直接探索し、相互作用できる3D仮想世界を生成する画期的なAIモデルです。
写真一枚が生きたゲームの世界に?Googleの新しいAI「Genie 2」の物語
想像してみてください。子供の頃に描いた一枚の絵や、旅行先で撮った何気ない写真が、突然動き出す3Dゲームの世界になったらどうでしょうか?皆さんがその写真の中に入り込み、木に触れ、小川で泳ぎ、丘の上へとジャンプして登ることができるとしたら。まるで映画『ジュマンジ』のように、現実の画像が立体的な冒険の空間へと変わる魔法のような出来事が、すぐ目の前まで来ています。
童話のような話に聞こえるかもしれませんが、Google DeepMindが最近公開した新しいAIモデル「Genie 2(ジニ 2)」のおかげで、この想像は現実に一歩近づきました。Genie 2: A large-scale foundation world model — Google DeepMind 果たして、この「知能を持つランプの精」は、私たちにどのような世界を見せてくれるのでしょうか。
なぜこれが重要なのでしょうか?
これまでのAIは、主に文章を書いたり(ChatGPT)、素晴らしい絵を描いたり(Midjourney)することに特化していました。しかし、Genie 2は次元が違います。このAIは「ワールドモデル(World Model)」と呼ばれる存在です。簡単に言えば、周囲の環境の物理法則や相互作用を自ら理解し、シミュレーション(仮想実験)する能力を備えたAIモデルです。Genie 2: A large-scale foundation world model — Google DeepMind
これがなぜ重要なのでしょうか?単に綺麗な映像を見せるだけでなく、私たちがその中で何かアクションを起こしたとき、どのような結果が起きるかをAIがあらかじめ「予測」し、リアルタイムで「反応」できることを意味するからです。
比喩で例えるなら、従来のAIが完成した映画を上映する映写機だったとするなら、Genie 2は観客が自由にシナリオを変えながら飛び回れる巨大な演劇の舞台のようなものです。キャラクターが水の中に飛び込めば水しぶきが上がり、重力によって沈んでいく物理的な反応を、AIがリアルタイムで計算して描き出します。このような技術は、単にゲームを作る楽しさを超え、現実世界のロボットが危険な事故を経験することなく、安全な仮想世界で高度な訓練を積むことを助けるなど、産業全般に多大な変化をもたらす可能性を秘めています。Google DeepMind CEO demonstrates Genie 2, world … - CBS News
わかりやすく解説:Genie 2はどうやって動くの?
Genie 2を一言で定義するなら、「想像力豊かな天才ゲームクリエイター」と言えるでしょう。Genie 2: A large-scale foundation world model - simonwillison.net
通常、ゲームを作るには多くのプログラマーが複雑なコードを書き、デザイナーが何日も徹夜して立体モデルを描く必要があります。しかし、Genie 2はたった一枚の写真が与えられれば、その中の平面的な空間を立体的な3Dへと瞬時に再構成してしまいます。Genie 2: The Next-Generation Foundation Model for 3D Worlds
1. 行動の結果を予測する知能
Genie 2は、ユーザーの入力(ジャンプ、水泳、歩行など)に応じて、仮想世界がどのように変化すべきかを自ら判断します。Genie 2: A large-scale foundation world model — Google DeepMind これは、私たちが目を閉じて「ここで石を投げれば、あの窓ガラスが割れるだろうな」と想像するのと似ています。AIが物理法則(Physics)を教科書で学んだのではなく、数多くの経験を通じて自ら体得しているわけです。Genie 2: A large-scale foundation world model - deepmind.google
2. 動画で世界を独学しました
この賢いAIは、どのようにしてこのような能力を身につけたのでしょうか?それは、膨大な量の動画データを学習したからです。Genie 2: A large-scale foundation world model — Google DeepMind 赤ん坊が世界を観察して学ぶように、Genie 2は数多くの映像を見ながら「人がこのように動けば背景はこのように変わるのだな」「物体同士がぶつかれば弾け飛ぶのだな」という因果関係を自ら悟りました。このプロセスを通じて、Genie 2は複雑なキャラクターの関節の動きや自然な相互作用を、驚くほど生き生きと描写できるようになりました。Genie 2: A large-scale foundation world model - deepmind.google
3. 他のキャラクターの心まで読む?
さらに驚くべき点は、Genie 2がその仮想世界の中にいる他の存在(エージェント)たちの行動まで予測できるということです。Genie 2: A large-scale foundation world model - deepmind.google 単に背景が変わるだけでなく、仮想世界の中の他の人物が自分の動きにどう反応するかまでAIが計算して見せてくれます。まるで生きた生態系を丸ごとシミュレーションしているかのようです。
現状:2Dから3Dへの巨大な跳躍
実は、Genie 2には頼もしい兄がいます。それは2024年初頭に公開された「Genie 1(Genie)」です。Genie 1は約110億個のパラメータ(AIの脳細胞の役割を果たす重み情報)を持つモデルで、主に平面的な2Dゲーム環境を作ることに成功しました。[2402.15391] Genie: Generative Interactive Environments
しかし、今回登場したGenie 2はこれを遥かに凌駕し、より深みがあり没入感あふれる3D仮想世界を創造します。Genie 2: The Next-Generation Foundation Model for 3D Worlds Google DeepMind側はこれについて、AI技術の「汎用性の面における重大な飛躍」であると自信を持って評価しています。Google announces Genie 2: A large-scale foundation world model
この野心的なプロジェクトは、ジャック・パーカー=ホルダー(Jack Parker-Holder)の指揮の下、スティーブン・スペンサー(Stephen Spencer)が技術的基礎を築き、数十名の天才研究者が知恵を絞った結果です。Genie 2: A Large-scale Foundation World Model
今後はどうなるのか?
Google DeepMindのCEOデミス・ハサビス(Demis Hassabis)は、米国の有名な時事番組『60 Minutes』に出演し、Genie 2を自ら実演して世界中の注目を集めました。Google DeepMind CEO demonstrates Genie 2, world … - CBS News
ハサビスCEOは、この技術が単なるエンターテインメントツールに留まらないことを明確にしました。最も注目されている分野は、まさに「ロボットの早期教育」です。Google DeepMind CEO Reveals Genie 2: AI-Powered World …
実際のロボットを現実世界で訓練するには、高価な機器が壊れるリスクも大きく、事故の危険も常に付きまといます。しかし、Genie 2が生成した「現実よりも現実らしい仮想世界」でロボットを数万回訓練させたらどうでしょうか?ロボットは試行錯誤を安全に経験しながら、より精巧かつ迅速に仕事を学ぶことになるでしょう。さらに、教育現場や芸術創作の分野でも、私たちが夢見た世界を即座に具現化して直接探索する時代がまもなく到来するものと思われます。Google DeepMind CEO Reveals Genie 2: AI-Powered World …
AIの視点(MindTickleBytes AI記者のひとこと)
Genie 2の登場は、AIが単に「文章を読み、絵を描く秘書」を超え、私たちが足を踏み入れている「世界の作動原理」を本格的に理解し始めたことを示唆しています。物理法則が息づく仮想空間を思いのままに作り出すこの技術は、遠くないうちに現実と仮想の壁を壊し、賢いロボットたちが私たちの日常の中に自然に溶け込む「エージェンティック時代」をさらに早めるでしょう。写真一枚から始まった冒険が、私たちの生活をどのように変えていくのか、本当に楽しみです。
参考資料
- Genie 2: A large-scale foundation world model — Google DeepMind
- [2402.15391] Genie: Generative Interactive Environments
- Genie 2: The Next-Generation Foundation Model for 3D Worlds
- Genie 2: A large-scale foundation world model - simonwillison.net
- Genie 2: A Large-scale Foundation World Model
- Google announces Genie 2: A large-scale foundation world model
- Google DeepMind CEO demonstrates Genie 2, world … - CBS News
- Google DeepMind CEO Reveals Genie 2: AI-Powered World …
- Genie 2: A large-scale foundation world model - deepmind.google
- 複雑なプログラミングコード
- たった一枚の画像
- 専門的な3D図面
- 1D(線)
- 2D(平面)
- 3D(空間)
- 株式市場の予測
- 料理レシピの開発
- ロボットの学習および訓練