AppleのAIモデル『SHARP』がウェブブラウザ上で直接実行可能になったことで、写真1枚から誰でも簡単に自分だけの3D空間を作成し、所有できる時代が到来しました。
想像してみてください。昨日カフェで撮った可愛いケーキの写真をウェブサイトにアップロードしたところ、突然ケーキが画面から飛び出してきそうなほど立体的に変わります。皆さんはマウスや指でそのケーキの横顔、後ろ姿、さらには真上まで自由に回転させながら眺めることができます。まるでそのカフェに再び戻ったかのように。
| これはもはや遠い未来のファンタジー映画の話ではありません。最近Appleが公開した研究用AIモデル「SHARP」が、皆さんが毎日使うウェブブラウザで直接動作し始めたことで可能になった現実です。[Show HN: ONNX Runtime Webを介してブラウザで動作するAppleのSharp | Hacker News](https://news.ycombinator.com/item?id=47995037) によれば、複雑なプログラムをコンピュータにインストールする手間なく、ウェブサイトにアクセスするだけで平面写真を鮮やかな3D空間に変えられるようになりました。 |
本日の MindTickleBytes では、この魔法のような技術の正体は何なのか、そしてなぜこのニュースが世界中の開発者やAI愛好家たちを熱狂させているのか、わかりやすく丁寧に紐解いていきます。
なぜこれが重要なのでしょうか?あなたのコンピュータが「AI工場」になるということ
これまで私たちがChatGPTのような賢いAIを快適に使えたのは、私たちが質問を投げると、遥か遠くにある巨大なスーパーコンピュータ(サーバー)が代わりに計算して答えを送ってくれていたからです。しかし、写真を3Dに変換するプロセスは膨大な計算量を必要とするため、サーバーの運用コストが非常に高いだけでなく、大切なプライベート写真を他社のサーバーに送信しなければならないという懸念もありました。
しかし、今回公開された技術はアプローチからして異なります。AIモデルを、皆さんのChromeやSafariのようなウェブブラウザの中に丸ごと持ち込みました。このような「ブラウザベースのAI推論(In-browser inference)」を行うことで、私たちには3つの大きなメリットがもたらされます。AIエージェントのためのWebAssembly:ブラウザでモデルを実行する
- 徹底したプライバシー保護: アップロードした写真は、インターネットを越えて外部サーバーへ一歩も出ることがありません。すべての3D変換作業が、あなたのスマートフォンやノートPCの中だけで密やかに行われるからです。ONNXを使ってブラウザでYOLOモデルを実行する… - PyImageSearch
- サーバーコスト・ゼロ: サービスを運営する会社側は高価なスーパーコンピュータを借りる必要がなくなり、革新的な無料サービスが増える可能性があります。ユーザー側は、サーバーが混雑して「読み込み中」の画面を眺めながら待つ必要がありません。
- 遅延のない即座の反応: インターネット接続速度が少し遅くても関係ありません。お使いのデバイスが持つ本来の性能を100%活用し、リアルタイムで結果を確認できます。
わかりやすく解説:「SHARP」と「ガウシアンスプラッティング」とは?
まず、聞き馴染みのないAppleの SHARP とは何でしょうか。SHARPは、たった1枚の写真を見るだけで、その物体や場所の隠された立体的な構造をスラスラと推測してしまう、非常に賢いAIの設計図です。GitHub - bring-shrubbery/ml-sharp-web
このモデルが使用する核となる技術は、専門用語で ガウシアンスプラッティング(Gaussian Splatting) と呼ばれます。用語は難しいですが、その原理は私たちのよく知るものに例えると非常に簡単です。
例えるならこうです! 従来の3D技術が、硬いレゴブロックや三角形のピースを精巧につなぎ合わせて模型を作るものだったとすれば、ガウシアンスプラッティングは、無数の半透明な「綿菓子の塊」を空中に撒いて立体的な形を作るようなものです。
| 数百万個の非常に小さな楕円体(綿菓子の塊)が、それぞれ固有の色と透明度を持って定位置にふわふわと配置されると、私たちの目には境界線が硬くなく、非常に滑らかで実在感のある3D空間が完成するのです。GitHub - bring-shrubbery/ml-sharp-web:Appleのml-sharpモデルを使用してガウシアンスプラットを作成するウェブプレイグラウンド SHARPは、まさにこの膨大な綿菓子の塊をどの位置に、どのサイズで撒くべきかを指示する指揮者の役割を果たします。[デバイス向けにAppleのSharp MLを変換する | Raleigh](https://sf.aitinkerers.org/talks/rsvp_kERNVs9PVNw) |
どうやってブラウザで重いAIを動かせるのですか?
本来、この技術は高性能なグラフィックカードを搭載した数百万円クラスの専門研究用コンピュータでしか、かろうじて動作しないように設計されていました。では、なぜ私たちが使う一般的なウェブブラウザで実行できるようになったのでしょうか?そこには、2つの「秘密のツール」が隠されています。
| 1つ目は、ONNX Runtime Web です。[ONNX Runtime Web — ブラウザで機械学習モデルを実行する | Microsoft Open Source Blog](https://opensource.microsoft.com/blog/2021/09/02/onnx-runtime-web-running-your-machine-learning-model-in-browser/) AIモデルは開発された環境によって使われる言語が異なりますが、ONNX(オープン・ニューラル・ネットワーク・エクスチェンジ) は、それらをひとまとめにして、どのような環境でも疎通できるようにする「万能翻訳機」のようなツールです。[ONNX Runtime | ホーム](https://onnxruntime.ai/) 開発者たちは、Appleの元のモデル言語(PyTorch形式)をこの万能翻訳機用の言語に再構成して、ブラウザに渡すことに成功しました。[デバイス向けにAppleのSharp MLを変換する | Raleigh](https://sf.aitinkerers.org/talks/rsvp_kERNVs9PVNw) GitHub - miketahani/ml-sharp-browser |
2つ目は、WebAssembly(ウェブアセンブリ) と WebGPU 技術です。これらはブラウザが普段のように文字や画像を表示するレベルを超えて、コンピュータの心臓であるCPUや頭脳であるGPUの強力な計算能力を直接借りることができる「専用の高速道路」です。おかげで2.4 GBにも達する巨大なAIモデルも、ブラウザという狭い通路の中でスイスイと走り抜けることができるようになったのです。GitHub - bring-shrubbery/ml-sharp-web
現状:私たちは直接試すことができますか?
すでに感度の高い開発者たちは、この技術を誰でも体験できるオンラインの「AIプレイグラウンド」を公開しています。GitHub - bring-shrubbery/ml-sharp-web ここでは、写真1枚をアップロードするとAIが即座に立体形状を形作り、それを自分のコンピュータに保存(.plyファイル形式)することも可能です。GitHub - bring-shrubbery/ml-sharp-web
ただし、実際に体験する前にいくつか「チェックポイント」があります。
- データ容量に注意: AIモデルのサイズが約2.4 GBとかなり大きいです。GitHub - bring-shrubbery/ml-sharp-web 1回の実行で高画質映画1本分のデータをダウンロードするため、データ無制限プランでない場合は、必ずWi-Fi環境でアクセスしてください。
- 研究用ライセンス: 現在Appleが公開しているSHARPの核となる重み(モデルの知能)は、商用目的で利益を得るために使うことはできず、あくまで個人的な研究や学習用としてのみ使用すべきだというルールがあります。Show HN: ONNX Runtime Webを介してブラウザで動作するAppleのSharp…
- デバイスの仕様: すべてのデバイスで完璧に動作するわけではありません。特にiPhoneやiPadなどのiOSデバイスでは、まだブラウザ自体の技術的サポート(WebGPU未対応など)が不足しており、実行がスムーズにいかない場合がある点にご留意ください。[Web] iOSデバイスのサポート · Issue #22776 · microsoft/onnxruntime
これからどうなる?私たちの生活の変化
| AppleのSHARP技術がブラウザという翼を得たことは、巨大な変化の始まりに過ぎません。すでにこの技術をAppleの最先端空間コンピュータである Vision Pro で駆動させるデモンストレーション事例も登場しています。[デバイス向けにAppleのSharp MLを変換する | Raleigh](https://sf.aitinkerers.org/talks/rsvp_kERNVs9PVNw) |
近い将来には、オンラインショップで服を選ぶ際に写真1枚で自分の体と同じ3Dアバターを作り「バーチャルフィッティング」を試したり、旅行先で撮った思い出の写真1枚からその日の空間感を3Dで再び歩き回ったりすることが日常になるでしょう。何より、このすべての魔法のようなプロセスが、大切な個人情報を安全に守りながら、別途アプリをインストールすることなくウェブサーフィンをするように手軽に行われるという点が、最も期待される部分です。
MindTickleBytesのAI記者の視点: 「平面という限界に閉じ込められていたデジタル画像が、ブラウザを通じて立体という生命力を得ました。今後モデルの容量がさらに削減され、モバイルデバイスへの対応が拡大すれば、私たちが撮る写真の意味は単なる『記憶の記録』を超え、鮮やかな『空間の再現』へと進化することになるでしょう。」
参考資料
-
[Show HN: Apple’s Sharp Running in the Browser via ONNX Runtime Web Hacker News](https://news.ycombinator.com/item?id=47995037) - GitHub - bring-shrubbery/ml-sharp-web: Appleのml-sharpモデルを使用してガウシアンスプラットを作成するウェブプレイグラウンド · GitHub
-
[Apple - CoreML onnxruntime](https://onnxruntime.ai/docs/execution-providers/CoreML-ExecutionProvider.html) -
[デバイス向けにAppleのSharp MLを変換する Raleigh](https://sf.aitinkerers.org/talks/rsvp_kERNVs9PVNw) -
[ONNX Runtime Web — ブラウザで機械学習モデルを実行する Microsoft Open Source Blog](https://opensource.microsoft.com/blog/2021/09/02/onnx-runtime-web-running-your-machine-learning-model-in-browser/) - [Web] iOSデバイスのサポート · Issue #22776 · microsoft/onnxruntime
- Show HN: Apple’s Sharp Running in the Browser via ONNX…
-
[ONNX Runtime ホーム](https://onnxruntime.ai/) - AIエージェントのためのWebAssembly:ブラウザでモデルを実行する
- ONNX、WebAssembly、Next.jsを使ってブラウザでYOLOモデルを実行する - PyImageSearch
- GitHub - bring-shrubbery/ml-sharp-web: ウェブプレイグラウンド… (Daily.dev)
- GitHub - miketahani/ml-sharp-browser: ブラウザで実行されるAppleのSHARPモデル…
-
[Web onnxruntime チュートリアル](https://onnxruntime.ai/docs/tutorials/web/)
ファクトチェック概要
- 確認済み項目: 21
- 検証済み項目: 21
- 判定: 合格
- ポリゴンレンダリング
- ガウシアンスプラッティング
- レイトレーシング
- ONNX Runtime Web
- フォトショップ
- YouTube
- 2.4 MB
- 2.4 GB
- 24 GB