Google DeepMind 最新的多模态 AI 模型 Gemma 4 在 Cerebras 上发布,其推理速度比 GPU 快 10 倍。现在 AI 不仅能理解文本,还能“看”图像并实时响应。
AI 现已能“看”会“说”!Gemma 4 在 Cerebras 上超越 GPU 速度,开启实时多模态时代
想象一下。早上醒来,你给 AI 助手看一张照片,问它“这是什么花,怎么养?”AI 立即识别出照片中的花,并以文本形式给出详细信息。不再是只理解文本的 AI。现在,AI 可以“看”我们展示的图像,并对此“说话”。将这种未来变为现实的技术正是 Google DeepMind 开发的最新多模态 AI 模型(Multimodal AI Model,一种同时理解和处理多种形式信息的人工智能)Gemma 4。这款强大的 AI 模型现已通过 Cerebras Inference 发布,令人惊讶的是,它的运行速度比传统 GPU(Graphics Processing Unit,图形处理单元)快 10 倍。这是 AI 交互方式发生根本性改变的历史性时刻。来源 Gemma 4 on Cerebras—The Fastest Inference is Now Multimodal,来源 Gemma 4 on Cerebras—The Fastest Inference is Now Multimodal,来源 The fastest inference is now - Cerebras,来源 Gemma 4 on Cerebras: 1,851 TPS Multimodal Inference …,来源 Welcome Gemma 4: Frontier multimodal intelligence on device,来源 Gemma4is nowon@CerebrasInference, running up to 10xfasterthan GPUs (1,500 tokens/sec). Multimodal generations you can iterate on in real time,来源 Gemma4models are multimodal, handling text and image input and generating text output.
为什么这项技术如此重要?(Why It Matters)
为什么 Gemma 4 和 Cerebras 的结合具有如此重要的意义?核心在于 AI 能够“实时”处理复杂信息。以前的 AI 擅长理解文本,或者需要相当长的时间来分析图像。然而,这种创新组合使 AI 能够瞬间理解我们展示的图像,并同时理解文本指令并立即做出反应。
简单来说,AI 不再仅仅是处理信息,而是能够像人一样,通过眼睛看、耳朵听,完整感知周围世界并进行交流。想象一下:实时分析复杂的闭路电视视频,立即检测潜在威胁或异常情况;在手术室中,医生向 AI 展示患者的医疗图像,即时获取重要信息并用于诊断;或者工厂的机械臂能够准确识别眼前的无数零件并进行抓取。我们几乎可以想象到的所有领域,AI 的能力都将以前所未有的程度爆发式提升。这不仅意味着 AI 变得更聪明,更意味着 AI 能够“看”并“理解”我们周围的世界,并与我们进行更自然、更直观的交互。这就像从传统的黑白电话升级到高清视频通话一样,AI 交互方式本身将发生彻底改变,这是一场革命性的变革。来源 Gemma 4 on Cerebras—The Fastest Inference is Now Multimodal,来源 Gemma 4 on Cerebras—The Fastest Inference is Now Multimodal,来源 Gemma4is nowon@CerebrasInference, running up to 10xfasterthan GPUs (1,500 tokens/sec). Multimodal generations you can iterate on in real time
轻松理解:Gemma 4 和 Cerebras 的魔力 (The Explainer)
Gemma 4:跨越文本和图像的 AI “大脑”
Gemma 4 是 Google DeepMind 开发的最新 AI 模型系列,凝聚了作为人工智能研究领导者的 Google 的能力。这些模型基于与强大 Gemini 模型相同的研究和技术构建,特别是作为开放模型(Open Model,源代码公开,任何人都可以自由使用和修改的人工智能模型),旨在供众多开发者和企业自由使用。来源 Gemma 4 — Google DeepMind,来源 Gemma 4 by Google - Open AI Language Model,来源 The Gemma 4 family of multimodal models by Google DeepMind is out on Hugging Face, with support for your favorite agents, inference engines, and fine-tuning libraries.
如果说之前的 AI 主要专注于文本或图像中的一种,那么 Gemma 4 最大的特点是其多模态(Multimodal,同时理解和处理多种不同形式数据的能力)。来源 Gemma 4 is a multimodal model. 例如,想象一下你用智能手机拍一张植物照片,然后问:“这种植物叫什么名字,怎么养?”Gemma 4 能够“看”照片并识别植物,然后回答你的文本问题。这使得与 AI 的交互比只理解文本的 AI 更自然,而这是以前不可能实现的。来源 Gemma 4 models are multimodal, handling text and image input and generating text output.
Cerebras:加速 AI 的“超级引擎”
那么,为什么如此聪明的 Gemma 4 会与“Cerebras”一起受到关注呢?Cerebras Systems 是一家专门制造用于 AI 计算的硬件的公司,尤其以大幅缩短推理(Inference,AI 模型基于学习数据预测或分类新数据的过程)速度的技术而闻名。它显著缩短了 AI 接收输入信息并得出结果所需的时间。来源 The fastest inference is now - Cerebras
在 Cerebras Inference 环境中运行 Gemma 4,令人惊讶的是,它每秒可以处理超过 1,500 个令牌(Tokens,文本或图像等信息的最小处理单位)。来源 Gemma 4 on Cerebras—The Fastest Inference is Now Multimodal,来源 Gemma 4 on Cerebras: 1,851 TPS Multimodal Inference … 对于特定模型 Gemma 4 31B,它甚至能达到每秒 1,851 令牌的惊人速度。这比传统 GPU(图形处理单元)快 10 倍!来源 The fastest inference is now - Cerebras,来源 Gemma4is nowon@CerebrasInference, running up to 10xfasterthan GPUs (1,500 tokens/sec). Multimodal generations you can iterate on in real time 这种压倒性的速度对于需要即时响应实时变化情况的 AI 应用程序至关重要。打个比方,如果 Gemma 4 是处理复杂信息的“天才大脑”,那么 Cerebras 就像是帮助这个大脑瞬间反应并以惊人速度输出结果的“超高速神经网络”和“超级引擎”。
目前情况如何?(Where We Stand)
目前,Cerebras 上的 Gemma 4 处于私人预览(Private Preview,正式发布前仅向特定用户开放功能以收集反馈的阶段)阶段,仅向少数合作伙伴提供,并计划于 6 月底向公众开放。来源 Gemma 4 on Cerebras—The Fastest Inference is Now Multimodal,来源 Gemma 4 on Cerebras—The Fastest Inference is Now Multimodal,来源 Gemma 4 on Cerebras — The Fastest Inference is Now Multimodal 此次合作是 Cerebras 平台上首次运行 Gemma 4 等多模态模型,为以前在技术上不可能实现的各种 AI 应用程序开发敞开了大门。来源 Gemma4is the first multimodal model on Cerebras!
Gemma 4 模型本身已经可以在 Hugging Face 等 AI 模型共享平台上找到,并且可以与 llama.cpp、vLLM、MLX 等多种推理框架(Inference Framework,运行 AI 模型并得出结果所需的软件工具)一起使用,为开发者提供了广泛的选择。来源 The Gemma 4 family of multimodal models by Google DeepMind is out on Hugging Face, with support for your favorite agents, inference engines, and fine-tuning libraries.,来源 You can now run all GGUFs, MLX and fine-tune Gemma 4 in Unsloth Studio (see right). 此外,这些模型遵循 Apache 2.0 许可证的开放特性,并具备企业级的强大安全协议和可靠性,可以放心使用。来源 Safety Gemma 4 models undergo the same rigorous infrastructure security protocols as our proprietary models.
特别是 Gemma 4 26B A4B 模型拥有 262,144 个海量令牌的上下文窗口(Context Window,AI 模型一次性理解和处理的信息量),并且最多可以输出 32,768 个令牌。这意味着 AI 可以完美理解和记忆非常长的文档或复杂对话的上下文。此外,QAT (Quantization-Aware Training) 变体模型(Variant Model,在保持原始模型性能的同时,改进其大小或效率的模型)可以将模型质量保持不变,同时将内存需求减少约 3 倍,从而允许以更少的资源运行强大的 AI。来源 Gemma 4 26B A4B is an instruction-tuned Mixture-of-Experts (MoE) model.,来源 QAT variants of Gemma 4 reduce memory requirements around 3x while preserving model quality.
为庆祝这项创新技术的出现,Cerebras 和 Google DeepMind 还举办了一场 24 小时虚拟黑客马拉松,探索如何利用 Cerebras 上以 1500 令牌/秒的速度运行的 Gemma 4 31B 模型来创造什么。这让人们期待开发者们将如何利用这款强大的 AI 将奇思妙想变为现实。来源 Gemma4is the first multimodal model on Cerebras! What can you build with Gemma 4 31B running at 1500 tokens per second? Join the Cerebras x Gemma 4 24-hour virtual hackathon this Sunday to compete for $5,000 in prizes.,来源 Cerebras and Google DeepMind Gemma 4 24-Hour Hackathon!
未来展望如何?(What’s Next)
Gemma 4 和 Cerebras 的结合让我们对 AI 技术的未来充满期待。未来,我们将更频繁地看到能够进行实时图像分析的 AI 应用程序。例如,智能手机摄像头对准特定路标即可立即翻译成所需语言,或者为视障人士提供辅助技术,更丰富地描述周围环境以引导道路或警告危险,再或者 AI 代理能够视觉理解复杂的数据仪表板并立即采取行动等,超越我们想象的各种可能性将得以实现。
随着多模态理解能力和超高速推理速度的结合,人类与 AI 将能够进行更自然、更流畅的协作。AI 能够“看”并“理解”我们世界的能力,已不再是遥远的未来,而是正在深入我们日常生活的现实。我们可以期待 AI 带来的惊人变化。
AI 的思考 (AI’s Take)
Gemma 4 与 Cerebras 的结合是 AI 实时多模态处理能力向前迈进的里程碑式事件。这意味着 AI 不仅能处理文本,还能更快、更准确地感知和响应图像等视觉信息。这种进步将在医疗诊断、安全监控、机器人技术、用户界面等广泛领域引发革命性变革。特别是“实时”这一特性,预计将增强 AI 更主动地与我们的生活互动、预测和控制的能力。预示着 AI 将更深入地融入我们的日常生活,成为我们智能化的伴侣。
参考资料
- Gemma 4 on Cerebras—The Fastest Inference is Now Multimodal - https://www.cerebras.ai/blog/gemma-4-on-cerebras-the-fastest-inference-is-now-multimodal
- Gemma 4 on Cerebras—The Fastest Inference is Now Multimodal - https://www.linkedin.com/pulse/gemma-4-cerebrasthe-fastest-inference-now-multimodal-n8jve
- The fastest inference is now - Cerebras - https://www.cerebras.ai/?via=aitoolhunt&ref=aitoolhunt&fpr=aitoolhunt
- Gemma 4 on Cerebras: 1,851 TPS Multimodal Inference … - https://explainx.ai/blog/gemma-4-31b-cerebras-fastest-multimodal-inference-2026
- Gemma 4 — Google DeepMind - https://gemma4.com/
- Welcome Gemma 4: Frontier multimodal intelligence on device - https://huggingface.co/blog/gemma4
- Gemma 4 on Cerebras — The Fastest Inference is Now Multimodal - https://x.com/cerebras
- Gemma 4 models are multimodal, handling text and image input and generating text output. - https://ollama.com/library/gemma4
- Gemma 4 is the first multimodal model on Cerebras! What can you build with Gemma 4 31B running at 1500 tokens per second? Join the Cerebras x Gemma 4 24-hour virtual hackathon this Sunday to compete for $5,000 in prizes. - https://digg.com/tech/fdounimc
- Gemma 4 — Google DeepMind - https://deepmind.google/models/gemma/gemma-4/
- Gemma 4 by Google - Open AI Language Model - https://gemmai4.com/
- You can now run all GGUFs, MLX and fine-tune Gemma 4 in Unsloth Studio (see right). - https://unsloth.ai/docs/models/gemma-4
- Cerebras and Google DeepMind Gemma 4 24-Hour Hackathon! - https://luma.com/cerebras-piwl
- Safety Gemma 4 models undergo the same rigorous infrastructure security protocols as our proprietary models. - https://deepmind.google/models/gemma/gemma-4/
- Gemma 4 26B A4B IT is an instruction-tuned Mixture-of-Experts (MoE) model. $0 per million input tokens, $0 per million output tokens. 262,144 token context window, maximum output of 32,768 tokens. Higher uptime with 11 providers. - https://openrouter.ai/google/gemma-4-26b-a4b-it:free
-
QAT variants of Gemma 4 reduce memory requirements around 3x while preserving model quality. - https://unsloth.ai/docs/models/gemma-4
- 比 GPU 快 10 倍的推理速度
- 仅理解文本的能力
- 缺乏开源许可证
- 仅文本
- 图像文件格式
- 文本和图像
- Cerebras
- Hugging Face
- Google DeepMind