Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了

作者:机器之心日期:2025/11/19

Gemini 3 还没现身,推特先崩为敬。

没有哪家模型的发布比 Gemini 3 更万众瞩目,根据 Gemini 之前 3 个月更新一次的频率,AI 社区自 9 月起便对 Gemini 3 翘首以盼。

今天,谷歌开发者关系负责人、Google AI Studio 负责人一条仅含「Gemini」一词的推文,积蓄了数月的期待终于迎来了爆发点,推特相关话题瞬间沸腾。

图片

有趣的是,临近发布节点,推特竟「应景」地崩了几次。尽管「幕后黑手」是 Cloudflare,但这崩溃的时机简直精准得让人怀疑有人背后搞鬼(小声蛐蛐:毕竟推特是各家模型的宣传主阵地)。

不知道今早刚发了 Grok 4.1 的马斯克此时作何感想,反正网友的梗图已经铺天盖地了。

图片

就在刚刚,Gemini 3 终于正式登场,让我们看看在万众瞩目下登场的它到底有多强。

最智能模型

事实证明,Google 没有让等待的人失望,Gemini 3 正式发布,再一次定义了 SOTA,奥特曼和马斯克也发来贺电。

图片

图片

Google 将其定义为「通往 AGI 的重要一步」,并强调这是目前世界上多模态理解能力最强、交互最深度的智能体。

Gemini 3 不仅在基础推理能力上刷新了 SOTA 标准,更通过推出全新的 Google Antigravity 平台和 Deep Think 模式,试图重塑开发者生态与 AI 辅助体验。

全面霸榜的推理怪兽

Gemini 3 Pro 被官方称为「最先进的推理模型」,在几乎所有主流 AI 基准测试中均显著超越了前代 Gemini 2.5 Pro,并且全面压制了 Claude Sonnet 4.5 和 GPT-5.1 等主要竞品。

Gemini 3 Pro 以 1501 Elo 的突破性高分登顶 LMArena Leaderboard,在 Humanity’s Last Exam(在不使用任何工具的情况下达到 37.5%)和 GPQA Diamond(91.9%)上获得最高分,展示了博士级的推理能力。它还在数学方面为前沿模型树立了新标准,在 MathArena Apex 上达到了 23.4% 的最新 SOTA 水平。

除了文本与逻辑,Gemini 3 Pro 还重新定义了多模态推理的上限。它在 MMMU-Pro 和 Video-MMMU 上分别斩获了 81% 和 87.6% 的高分,这意味着无论是解析复杂的科学图表还是理解动态视频流,它都游刃有余。

更值得一提的是,它在 SimpleQA Verified 上取得了 72.1% 的成绩,显示出在事实准确性上的巨大进步 —— 它不仅强,而且可靠。

图片

拒绝奉承的思维伙伴

Gemini 3 Pro 的进化不仅在于跑分,更在于交互的质感。它摒弃了以往 AI 常见的陈词滥调和过度奉承,变得聪明、简洁且直接:告诉你需要听到的,而不仅仅是你爱听的。

它充当真正的思维伙伴,为你提供理解信息和表达自我的新方式,从通过生成高保真可视化的代码来翻译晦涩的科学概念,到创造性的头脑风暴。

Gemini 3 编写代码可视化托卡马克装置中的等离子体流,并创作了一首捕捉聚变物理学原理的诗。

Gemini 3 Deep Think

Gemini 3 Deep Think 模式进一步拓展了智能的边界,带来了 Gemini 3 在推理和多模态理解能力上的重大进步,帮助你解决更复杂的问题。

在测试中,Gemini 3 Deep Think 在 Humanity's Last Exam(不使用工具的情况下得分 41.0%)和 GPQA Diamond(得分 93.8%)上的表现均优于 Gemini 3 Pro 已相当出色的成绩。此外,它在 ARC-AGI-2(代码执行,已通过 ARC Prize 验证)上也取得了前所未有的 45.1% 的得分,展现了其解决全新挑战的能力。

图片

Gemini 3 Deep Think 模式在一些最具挑战性的 AI 基准测试中表现出色。

学习、构建与规划

学习任何事情

Gemini 从一开始就旨在无缝整合任何主题的多种模态信息,包括文本、图像、视频、音频和代码。Gemini 3 结合了其先进的推理、视觉和空间理解能力、领先的多语言性能以及百万级 token 上下文窗口,进一步拓展了多模态推理的边界,帮助你以最适合自己的方式学习。

例如,如果你想学习如何烹饪家族传统菜肴,Gemini 3 可以解读并翻译不同语言的手写食谱,生成可与家人分享的食谱。

图片

或者,如果你想学习某个新主题,就可以提供学术论文、长篇视频讲座或教程,它可以生成交互式记忆卡片、可视化或其他格式的代码,帮助你掌握相关知识。

它甚至可以分析你的匹克球比赛视频,找出可以改进的地方,并制定训练计划,帮助你全面提升球技。

为了帮助你更好地理解网络上的信息,搜索中的 AI 模式现在使用 Gemini 3 来实现新的生成式 UI 体验,例如沉浸式视觉布局、交互式工具和模拟,所有这些都是根据你的查询即时生成的。

学习像 RNA 聚合酶如何在 AI 模式下的生成式 UI 中工作这样的复杂主题 。

开发任何东西

在 2.5 Pro 成功的基础上,Gemini 3 兑现了将开发者的任何想法变为现实的承诺。它在零样本生成方面表现出色,能够处理复杂的提示和指令,从而渲染出更丰富、更具交互性的 Web 用户界面。

Gemini 3 是谷歌迄今为止构建的最佳 Vibe 编码和 Agent 编码模型,它使谷歌的产品更加自主,并显著提升了开发者的效率。它在 WebDev Arena 排行榜上名列榜首,获得了令人瞩目的 1487 Elo 分数。此外,它在 Terminal-Bench 2.0 测试中也取得了 54.2% 的成绩,该测试旨在评估模型通过终端操作计算机的工具使用能力。同时,它在 SWE-bench Verified 测试中也大幅超越了 2.5 Pro 版本(得分为 76.2%),该测试用于衡量编码代理的性能。

现在,用户可以使用 Google AI Studio、Vertex AI、Gemini CLI 以及谷歌全新的智能体开发平台 Google Antigravity 中的 Gemini 3 进行构建 。它也适用于 Cursor、GitHub、JetBrains、Manus、Replit 等第三方平台。

比如编写一款具有更丰富的视觉效果和更强交互性的复古 3D 太空飞船游戏。

图片

再比如编写更丰富、更具交互性的 Web UI 和应用程序:

图片

规划任何事

自 Gemini 2 智能体之后,Gemini 显著提升了长周期任务中的规划能力。

Gemini 3 的规划能力在 Vending-Bench 2 测试中进一步得到印证:Gemini 3 在模拟售货机经营测试中登顶该排行榜,全程通过长周期规划管理虚拟商业运营。

在完整模拟年度的运营中,Gemini 3 Pro 始终保持稳定的工具调用与决策连贯性,在持续专注任务目标的同时实现了更高投资回报。

图片

Gemini 3 Pro 展现出更卓越的长周期规划能力,与其他前沿模型相比,能创造更高的回报。

Gemini Agent 还可以帮助整理 Gmail 收件箱。

Gemini 3 现已全面开放。即日起,普通用户和订阅用户分别可通过 Gemini App 及搜索 AI 模式使用新模型;开发者与企业客户也能通过 AI Studio、Vertex AI 等渠道接入。至于备受期待的「深度思考模式」,预计将在未来几周内面向 Google AI Ultra 订阅用户独家上线。

另外,根据此前泄露的模型卡,还有许多值得关注的关键信息:Google 使用 TPU 从头开始训练这个模型,作为一个 MoE,具有 1M 输入和 64k token 输出,MoE 意味着他们可以负担得起使其变得便宜。

图片

定价方面,Gemini 3.0 Pro 引入了基于上下文长度的分级定价机制:200k tokens 以下的任务,输入 / 输出价格为 2.00/2.00/2.00/12.00(每百万 token);超过 200k tokens 则分别为 4.00和4.00 和 4.00和18.00。

图片

全新的「智能体优先」开发体验

Google Antigravity 是 Google 全新的智能体开发平台,使开发者能够在更高、以任务为导向的层面上进行操作。利用 Gemini 3 先进的推理、工具使用和智能体编程能力,Google Antigravity 将 AI 辅助从开发者工具箱中的一个工具转变为积极的合作伙伴。

虽然 Google Antigravity 的核心是熟悉的 AI IDE(集成开发环境)体验,但其智能体已被提升到一个专用界面,并被赋予直接访问编辑器、终端和浏览器的权限。现在,智能体可以代表你自主规划并同时执行复杂的端到端软件任务,同时验证它们自己的代码。

除了 Gemini 3 Pro,Google Antigravity 还紧密结合了 Google 最新的用于浏览器控制的 Gemini 2.5 Computer Use 模型,以及其顶级的图像编辑模型 Nano Banana (Gemini 2.5 Image)。

一手体验

既然 Gemini 3 Pro 预览版上线了 AI Studio 平台,我们也来上手体验了一把。

Prompt : SVG of NEW YORK SKYLINE Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block.

图片

Prompt: Create a visually stunning Space Invaders game.

图片

鹈鹕骑自行车曾难倒一众大模型,这次我们也让 Gemini 3 试了下。Prompt:An animated SVG of a pelican riding a bicycle.

图片

相比之前版本,Gemini 3 已有较大进步,不过仍有 bug,比如自行车的脚蹬在天上空转。

我们又换了一个更为清晰的提示词:Create a single, complete, self-contained animated SVG code (no external files or images) of a cute pelican riding a bicycle from a side view. 这次 Gemini 3 生成的自行车似乎没有脚蹬。

图片

写在最后

在 X 博主 Chubby 发起的「到 2026 年底,哪家公司拥有最好的 LLM?」投票中,Google Gemini 遥遥领先。

图片

这种市场信心的回升也体现在了数据上,Alphabet CEO Sundar Pichai 在官方博客中回顾了 Gemini 过去两年的进展:AI Overviews 月活跃用户已达 20 亿,Gemini 应用月活突破 6.5 亿,此外更有超过 70% 的云客户以及 1300 万开发者正在使用其生成式模型。

回望过去两年,从 Bard(Gemini 前身)发布时的仓促应战与股价暴跌,到痛定思痛合并 Google DeepMind、召回创始人、斩获诺贝尔奖,Google 完成了一场教科书般的「大象转身」。

图片

那个曾经定义了 Transformer、如今「All in Gemini」的巨人,已经做好了全面反击的准备。

至于它到底能不能终结「最好的 LLM」之争?别急,让子弹(和服务器)再飞一会儿。

参考链接:

blog.google/products/ge…


Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了》 是转载文章,点击查看原文


相关推荐


AI 为啥能回答你的问题?大模型 5 步工作流程,看完秒懂!
印刻君2025/11/18

如今,大语言模型(LLM)已成为我们学习和工作中的常用工具。当你在对话框输入问题时,或许会好奇,这些模型为何能精准、迅速地生成回答?本文将用通俗易懂的语言,为你拆解背后的核心工作流程。 简单来说,大模型处理问题主要包含五个关键环节,分别是: 分词(Tokenization) 词嵌入(Word Embedding) 位置编码(Positional Encoding) 自注意力机制(Self-Attention) 自回归生成(Autoregressive Generation) 这些专业名词虽然


整数序列权重排序——基于深度优先搜索(DFS)以及记忆化搜索
w24167178402025/11/16

提示:本文适合对算法设计感兴趣的道友一起互相学习,如有疑问,欢迎评论区或者私信讨论。 文章目录 前言 一、题目介绍 二、前置知识扩展 1.深度优先遍历 1.1递归DFS 1.1非递归DFS 2.@cache装饰器 3.range()函数 4.sorted()函数 三、解题思路及代码解读


前端开发小技巧-【JavaScript】- 获取元素距离 document 顶部的距离
禁止摆烂_才浅2025/11/15

获取元素距离 document 顶部的距离 方案1:使用 offsetTop(最简单) const element = document.getElementById('myDiv') const distance = element.offsetTop console.log(distance) // 500(像素) 方案2:使用 getBoundingClientRect() + scrollY(最准确) const element = document.getElementById(


稳定边界层高度参数化方案的回归建模
mayubins2025/11/14

稳定边界层高度参数化方案的回归建模 为了发展一个适用于CAS-ESM气候系统模式的稳定边界层高度参数化方案,本研究基于湍流尺度分析理论,采用多元线性回归方法,对Zilitinkevich类型公式中的经验系数进行确定性拟合。该公式综合考虑了地表机械强迫、热力强迫以及自由大气静力稳定度的综合影响。 理论框架 我们所采用的参数化公式源于稳定层结下湍流动能的平衡关系,其函数形式如下: 1/h² = C1 * (f² / τ) + C2 * (N |f| / τ) + C3 * (|f β F₊| / τ


Python 的内置函数 isinstance
IMPYLH2025/11/13

Python 内建函数列表 > Python 的内置函数 isinstance Python 的内置函数 isinstance() 用于判断一个对象是否属于某个类或类型,或者是否属于由这些类型组成的元组中的一个。它是 Python 中类型检查的重要工具,相比于 type() 函数具有更灵活的类型检查能力。 其语法为: isinstance(object, classinfo) 其中: object 是要检查的对象classinfo 可以是一个类型对象,或者由类型对象组成的元组 is


[免费]基于Python的农产品可视化系统(Django+echarts)【论文+源码+SQL脚本】
java1234_小锋2025/11/11

大家好,我是java1234_小锋老师,看到一个不错的基于Python的农产品可视化系统(Django+echarts)【论文+源码+SQL脚本】,分享下哈。 项目视频演示 https://www.bilibili.com/video/BV1mYkoBLEju/ 项目介绍 本研究提出了一种基于Python的农产品可视化系统,结合Django框架和ECharts库,旨在为农产品数据的展示和分析提供便捷、高效的解决方案。系统通过Django框架构建后端服务,使用ECharts实现前端数提供数


用 PyQt 开发一个桌面计算器:从零到完整实战指南
Python私教2025/11/9

作者:张大鹏 时间:2025-11-05 标签:Python、PyQt5、GUI、桌面开发、实战教程 一、前言 在桌面应用开发中,计算器 是一个非常适合入门的练手项目。 它涉及到图形界面设计、事件绑定、信号槽机制、布局管理等核心概念。 今天我们将使用 PyQt5(同样适用于 PyQt6)一步步实现一个可用的计算器程序,从 UI 布局到功能逻辑完整讲解。 最终效果如下👇: 支持加减乘除和小数运算;按钮布局整齐;可通过按钮或键盘输入操作;界面美观,可打包为独立应用。 二、项目环境 项目依赖


React+Tailwind CSS+Shadcn UI
再希2025/11/7

推荐常用网址 yhttps://react.dev/learn/describing-the-ui 使用 Vite 安装 Tailwind CSS - Tailwind CSS Introduction - shadcn/ui 下面这个地址记录了前端常用的命令,以及学习教程等,推荐给各位 https://www.houdunren.com/doc/article/21/208 创建react项目首先需要准备好nodeJS环境,我这里使用的是vite脚手架 步骤如下: 使用 Vit


前端新手必看!困扰90%人的10个JavaScript问题,一次性帮你解决
良山有风来2025/11/4

是不是经常被JavaScript的各种“奇怪”行为搞到头大?明明照着教程写代码,结果运行起来却各种报错?别担心,这些问题几乎每个前端新手都会遇到。 今天我就把新手最容易踩坑的10个JavaScript问题整理出来,每个问题都会给出清晰的解释和实用的解决方案。看完这篇文章,你就能彻底理解这些“坑”背后的原理,写出更健壮的代码。 变量提升的陷阱 很多新手都会困惑,为什么变量在声明之前就能使用?这其实是JavaScript的变量提升机制在作怪。 console.log(myName); // 输出:u


低空经济网络安全体系
芯盾时代2025/10/31

为了促进低空经济的稳健发展,构建完善的网络安全体系势在必行。低空经济网络安全业务体系的重点在于将安全因素深度融入业务决策流程,确保在满足各类场景需求的同时,安全措施得以全面落实。产业合作体系则强调产学研用管多方的协同合作,以期通过集体努力完善相关政策、加强监管、推动技术创新和标准制定。同时,需要特别关注机载智能算法的相关安全。威胁定级与应急防护体系聚焦安全威胁的分类分级和应急处置,旨在构建低空经济网络安全的主动防御能力。供应链安全体系则着眼于生产制造全链条的安全管理,从而确保低空经济供应链的安全

首页编辑器站点地图

Copyright © 2025 聚合阅读

License: CC BY-SA 4.0