马斯克Grok 4.1低调发布!通用能力碾压其他一切模型

作者:机器之心日期:2025/11/18

几乎毫无预兆,马斯克人工智能公司 xAI 发布了最新模型 Grok 4.1。

就在刚刚,xAI 宣布,Grok 4.1 已经向所有用户开放,可以在 Grok 官网、X 以及 iOS 和 Android 应用中使用。

图片

Grok 4.1将立即在 Auto 模式中推送,并可在模型选择器中手动选择。

图片

此次,Grok 4.1 将在真实世界可用性方面带来显著提升,尤其是在创造力、情感互动和协作交互方面表现出色。Grok 4.1 对细微意图的感知能力更强,与用户对话更加吸引人,整体人格也更连贯,同时完全保留了前代模型强大的智能与可靠性。

图片

马斯克在 x 上宣传一波自家模型。

为实现这些提升,xAI 在支撑 Grok 4 的同一套大规模强化学习基础设施上进一步优化了模型的风格、个性、助人性和对齐性。并且,为了优化这些不可直接验证的奖励信号,xAI 开发了全新的方法,能够利用前沿的智能体式推理模型作为奖励模型,从而可以大规模自主评估并迭代输出结果。

与此前的线上生产模型相比,Grok 4.1 在对比评估中有 64.78% 的概率被用户偏好选择。

图片

接下来看 Grok 4.1 的能力特征。

SOTA 通用能力

Grok 4.1 在盲测的人类偏好评估中树立了全新的标杆。

在 LMArena 的 Text Arena 排行榜上,Grok 4.1 的推理模式(代号:quasarflux)以 1483 的 Elo 分数位居总榜首位,领先最高的非 xAI 模型整整 31 分。

Grok 4.1 的非推理模式(代号:tensor)无需使用思维 token 便能即时响应,在排行榜上以 1465 Elo 分数位居第二。即便不启用推理,Grok 4.1 也超越了其他所有模型在启用完整推理配置下的表现。

与 Grok 4 相比,Grok 4.1 的整体表现实现了大幅超越 ,前者此前的总排名仅为第 33 名。

图片

情感智能

为了评估模型在个性与人际互动能力方面的进展,xAI 在 EQ-Bench3 上对 Grok 4.1 进行了测试。

EQ-Bench 是一个由大语言模型评判的测试,用于评估主动情绪智能,包括情绪理解、洞察力、同理心以及人际交往技能。测试集包含 45 个具有挑战性的角色扮演场景,其中大多数由预先编写的三轮对话提示组成。该基准通过多项标准验证模型的回答质量,以评估模型表现。此外,它还通过成对对比的方式,为排行榜中的每个模型计算归一化的 Elo 分数。

xAI 使用官方基准仓库运行测试,并报告评分细则(rubric score)与归一化 Elo 分数。所有分数均在遵循基准要求的条件下计算:使用默认采样参数、指定的评判模型(Claude Sonnet 3.7),并且不添加 system prompt。

结果显示,Grok 4.1 的推理模式和非推理模式位居榜单前两名。

图片

以下示例展示了 Grok 4.1 对情绪类提示的回应方式:

图片

创意写作

xAI 还在 Creative Writing v3 基准测试上评估了 4.1 系列模型的表现。

在该基准中,模型需要针对 32 个不同的写作提示生成回答,并进行 3 轮迭代。与 EQ-Bench 类似,评分同时基于评分细则(rubrics)和模型对战的归一化 Elo 分数进行计算。

结果显示,Grok 4.1 的推理模式和非推理模式位居基准测试第二和第三名,仅次于早期 GPT 5.1。

图片

以下示例展示了 Grok 4.1 在创意写作提示下的回答方式:

图片

减少幻觉

配备搜索工具的 Fast(非推理)模型能够提供即时答案,但由于推理深度受限、工具调用次数有限,它们更容易出现事实性错误。

在 Grok 4.1 的后训练过程中,xAI 着重降低了信息查询类提示的事实幻觉。随后,xAI 在抽样的生产环境信息查询提示中观察到了幻觉率的显著下降。

xAI 使用来自生产流量的真实信息查询请求,按类别分层抽样评估模型幻觉率。同时,也评测了 FActScore —— 一个包含 500 个关于不同人物的传记类问题的公共基准测试。

图片

更多 Grok 4.1 的技术细节请参阅模型卡:

图片

模型卡地址:data.x.ai/2025-11-17-…

官方博客:x.ai/news/grok-4…


马斯克Grok 4.1低调发布!通用能力碾压其他一切模型》 是转载文章,点击查看原文


相关推荐


Python 的内置函数 sorted
IMPYLH2025/11/17

Python 内建函数列表 > Python 的内置函数 sorted Python 的内置函数 sorted() 是一个用于排序的可迭代对象的高阶函数,它接受一个可迭代对象作为输入,并返回一个新的已排序的列表。与列表的 sort() 方法不同,sorted() 不会修改原始的可迭代对象,而是生成一个新的排序后的列表。 基本用法 sorted(iterable, key=None, reverse=False) iterable:需要排序的可迭代对象(如列表、元组、字符串等)key(可


线性代数 - 叉积的分量形式与矩阵形式
二分掌柜的2025/11/16

线性代数 - 叉积的分量形式与矩阵形式 flyfish 单位基向量与 向量的分解 1. 三维坐标系与单位基向量 图中蓝色的x轴、红色的y轴、绿色的z轴构成了一个右手系三维笛卡尔坐标系(符合“右手定则”的空间定向)。 在这个坐标系中,有三个单位基向量: i^\hat{i}i^(蓝色箭头):沿x轴方向的单位向量; j^\hat{j}j^​(红色箭头):沿y轴方向的单位向量; k^\hat{k}k^(绿色箭头):沿z轴方向的单位向量。 这三个基向量两两垂直(夹角为90∘90^\circ90∘) 2.


docker启动失败
AI小胖2025/11/15

** ** 问题很明确了:Failed at step LIMITS spawning /usr/bin/dockerd: Operation not permitted 和 status=205/LIMITS。这表明 systemd 在设置资源限制时遇到了权限问题。 解决方案: 1. 移除或修复有问题的资源限制配置 # 移除我们之前创建的 override 配置 rm -f /etc/systemd/system/docker.service.d/override.conf # 重新加载


实时大数据计算中,Spark的滑动窗口和允许消息迟到机制
sword_csdn2025/11/13

目录 1.开发环境2.几句话先概括3.例子说明3.1.参数配置3.2.窗口是如何产生的3.3.Trigger触发机制3.4.迟到的消息数据 最近做了个实时大数据分析的项目,发现很多东西都忘记了,属实没有好好整理笔记之过,趁眼下闲暇,做个回忆和记录。 1.开发环境 这次环境采用Java17+,Scala2.13,Spark的版本为4.0.0,且基于Kafka创建读取流。其它环境可参考以下maven pom。 <?xml version="1.0" encoding="UTF-8"


centos运维常用命令
KV_T2025/11/12

CentOS 服务器运维中,以下是按场景分类的常用命令,涵盖系统监控、用户管理、服务管理、文件操作等核心场景,适合日常运维参考: 一、系统状态监控 查看系统负载 uptime # 显示系统运行时间、用户数、1/5/15分钟负载 w # 更详细的负载信息,包括登录用户和进程 CPU 监控 top # 实时查看CPU、内存占用(按q退出) htop # 交互式CPU/内存监控(需安装:yum install htop) lscpu


C++中实现多线程编程
Alex艾力的IT数字空间2025/11/10

一、基于POSIX线程库(pthreads) 适用场景:Linux/Unix系统、需要底层线程控制或兼容旧代码。 核心步骤: 包含头文件:#include <pthread.h> 定义线程函数:返回类型为void*,参数为void*指针。 创建线程:使用pthread_create函数。 等待线程结束:使用pthread_join回收资源。 示例代码: #include <iostream> #include <pthread.h> void* thread


微信小程序开发案例 | 个人相册小程序(上)
志昂张呀2025/11/8

阶段案例-个人相册小程序 01、准备工作 1 导入代码包 为了节约时间,这里我们直接把完成的小程序空白模板代码包templateDemo复制一份并重命名为demo07_myAlbum, 导入开发工具等待改造。 2 启动服务器 这里我们使用本地电脑安装phpStudy v8.1套件来模拟服务器效果,本次阶段案例不需要使用MySQL数据库,因此直接启动Apache或者Nginx来模拟Web服务器即可。 以Nginx为例,启动效果如图7-8所示。 ■ 图7-8  ph


Python 的内置函数 getattr
IMPYLH2025/11/6

Python 内建函数列表 > Python 的内置函数 getattr def getattr(obj, name:str): ''' 获取属性的值 :param obj: 一个对象 :param name: 属性的名字 ''' Python 的内置函数 getattr 是一个非常有用的反射工具,主要用于动态获取对象的属性或方法。其基本语法为:getattr(object, name[, default]),其中 object 是目标对象,nam


Flash游戏破解参考
FD_20132025/11/1

编 者按:工作、学习之余,玩一会Flash小游戏,放松一下紧绷的神经,是不少朋友的最爱。不过,大部分Flash小游戏并不提供SWF文件的下载,想玩游 戏就必需打开网页,也给我们带来了不小的麻烦。当然,小小的问题难不倒我们,通过各种途径,我们依然可以获取各种被加密的SWF文件,从而无需联网,便能 在本地运行Flash小游戏。 对症下药,玩转Flash游戏下载 Flash游戏下载,关键便在于获取SWF文件的真实URL地址。由于不同类型的Flash游戏,采用的加密、运行方式各不相同,因此必需采


南京大学LLM开发基础(四)MoE, LoRA, 数的精度 + MLP层实验
nju_spy2025/10/30

https://njudeepengine.github.io/llm-course-lecture/2025/lecture8.html#1 目录 1. Mixture-of-experts (MoE) 1.1 优势 1.2 结构 1.3 训练 2. Low-rank adaptation (LoRA) 3. 数的精度 -- 混合精度 + 量化操作 Task1:DenseMLPWithLoRA 一、任务背景 二、任务要求 Task2:Sparse MLP 1.

首页编辑器站点地图

Copyright © 2025 聚合阅读

License: CC BY-SA 4.0