重磅更新!Claude Sonnet 4.5发布,编程最强模型

作者:哪吒编程日期:2025/10/4

9月30日,Anthropic公司发布最新旗舰模型Claude Sonnet 4.5。

官网描述:

Claude Sonnet 4.5 是世界上最好的编码模型。它是构建复杂代理的最强大模型。它是使用计算机的最佳模型。它在推理和数学方面表现出显著的进步。

代码无处不在。

它运行着你使用的每个应用程序、电子表格和软件工具。能够使用这些工具并推理解决难题是现代工作得以完成的关键。

一、为何是Claude Sonnet 4.5,而不是Claude Opus 4.5?

1、Claude 系列目前主要有三大“谱系”

Haiku(俳句) :轻量级、速度快、成本低,适合简单问答或嵌入到产品中做实时交互。

Sonnet(十四行诗) :中端平衡型,能力较强,成本与延迟更适中,用途广泛。

Opus(长诗 / 史诗) :旗舰高端版,能力最强,但计算成本最高、响应较慢,通常用于要求最极致推理能力的场景。

👉 可以把它们类比成 小杯(Haiku)—中杯(Sonnet)—大杯(Opus),只是差别不是容量,而是 性能与成本的平衡点。

2、Sonnet vs Opus 的主要差别

维度SonnetOpus
定位“均衡型”,性能和速度之间折中,适合多数日常和专业场景“旗舰型”,能力最强,尤其在复杂推理、深度问题、创造性写作上更有优势
成本 / 速度更快、更便宜,延迟更低,适合长时间运行的 agent 或需要频繁调用更昂贵、速度更慢,运行大任务时成本更高
推理 / 创造力已经很强大,尤其是 4.5 版本后在编码、agent 等任务中大幅提升更擅长极端复杂推理、跨学科深度问题、文学创作等极高要求场景
使用场景开发者用来构建应用、长时间运行 agent、一般问答、写作、代码辅助需要“极致智慧”的科研、哲学对话、高复杂度数据分析、文学长篇创作

3、个人观点

(1)研发策略

Anthropic 把 4.5 的重点放在 中端(Sonnet),因为它覆盖的用户最多、应用场景最广,先推出这一版本,能最大化实用性和影响力。

(2)技术落地

Sonnet 4.5 主打 长时间 agent 稳定性 + 编码能力,这些更需要速度、成本和稳定性的平衡,而不是 Opus 那样“极致但昂贵”。

(3)Opus 迭代节奏

Opus 通常更新周期更慢,因为它追求的是“顶尖极限”,每次发布都要更严格测试和验证。换句话说,Sonnet 是大众车先换代,Opus 是旗舰车大改款周期更长。

国内直接使用Claude Sonnet 4.5

谷歌浏览器访问:www.nezhaclaude.cn

✅️官网原生界面,真实pro会员账号,直连Claude官网

✅️已解决Claude官网封号问题,月卡质保30天

✅️最新模型Claude Sonnet 4.5、Claude Opus 4.1

模型页简介.png

二、核心能力与定位的变化

维度Claude Opus 4.1 的定位 / 强项Claude Sonnet 4.5 的升级 / 新定位
持续工作时长 / agent 能力在 agent 或长期任务中有一定能力,但持续时间有限能够“自主运行”30 多小时以上,显著拉长连续工作的耐力
编码 / 软件开发能力已具备很强的编程、代码重构与工具调用能力宣称在 SWE-Bench Verified 等编码基准中刷新纪录(如得分 ~77.2%) ([Cursor IDE中文站][2]);在多个 “agent + 代码 + 任务链” 的场景中性能更稳定、更少迭代
任务规划、指令遵循、稳定性原本就有较强的指令理解与推理能力在“指令遵循更精确、规划能力更强、并行工具调用 / 子任务管理”等方面有提升
工具 & Agent 支持 / 系统能力已有一定的工具调用 + memory 支持增加或强化 Agent SDK、工具管理、VS Code 插件 / 扩展、检查点 (checkpoints)、并行工具调用等机制
安全 / 对齐 / 行为边界在 Claude 系列已有较为严格的安全机制在评估中发现 Sonnet 4.5 有“情境感知”(能察觉自己正在被测试)这一比较新的现象,可能对评估行为 /模型鲁棒性带来新思考

三、排行榜

1、编程SWE-bench

在软件工程基准测试 SWE-bench Verified (n=500) 上取得了领先成绩。从图表可以看到,Sonnet 4.5 的准确率达到了 77.2%,在启用并行推理优化后更是提升至 82.0%,超越了包括 GPT-5、Gemini 2.5 Pro 在内的多个同类模型。

Anthropic 在代码生成与软件工程任务上的能力已大幅提升,特别是在复杂 bug 修复与函数实现场景中更具优势。Sonnet 4.5 不仅在单模型下表现优秀,还通过并行推理方式显著优化了准确率。

2、数学和推理

在 数学和推理 方面,Claude Sonnet 4.5 在 AIME 2025 数学竞赛中取得 100% (Python) 的满分成绩,无工具模式下也达 87.0%。此外,在 研究生级推理 (GPQA Diamond) 上达到 83.4%,在 多语言问答 (MMLU) 中以 89.1% 紧随 GPT-5,展示了强大的跨领域能力。

3、金融、法律、医学、STEM

Sonnet 4.5 在 金融(Finance) 领域的胜率高达 72%,在启用长思维链 (16k thinking) 模式下依旧保持 68%,显著领先其他模型。在 法律(Law) 领域,Sonnet 4.5 取得 65% 的成绩,明显超过 Claude Opus 4.1 的 55% 和 Sonnet 4 的 50%。

在 医学(Medicine) 场景中,Sonnet 4.5 达到 61% 的胜率,即便在长思维链模式下也有 53%,表现稳定而强劲,超越了同系列与竞品模型。在 STEM(科学、技术、工程与数学) 领域,Sonnet 4.5 以 69% 的胜率拔得头筹,领先 Opus 4.1 的 62% 和 Sonnet 4 的 50%。

四、性能测试

1、Claude Sonnet 4.5版本号

你是什么模型,具体是什么版本号,知识截止日期是几号

2、联网查询

2024年诺贝尔文学奖得主都有谁?

3、写作

全国二卷作文题目:"梦的赠予" 材料内容: "昨夜闲潭梦落花""我欲因之梦吴越""铁马冰河入梦来"……梦往往以一种独特的方式呈现我们的感受和期冀,为我们打开更浩瀚的天空。我们也常常向别人讲述自己的梦,用文字记录自己的梦,以行动实现自己的梦。 如果有一天,我们能够将梦赠予他人…… 写作要求: 以上材料引发了你怎样的联想和思考?请写一篇文章。要求选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

4、读取文件

根据文档内容,写一个关于JVM虚拟机的学术论文大纲

5、数据大屏

写一个2025年1-9月比亚迪的汽车销量排行榜 数据大屏


重磅更新!Claude Sonnet 4.5发布,编程最强模型》 是转载文章,点击查看原文


相关推荐


GLM-4.6 + Cursor 实战首秀:国产大模型高效优化现有模块
飞哥数智谈2025/10/3

昨天配置了 GLM-4.6 的环境,今天我们直接在实际项目中深度使用下。 《免费用上 GLM-4.6!我在 Cursor 里接入了模力方舟 - 掘金》 背景与任务 实战场景依然是基于我们的“协同平台”,系统内有一个“项目”模块和“待办”模块。 今天的实战任务就是优化项目查看界面,使用待办模块实现项目下的需求、任务、缺陷管理。 实操记录 环境:Cursor + 模力方舟 GLM-4.6 API。 初版生成 指令 优化项目查看页面。 更改为左右布局,左侧span=16,右侧span=8 左侧:


RWKV7-G1a 2.9B 推理模型开源发布,继续推进纯 RNN 模型的思考能力
RWKV元始智能2025/10/2

2025 年 9 月 24 日, RWKV7-G1a 2.9B 推理模型开源发布,继续推进纯 RNN 模型的思考能力。 RWKV7-G1a 2.9B 从 RWKV7-G1 2.9B 继续训练 1T tokens 高质量数据,显著提升各方面能力。 模型客观指标评测 英语和多语言能力 RWKV7-G1a 2.9B 的基础英语和多语言能力均强于同规模的开源模型: 作为纯预训练的基底模型,无“刷榜”,RWKV7-G1a 2.9B 的 MMLU 提升到 61.1%,MMLU Pro 提升到 31.5%(


一款专门为 WPF 打造的开源 Office 风格用户界面控件库
追逐时光者2025/10/2

前言 今天大姚给大家分享一款专门为 WPF 打造的开源(MIT license)、免费的 Office 风格用户界面控件库:Fluent.Ribbon。 项目介绍 Fluent.Ribbon 一个为 Windows Presentation Foundation(WPF)实现类 Office 开源(MIT license)、免费的用户界面控件库,提供了诸如 RibbonTabControl(功能区选项卡控件)、Backstage(后台视图)、Gallery(画廊控件)、QuickAcces


5、软件工程
Lancer-3110/1/2025

本文摘要: 软件工程包含方法、工具和过程三大要素。需求阶段需明确业务、用户和系统需求,通过QFD转换需求,产生需求规格说明书。软件设计解决实现方案,分为结构化和面向对象设计。测试包括静态/动态测试,分单元、集成等类型。部署模式有单机、分布式等,持续交付强调快速上线。质量管理关注产品运行、修改和转移,通过SQA保证质量。成熟度模型CSMM包含4个能力域和5个成熟度等级,指导组织能力提升。


JavaScript性能优化实战:立即执行函数表达式(IIFE)优化与全局污染防治
AC赳赳老秦9/30/2025

本文深入剖析了JavaScript中IIFE(立即执行函数表达式)的核心原理与应用价值。文章首先揭示了全局作用域污染导致的命名冲突、内存泄漏等问题,随后详细解析IIFE的语法结构及其通过闭包实现作用域隔离的机制。重点探讨了IIFE在性能优化方面的优势,包括缩短作用域链、加速内存回收等关键技术。通过对比实验数据展示了IIFE在执行效率和内存管理上的显著提升,并提供了模块化封装、依赖注入等高级应用模式。


AI训练的悖论:为什么越追求准确率越会产生幻觉?
MobotStone2025/10/5

在早期时,我曾让大模型撰写一位冷门历史人物的传记。它胸有成竹,娓娓道来:年代、成就,甚至几句“名言”,一应俱全。读起来简直像历史上真的存在一样。 唯一的问题是:大部分内容都不是真的。严格来说,模型并非“撒谎”,而是在知识缺口处用看似合理的细节把空白填满。它是出色的故事编辑者,却是离谱的历史学家。 这种问题在 AI 领域叫做"幻觉"(就像人会产生错觉一样),是目前提升 AI 可靠性路上最难啃的硬骨头之一。我们理想中的 AI 应该像万能百科一样无所不知,但更重要的是,它必须清楚地知道自己"不知道什么


Spring Boot集群 集成Nginx配置:负载均衡+静态资源分离实战
夜雨hiyeyu.com2025/10/6

Spring Boot 集群集成 Nginx:负载均衡 + 静态资源分离实战指南 第一章:架构概述与设计理念1.1 为什么需要集群化?1.2 整体架构设计 第二章:Spring Boot 应用集群化准备2.1 应用无状态化改造2.2 应用配置标准化 第三章:Nginx 负载均衡配置详解3.1 Nginx 安装与基础配置3.2 高级负载均衡策略 第四章:静态资源分离实战4.1 静态资源配置优化4.2 CDN 集成配置 第五章:高可用与故障转移5.1 Nginx 高可用架构5.2


找 Vue 后台管理系统模板看这个网站就够了!!!
追逐时光者2025/10/8

前言 在开发 Vue 后台管理系统时,一个美观、功能完善且易于扩展的模板能极大提升我们的开发效率。面对琳琅满目的 Vue 开源项目,如何快速找到真正实用、维护良好的模板成为关键。大姚给大家分享一个 Vue 后台管理系统模板大全,里面收录了大量开源的 Vue 后台管理系统模板和 Vue 后台管理系统。 在线访问地址:vue.easydo.work 什么是 Vue? Vue 是一款用于构建用户界面的 JavaScript 框架。它基于标准 HTML、CSS 和 JavaScript 构建,并提


关于Mybatis-Plus的insertOrUpdate()方法使用时的问题与解决—数值精度转化问题
superstrer2025/10/9

1 问题描述         今天在使用Mybatis-Plus的insertOrUpdate()方法时,新增能成功,编辑无法成功,报错如下:         我很好奇,明明我前端执行的是编辑逻辑,并不需要phone_number字段,而insertOrUpdate()方法为什么会执行INSERT语句?         而这里的phone_number报错也很好理解,就是因为数据库我设置了该字段NOT NULL,而编辑操作误执行为插入操作,因此并没有设置phone_number字段的值


Python人工智能编程从零开始掌握机器学习基础
jianmin09202025/10/11

Python与机器学习入门概述Python人工智能编程从零开始掌握机器学习基础,是当今技术领域一项极具价值的技能。Python凭借其简洁易读的语法、丰富的库生态系统以及强大的社区支持,成为机器学习入门和实践的首选语言。对于初学者而言,从零开始学习意味着需要系统性地理解机器学习的基本概念、掌握必要的数学基础,并熟练运用Python相关的工具库进行实战练习。这一旅程虽然充满挑战,但通过循序渐进的学习路径,任何人都能建立起坚实的 foundation。搭建Python开发环境开始机器学习之旅的第一步是

首页编辑器站点地图

Copyright © 2025 聚合阅读

License: CC BY-SA 4.0