如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!

作者:机器之心日期:2025/11/19

近来,世界模型(World Model)很火。多个 AI 实验室纷纷展示出令人惊艳的 Demo:仅凭一张图片甚至一段文字,就能生成一个可交互、可探索的 3D 世界。这些演示当然很是炫酷,它们展现了 AI 强大的生成能力。

但一个关键问题随之而来:这些由 AI 生成的世界中,绝大部分事物都是模型想象和虚构的。

如果我们不满足于「创造」一个虚拟世界,而是想把我们当下生活的这个真实世界(比如我们的家、办公室、工厂和城市)完整地变成一个可交互、可计算的 3D 世界呢?

这正是如视(Realsee)想要解答的问题。11 月 13 日,如视,这家数字空间及空间智能综合解决方案引领者,正式发布了其空间大模型 Argus 1.0,这也是全球首个(目前也是唯一一个)支持全景图输入,推测空间深度的大模型。它所代表的正是与虚拟生成截然不同的另一条路径:真实复刻。而这背后,正是「空间智能」相关技术不断演进的结果。

Argus 1.0 的目标不是「虚构」世界,而是「还原」真实的世界。它能够以毫秒级的速度,从一个场景下的单张或多张全景/普通图像中,推理出所有图像带绝对尺度的相机位姿、深度图和点图。

图片

体验地址:h5.realsee.cn/argus?UTM=a…

从想象到测量,从虚拟到真实,Argus 1.0 的出现为 2D 图像通向 3D 真实空间架起了一座高速桥梁。这一技术突破意味着什么?它背后是如视怎样的技术积累与战略布局?

带着这些问题,我们与如视副总裁、首席科学家潘慈辉博士进行了深入对话,试图解码 Argus 模型的技术特性,及其在如视「空间智能」版图中的关键角色。

Argus 1.0 诞生的基石

如视的「数字空间-算法-行业应用」飞轮

任何强大模型的诞生都不是空中楼阁,Argus 1.0 也不例外。它根植于如视自 2017 年成立以来,围绕空间数字化所构建的深厚壁垒。在与潘慈辉博士的交流中,他提到了一个核心概念:「数字空间-算法-行业应用」的飞轮循环。而这个飞轮的核心驱动力,正是如视引以为傲的「真实空间数据库」。

核心资产:全球最大的三维空间数据库

作为最初脱胎于贝壳找房的事业部,如视从房产交易这一刚需场景切入,开启了大规模空间数字化的进程。截至 2025 年 9 月,如视已在全球范围内积累了突破 5300 万套的数字空间数据,覆盖面积超过 44 亿平方米。

潘慈辉解释道:「这个全球最大的真实空间数据库,是如视算法能力迭代的驱动器。」

海量数据的积累,持续驱动着空间智能 AI 算法的提升;而更强的系统能力,又为房产租售、家装家居、商业零售、工业园区等九大行业提供了高质量的解决方案;这些解决方案的落地,反过来又让如视得以触达更多元化的空间场景数据。

图片

高质量空间数据:高精度、完备且一致

如果说 5300 万的量构筑了护城河的宽度,那么数据的质则决定了护城河的深度。潘慈辉强调,Argus 1.0 最大的技术突破,正得益于如视坚持自研硬件与算法的技术路线,这为其带来了「完备且一致」的高质量数据。

潘慈辉说:「我们的数据最大的特色,是在硬件设计和标定阶段就保证了最终采集的图像数据和激光点云数据是完备的,并且做到了像素级精度的对齐。」

不同于业内一些只有图像数据(缺乏绝对尺度)或只有激光数据(缺乏纹理)的方案,如视通过自研的伽罗华(Galois)系列 3D 激光扫描仪(其 P4 型号可直出 3 亿像素超高清全景图,图像与点云平均匹配误差小于 2 个像素),确保了每一份数据都是「所见即所得」的高精度数据对。这种在源头就严格标定、高度一致的真实数据,是 Argus 1.0 能够学习到准确深度和绝对尺度的前提,也是其远超其他算法的养料。

图片

伽罗华 Galois P4 亮点概览

应用导向的底层创新

强大的数据飞轮背后,是一支由如视副总裁、首席科学家潘慈辉博士带领的研发团队。据潘博士介绍,如视从创立之初就坚持应用导向的底层技术创新,平均每年的研发投入都在 2 亿人民币以上。这份坚决的技术投入,造就了如视的技术实力和底气。

持续的耕耘也为如视带来了国际上的权威认可。在学术上,如视团队的科研成果近年来多次入选 ICCV、CVPR 等国际顶会;在产品设计上,旗下的伽罗华 3D 激光扫描仪、REALSEE G1 手机云台和庞加莱手持实景扫描仪接连斩获 2021、2022 及 2023 年德国红点产品设计大奖。如今,这些技术和产品已服务于 9 大行业超过 3000+ 品牌客户,团队也已积累了 600 余项国内外授权专利。

正是这个由海量高质数据、软硬一体化和持续研发投入共同驱动的飞轮,为 Argus 1.0 的诞生奠定了基础。

Argus 1.0

从「单眼」到「百眼」的空间智能突破

如视算法团队喜欢用希腊神话人物为产品命名。潘慈辉在采访中分享道,单目图像深度估计算法 Cyclops(希腊神话中的独眼巨人),寓意着从单张图像、单一视角就能推测世界的深度。

而此次发布的 Argus 1.0,名称则源自希腊神话中的「百眼巨人」。这一命名极富象征意义,它预示着如视的重建技术正从「单视」推测跨越到「多视」全局一致性的新阶段。

具体技术上,Argus 1.0 基于 Transformer 架构构建,是一个前馈式神经网络模型。该模型基于如视累积的 近百万套真实高清空间数据(包含对玻璃、镜面等难题的处理)进行训练。得益于 Transformer 架构的通用性及其与大规模 3D 数据训练的协同效应,Argus 1.0 实现了兼容性、实时性与生成质量三大维度的行业突破。

兼容性:业界首个支持全景图输入的推测大模型

首先是输入端的巨大突破。Argus 1.0 是目前业界已知首个、也是唯一一个支持全景图作为输入的深度推测大模型。

图片

Argus 1.0 甚至可以将 AI 生成的全景图转换成点云

同时,它还广泛兼容单张 / 多张普通照片乃至 AI 生成的图片,具备极强的多源适应能力。

图片

Argus 1.0 也支持普通图转点云

全景图推测深度的能力之所以重要,在于它直指 VR 内容生产的核心痛点。潘慈辉表示,Argus 1.0 能够「显著降低搭建全景图到 VR 的处理流程的门槛,极大提高处理效率」,让低成本、高效率的 3D 空间复刻成为可能。

实时性与一致性:毫秒级的全局重建

如果说 Cyclops 时代还是两步走,即先用算法推测单张全景图的深度,再通过额外的算法模块计算位姿、进行拼接;那么 Argus 1.0 则实现了一步到位。

潘慈辉向我们揭示了 Argus 1.0 的核心架构创新:「此次 Argus 的能力,是将之前 Cyclops 的深度推测能力和后续的位姿计算能力,融合到了一个算法模块中。」

通过将深度推测和位姿计算进行联合训练,模型得以更好地挖掘多视图之间的关联性,从而在全局尺度上实现更高的点云一致性和位姿精度。这一增量式到全局式的转变,带来了效率的质变。如视的官方报告显示,Argus 1.0 的推理效率达到毫秒级,是首个实时的全景图全局重建系统,真正实现了「全流程无感知响应」。

高质量:源自真实数据的稳健性

Argus 1.0 的高生成质量,则要归功于前文提到的如视独有的高精度、带尺度、像素级对齐的真实数据库。

在 3D 重建领域,玻璃、镜面、毛坯房、长走廊等场景一直是行业公认的难题。潘慈辉指出,其根源在于「一般的激光设备对玻璃镜子的测距能力不足,导致大家在学习过程中没有较好的监督数据」。

图片

而如视的解决方案是其多年技术的自然结果:「我们的业务场景中会有专门的工具对玻璃镜子进行标注,根据这些标注,我们修正原始的有问题的激光点云。使用修正后的激光数据进行训练就能很好地解决这一难题。」

正是得益于海量、多样化且经过精细业务标注的养料,Argus 1.0 充分学习并掌握了这些困难场景的特征,使其在面对传统重建难题时依然表现稳定,生成的 3D 空间显著优于其他缺乏真实尺度和对齐能力的方案。

如视的版图

空间智能「四层理论」与 AIGC 终局

Argus 1.0 的发布,不仅是一款工具的升级,更是如视「空间智能」版图中的一块关键拼图。潘慈辉在采访中详细阐述了团队的研发脉络:一个结合自身实践总结出的「空间智能四层理论」。

这四层理论清晰地定义了从数字化到智能化的演进路径:

图片

  1. 第一层:物理数据(重建):即 1:1 复刻;
  2. 第二层:潜藏数据(感知推理):理解空间结构、语义;
  3. 第三层:融合数据(业务):结合 CAD、IoT 等业务数据;
  4. 第四层:AIGC(生成交互):解决开集问题,实现泛化交互。

在这个框架下,Argus 1.0 是第一层(重建)的集大成者。它打通的 2D 到 3D 能力已经可以赋能诸多应用场景。例如,它可以用于生成时下流行的动态锁屏空间壁纸;潘慈辉在采访中提到:「Argus 模型推测的深度精度更高,分辨率更高,且深度带有绝对尺度信息」,效果优于苹果披露使用的深度推测算法。

图片

更进一步,如视透露,预计于明年初发布的 Argus 2.0 及后续版本可进一步用于实时渲染的 3DGS 模型和精细 Mesh 模型,为空间漫游提供沉浸式数字基底。通过与如视自研的空间智能算法结合,它还能驱动空间 CAD 自动生成、高精度语义分割及白模构建等高阶应用,实现从物理世界到数字空间,再赋能现实应用的闭环。

图片

潘慈辉也明确指出,团队的下一个重点难题,正是攻克第四层:AIGC 层。他认为,许多应用的答案不在空间本身,而在于链接「空间之外的信息」,如行业规范、人类偏好等。他总结道:「我们希望当 AIGC 这一层实现后,利用其空间之外的信息能力,我们能更加快速、低成本地对接更多的行业,输出解决方案。」

开放生态

为空间智能行业铺路

在实现自身技术闭环的同时,如视也发挥自身优势,为整个空间智能行业的基础设施「铺路」。

长期以来,空间智能领域的研究与应用面临着一个瓶颈问题:空间智能的「基石」—— 高质量的空间数据,存在巨大缺口。而如视一直以来的技术成果,恰好为解决这一问题打开了一扇窗。

因此,为了加速整个空间智能应用领域的研究演进,如视计划于今年年底开放 10000 套的室内房屋数据集(其中 1000 套新房数据、9000 套 AI 设计数据),这同时也是目前最大规模的空间三维数据集。这种开放生态,让更多人能站在如视积累的真实数据之上进行创新,从而整个行业的发展。

迈向空间智能的 AIGC 终局

从最初服务于房产交易的 VR 看房,到如今赋能九大行业的空间智能;从打磨软硬一体的采集闭环,到发布毫秒级的深度推测大模型 Argus,如视的路径清晰地展现了其「数字空间 - 算法 - 行业应用」飞轮的强大势能。

Argus 1.0 的发布,不仅是如视的飞轮势能的一次集中爆发,它也是一个空间信息解码器,为 3D 视觉领域带来了一个低门槛、高效率、高质量的基础工具。它向行业证明了一条核心路径:海量、高精度、高一致性的真实世界数据是训练空间基础大模型的决定性优势。

这标志着空间智能领域一个新纪元的开始:以真实数据为基石,从底层重建走向顶层 AIGC 应用的路径被正式打通。

随着如视这样的空间数据巨头不断推动技术演进和生态开放,一个万物可计算、虚实深度融合的未来,正加速向我们走来。


如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!》 是转载文章,点击查看原文


相关推荐


pytest1-接口自动化测试场景
文人sec2025/11/17

课程:B站大学 记录python学习,直到学会基本的爬虫,使用python搭建接口自动化测试,后续进阶UI自动化测试 接口自动化测试 接口自动化测试的场景测试金字塔模型自动化测试前需要思考什么?Pytest是什么?Pytest 有哪些格式要求?在pycharm下安装pytestpytest知识点测试用例示例类级别的用例示例断言测试装置介绍参数化参数化测试函数使用Mark:标记测试用例Skip:使用场景pytest命令运行测试用例文件pytest中执行顺序如何调整pytest中py文件执


Next.js第五章(动态路由)
小满zs2025/11/16

动态路由 动态路由是指在路由中使用方括号[]来定义路由参数,例如/blog/[id],其中[id]就是动态路由参数,因为在某些需求下,我们需要根据不同的id来显示不同的页面内容,例如商品详情页,文章详情页等。 基本用法[slug] 使用动态路由只需要在文件夹名加上方括号[]即可,例如[id],[params]等,名字可以自定义。 来看demo: 我们在app/shop目录下创建一个[id]目录 //app/shop/[id]/page.tsx export default function Pa


基于脚手架微服务的视频点播系统-脚手架开发部分(完结)elasticsearch与libcurl的简单使用与二次封装及bug修复
加班敲代码的Plana2025/11/15

基于脚手架微服务的视频点播系统-脚手架开发部分elasticsearch与libcurl的简单使用与二次封装及bug修复-完结 1.ElasticClient的使用1.1ES检索原理正排索引倒排索引 1.2ES核心概念1.2.1索引(index)1.2.2类型(Field)1.2.3字段(Field)1.2.4映射(mapping)1.2.5文档(document) 1.3 Kibana访问es进行测试1.3.1创建索引1.3.2新增数据1.3.3查看并搜索数据1.3.4删除索引


qinkun的缓存机制也有弊端,建议官方个参数控制
石小石Orz2025/11/14

公司前端基于qiankun架构,主应用通过qiankun加载子应用,子应用也可能通过qiankun继续加载子应用,反复套娃。经过测试,不断打开子应用后,会导致内存不断上上。通过快照分析,发现内存升高的元凶是qiankun内置的# import-html-entry。 import-html-entry 的作用是什么 import-html-entry 是 qiankun / single-spa 微前端生态的核心模块之一,用来: 加载远程 HTML 入口文件(entry HTML),并提取出其中


Python 的内置函数 int
IMPYLH2025/11/13

Python 内建函数列表 > Python 的内置函数 int Python 的内置函数 int() 是一个用于将其他数据类型转换为整数类型的重要函数。它具有以下详细特性: 基本功能: 将数字或字符串转换为整数语法:int(x, base=10)示例:int('123') # 返回 123 int(12.34) # 返回 12 参数说明: 第一个参数可以是: 数字(整数或浮点数)字符串(仅包含数字字符)布尔值(True 转为 1,False 转为 0) 可


✍️记录自己的git分支管理实践
你的人类朋友2025/11/11

前言 👋 你好啊,我是你的人类朋友! 因为本人的开发经常涉及各个分支间的同步,这一套同步的流程从刚开始的小心翼翼,到现在相对熟悉了 所以我想记录下自己工作中常用的分支同步的步骤 😆 顺便研究康康有没有可以优化的地方 🍃 正文 先介绍下背景情况吧 首先主分支为 master 其次,因为开发分为多个阶段,比如 phase_1、phase_2、phase_3 等 那就在 master 之后再创建 feature/phase_1、feature/phase_2 这样的分支,作为每一个 phase


草梅 Auth 1.11.0 发布与 GitHub 依赖安全更新 | 2025 年第 45 周草梅周报
草梅友仁2025/11/9

本文在 草梅友仁的博客 发布和更新,并在多个平台同步发布。如有更新,以博客上的版本为准。您也可以通过文末的 原文链接 查看最新版本。 前言 欢迎来到草梅周报!这是一个由草梅友仁基于 AI 整理的周报,旨在为您提供最新的博客更新、GitHub 动态、个人动态和其他周刊文章推荐等内容。 本周依旧在开发 草梅 Auth 中。 你也可以直接访问官网地址:auth.cmyr.dev/ Demo 站:auth-demo.cmyr.dev/ 文档地址:auth-docs.cmyr.dev/ 本周 草梅


理解 LangChain 智能体:create_react_agent 与 create_tool_calling_agent
奇舞精选2025/11/7

本文译者为 360 奇舞团前端开发工程师 原文标题:理解 LangChain 智能体:create_react_agent 与 create_tool_calling_agent 原文作者:Anil Goyal 原文地址:medium.com/@anil.goyal… 当我们使用 LangChain 构建 AI 智能体时,首先要做的是选择正确的智能体架构。 目前常用的2种架构是create_react_agent和create_tool_calling_agent。两者都可以让AI使用外部工具


windows npm打包无问题,但linux npm打包后部分样式缺失
悢七2025/11/4

原因 前端package.json中指定的是依赖版本范围,而linux中使用npm install安装的版本与windows不同。 例如"@ant-design/icons": “^4.0.0” 插入符号^意味着它可以安装最新的兼容版本。如果希望它安装特定版本,可以在版本前面删除^。 详见package.json文档和符号学 插入符号将让它安装一个不改变第一个数字的更高版本。例如,你的package.json为@ant-design/icons指定了^4.0.0,但它安装了4.6.2。由


【SCI二区IEEE复现】基于混合有限集模型预测控制(FCS-MPC)的模块化多电平换流器(MMC)整流电路仿真模型(Simulink仿真实现)
荔枝科研社2025/10/31

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭:行百里者,半于九十。 📋📋📋本文内容如下:🎁🎁🎁  ⛳️赠与读者 👨‍💻做科研,涉及到一个深在的思想系统,需要科研者逻辑缜密,踏实认真,但是不能只是努力,很多时候借力比努力更重要,然后还要有仰望星空的创新点和启发点。建议读者按目录次序逐一浏览,免得骤然跌入幽暗的迷宫找不到来时的路,它

首页编辑器站点地图

Copyright © 2025 聚合阅读

License: CC BY-SA 4.0