CV论文速递:覆盖视频理解与生成、跨模态与定位、医学与生物视觉、图像数据集等方向(11.03-11.07)

作者:CV实验室日期:2025/11/11

本周精选12篇CV领域前沿论文,覆盖视频理解与生成、跨模态与定位、医学与生物视觉、图像数据集与模型优化等方向。全部200多篇论文感兴趣的自取!

cv词云图

原文 资料 这里!

一、视频理解与生成方向

1、Cambrian-S: Towards Spatial Supersensing in Video

作者:Shusheng Yang, Jihan Yang, Pinzhi Huang, Ellis Brown, Zihao Yang, Yue Yu, Shengbang Tong, Zihan Zheng, Yifan Xu, Muhan Wang, Daohan Lu, Rob Fergus, Yann LeCun, Li Fei-Fei, Saining Xie

亮点:提出空间超感知范式,划分语义感知、流式事件认知等四个阶段突破纯语言理解局限。构建VSI-SUPER双部分基准与VSI-590K数据集,训练的Cambrian-S在VSI-Bench上实现30%绝对性能提升。创新性提出预测性感知方案,通过自监督下一潜在帧预测器利用预测误差实现记忆与事件分割,大幅优于主流专有基线模型。

Illustration of our surprise-driven event segmentation framework for VSC

论文https://arxiv.org/abs/2511.04670

开源代码https://github.com/cambrian-mllm/cambrian-s

Comments:Website: https://cambrian-mllm.github.io/

2、SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding

作者:Ellis Brown, Arijit Ray, Ranjay Krishna, Ross Girshick, Rob Fergus, Saining Xie

亮点:提出SIMS-V模拟数据生成框架,借助3D模拟器生成富含空间信息的视频训练数据,解决真实数据标注瓶颈。通过系统性消融实验锁定三类关键问题类别,仅用25K模拟样本微调的7B参数视频LLM,性能超越更大参数量的72B基线模型,在真实世界空间推理基准中与专有模型竞争力相当,同时兼顾通用视频理解能力。

SIMS-V enables learning real-world spatial concepts in simulation

论文https://arxiv.org/abs/2511.04668

开源代码https://ellisbrown.github.io/sims-v

3、RISE-T2V: Rephrasing and Injecting Semantics with LLM for Expansive Text-to-Video Generation

作者:Xiangjun Zhang, Litong Gong, Yinglin Zheng, Yansong Liu, Wentao Jiang, Mingyi Xu, Biao Wang, Tiezheng Ge, Ming Zeng

亮点:解决T2V模型对简洁提示语义理解不足的问题,创新整合提示改写与语义特征提取流程。设计改写适配器模块,使扩散模型能利用LLM下一词预测的文本隐藏状态生成视频,实现基础提示向贴合用户意图的全面表达转化。该框架通用性强,可适配多种LLM与视频扩散模型,显著提升生成视频质量与语义对齐度。

Overview

论文https://arxiv.org/abs/2511.04317

开源代码https://rise-t2v.github.io/

4、THEval. Evaluation Framework for Talking Head Video Generation

作者:Nabyl Quignon, Baptiste Chopin, Yaohui Wang, Antitza Dantcheva

亮点:针对说话人头部视频生成评估指标不足的问题,提出涵盖质量、自然度、同步性三大维度的8项评估指标,聚焦头部、嘴部等细节动态与面部质量分析。基于新构建的真实数据集,对17种SOTA模型生成的85000个视频开展实验,发现多数模型唇同步表现优异,但在表情生成和无伪影细节呈现上存在短板,相关代码、数据集与排行榜将公开发布并定期更新。

Overview of the THEval benchmark.

论文https://arxiv.org/abs/2511.04520

二、跨模态与定位方向

1、DINOv2 Driven Gait Representation Learning for Video-Based Visible-Infrared Person Re-identification

作者:Yujie Yang, Shuang Li, Jun Ye, Neng Dong, Fan Li, Huafeng Li

亮点:针对VVI-ReID任务忽略步态特征的缺陷,提出DinoGRL框架,借助DINOv2的视觉先验学习与外观特征互补的步态特征。设计SASGL模型,利用DINOv2语义先验生成并增强剪影表示;研发PBMGE模块,通过步态与外观流的多粒度双向交互,强化全局特征的局部细节,在HITSZ-VCM和BUPT数据集上显著超越现有SOTA方法。

TheoverallframeworkofDinoGRL

论文https://arxiv.org/abs/2511.04281

Comments:ACMMM2025

2、Object Detection as an Optional Basis: A Graph Matching Network for Cross-View UAV Localization

作者:Tao Liu, Kan Ren, Qian Chen

亮点:解决GNSS拒止区域无人机定位难题,提出以目标检测为基础的跨视角匹配框架。摒弃传统图像检索思路,通过目标检测提取无人机与卫星图像中的显著目标,结合图神经网络推理图像间与图像内节点关系。基于细粒度图节点相似度指标,该方法能有效应对异质外观差异,在红外-可见光等大模态差距场景中泛化性强,数据集将公开。

The matching process of the proposed method consists of four main steps.

论文https://arxiv.org/abs/2511.02489

开源代码https://github.com/liutao23/ODGNNLoc.git

Comments:20 pages, Submitted to IEEE TIM

3、RIS-Assisted 3D Spherical Splatting for Object Composition Visualization using Detection Transformers

作者:Anastasios T. Sotiropoulos, Stavros Tsimpoukis, Dimitrios Tyrovolas, Sotiris Ioannidis, Panagiotis D. Diamantoulakis, George K. Karagiannidis, Christos K. Liaskos

亮点:结合可重构智能表面与射频传感技术,解决传统光学重建在遮挡和低光照下的性能退化问题。提出可编程无线环境驱动的射频框架,通过RIS实现场合成,搭配检测Transformer从射频特征中直接推断空间和材料参数。该框架基于材料感知球形基元完成3D重建,模拟实验中物体几何逼近与材料分类总体准确率达79.35%。

 Overview of the 3D-object reconstruction system

论文https://arxiv.org/abs/2511.02573

Comments:Submitted to IEEE ICC 2026

原文 资料 这里!

三、医学与生物视觉方向

1、Building Trust in Virtual Immunohistochemistry: Automated Assessment of Image Quality

作者:Tushar Kataria, Shikha Dubey, Mary Bronner, Jolanta Jedrzkiewicz, Ben J. Brintz, Shireen Y. Elhabian, Beatrice S. Knudsen

亮点:提出以准确性为核心的虚拟免疫组化图像质量评估框架,通过颜色反卷积生成IHC阳性像素掩码,计算Dice、IoU等指标量化像素级标记准确性,无需专家手动标注。实验证实FID、PSNR等传统保真度指标与染色准确性和病理学家评估相关性低,同时发现配对模型染色准确性最优,且全切片图像评估能暴露切片级评估无法发现的性能下降问题。

Workflow to generate virtual IHC images and evaluate their quality.

论文https://arxiv.org/abs/2511.04615

2、Polarization-resolved imaging improves eye tracking

作者:Mantas Žurauskas, Tom Bu, Sanaz Alali, Beyza Kalkanli, Derek Shi, Fernando Alamos, Gauresh Pandit, Christopher Mei, Ali Behrooz, Ramin Mirjalili, Dave Stronks, Alexander Fix, Dmitri Model

亮点:提出偏振增强眼动追踪系统,结合偏振滤光阵列相机与线偏振近红外光源,能捕捉巩膜上的可追踪特征和角膜上的视线相关图案,这些特征在纯强度图像中难以显现。在346名参与者的测试中,基于该系统训练的模型,在正常条件及眼睑遮挡、眼距变化等场景下,中位95百分位绝对视线误差降低10%-16%,为可穿戴设备提供更可靠的传感方案。

Structural diagram of multi-view gaze regression model

论文https://arxiv.org/abs/2511.04652

四、图像数据集与模型优化方向

1、Carousel: A High-Resolution Dataset for Multi-Target Automatic Image Cropping

作者:Rafe Loya, Andrew Hamara, Benjamin Estell, Benjamin Kilpatrick, Andrew C. Freeman

亮点:聚焦社交媒体等场景下多目标美观裁剪的研究缺口,创新性构建包含277张相关图像及人工标注的高分辨率数据集。通过图像分割算法预处理,评估多种单裁剪模型在多目标裁剪任务中的效能,为后续多目标自动图像裁剪技术的研发提供了关键的数据支撑和基准参照。

Motivating example of multi-target image cropping

论文https://arxiv.org/abs/2511.04680

开源代码https://github.com/RafeLoya/carousel

Comments:Accepted to the Datasets track of VCIP 2025

2、Linear Mode Connectivity under Data Shifts for Deep Ensembles of Image Classifiers

作者:C. Hepburn, T. Zielke, A. P. Raulf

亮点:深入研究数据偏移下图像分类器深度集成的线性模式连接(LMC)现象,将数据偏移视为随机梯度噪声的额外来源,并发现小学习率和大批次大小可降低该噪声影响。揭示LMC相关模型虽误差趋同,但能平衡训练效率与集成模型的多样性增益,为优化图像分类集成模型的训练策略、提升泛化能力提供了重要理论参考。

Illustration of the training scheme

论文https://arxiv.org/abs/2511.04514

开源代码https://github.com/DLR-KI/LMC

原文 资料 这里!


CV论文速递:覆盖视频理解与生成、跨模态与定位、医学与生物视觉、图像数据集等方向(11.03-11.07)》 是转载文章,点击查看原文


相关推荐


软考 系统架构设计师之考试感悟4
蓝天居士2025/11/10

接前一篇文章:软考 系统架构设计师之考试感悟3 昨天(2025年11月8日),本人第四次参加了软考系统架构师的考试。和前三次一样,考了一天,身心俱疲。这次感觉和上一次差不多,考的次数多了,也就习惯了。仍然有诸多感悟,下边将本次参加考试的感悟写在这里,以资自己及后来者借鉴。 上一次参加考试是今年的5月24号,地点还是前两次那个地方(本次也是) —— 北京市商业学院(远大路校区),坐公交只需要30分钟、骑车只需要15分钟左右。上次考试结果是在今年的6月26号、即考试后的一个月左右的时间出的。


C++:类和对象---进阶篇
仟千意2025/11/8

1. 类的默认成员函数 默认成员函数就是我们没有显式实现,C++会自动生成的成员函数称为默认成员函数,C++11后,C++类的默认成员函数有8个(默认构造函数、默认析构函数、拷贝构造函数、赋值运算符重载、取地址运算符重载、const取地址运算符重载、移动构造函数(C++11后)、移动赋值运算符重载(C++11后)),我们此文只了解重要的前4个,后4个中前两个不常用,后两个之后再做讲解。 2. 构造函数 构造函数是特殊的成员函数,虽名为构造,但它完成的是成员变量的初始化工作,所以它可以完美的


90%前端面试必问的12个JS核心,搞懂这些直接起飞!
良山有风来2025/11/5

你是不是也遇到过这样的场景?面试官抛出一个闭包问题,你支支吾吾答不上来;团队代码review时,看到同事用的Promise链一脸懵逼;明明功能实现了,性能却总是差那么一点... 别慌!今天我整理了12个JavaScript核心概念,这些都是2024年各大厂面试的高频考点,也是日常开发中真正实用的硬核知识。搞懂它们,不仅能轻松应对面试,更能让你的代码质量提升一个档次! 变量与作用域 先来看个最常见的面试题: // 经典面试题:猜猜输出什么? for (var i = 0; i < 3; i++)


OpenAI Aardvark:当AI化身代码守护者
墨风如雪2025/10/31

想象一下,一个不知疲倦、聪明绝顶的数字侦探,夜以继日地巡视你的代码,在每一个新提交、每一行变更中嗅探潜在的危险。这不是科幻,而是OpenAI在2025年末悄然放出的重磅炸弹——Aardvark。这款以“土豚”命名的AI智能体,并非简单的代码扫描器,它标志着AI在网络安全领域,真正迈出了“自主思考”的第一步。 认识你的新安全伙伴 Aardvark,由OpenAI最先进的GPT-5模型驱动,被定位为一个“agentic security researcher”。你可以把它理解为一位全职的“白帽黑客


CoAlbum:多级缓存与性能对比
RealmElysia2025/10/29

目录 Target 1.多级缓存生效注解 2.缓存上下文 3.责任链 Hander接口 责任链初始化 5.切面Aop Coalbum项目 使用缓存 性能对比 Jmeter tips Target Caffeine+Redis构建多级缓存,采用责任链模式,使用aop+注解的方式增强目标方法。若缓存命中,返回命中值。若没命中,执行目标方法,将目标方法返回值依次存入缓存链。 1.多级缓存生效注解 /** * 多级缓存生效注解 */ @Target


为超过10亿条记录的订单表新增字段
Sam_Deep_Thinking2025/10/26

如何为 10 亿行 MySQL 大表安全新增字段? 之前在一家餐饮公司待过几年。由于这家公司已经营业了很多年,MySQL 5.6 的订单表数据早已超过 10 亿行。这就带来一个经典难题: 如何为这张大表新增字段? 当时的处理方式 假设业务需求的上线时间是 2025 年 10 月 23 日,我们会安排组内同事在 10 月 22 日或 23 日凌晨 提交数据库变更: ALTER TABLE order_items ADD COLUMN new_flag TINYINT DEFAULT 0; 变


C 语言标准库头文件 time.h
hubenchang05152025/10/23

#C 语言标准库头文件 time.h 请查看 C 语言标准库头文件列表 了解更多相关 API。 这个头文件提供 线程 相关的功能。例如线程控制、互斥量、条件变量、线程局部存储等。 #常量 宏标准说明CLOCKS_PER_SECC89处理器的每秒时钟数,POSIX 上定义为 1000000 而非实际的时钟数TIME_UTCC11表示时间基准为 UTC 时间 #类型 类型标准说明time_tC89日历时间的时间戳类型(自 1970 年 1 月 1 日 00:00:00.000 UTC 以来的秒数


Redis(77)Redis缓存的优点和缺点是什么?
Victor3562025/10/22

Redis作为一个高性能的分布式缓存系统,具有许多优点,但也有一些缺点。以下详细讲解Redis缓存的优点和缺点,并结合代码说明如何尽量发挥其优点和规避其缺点。 优点 1. 高性能 Redis以其卓越的读写性能著称,能够支持高吞吐量的读写操作。 示例代码: import redis.clients.jedis.Jedis; public class RedisPerformanceExample { public static void main(String[] args) {


FFmpeg 基本数据结构 AVFormatConext 分析
给大佬递杯卡布奇诺2025/10/21

1、FFmpeg 主要数据结构分层设计 1.1 IO抽象层 协议层与 I/O 抽象层 (Protocol & I/O Abstraction),这一层负责从最广泛的数据源读取或写入数据。 核心数据结构:AVIOContext 功能: 抽象了底层的 I/O 操作。通过它,FFmpeg 可以用统一的接口处理文件、网络流(HTTP, RTMP, TCP)、内存缓冲区等。 关键点: 它使得上层的格式层(解复用)无需关心数据是从哪里来的。这对于播放网络直播流或处理内存中的媒体数据至关重


SpringCloud微服务项目实战——系统实现篇
thginWalker2025/10/20

06 服务多不易管理如何破——服务注册与发现 经过上一篇系统性的介绍 Spring Cloud 及 Spring Cloud Alibaba 项目,相信你已经对这两个项目有个整体直观的感受,本篇开始正式进入本课程的第二部分,一起进入业务的开发阶段。 服务调用问题 在分析业务需求时,其中有个简单的功能点:会员可以开通月卡,开通月卡的同时,需要增加相应的积分。开通月卡功能在会员服务模块维护,但增加积分功能在积分服务模块维护,这就涉及到两个模块间的服务调用问题。 单实例情况:可以采用点对点的

首页编辑器站点地图

Copyright © 2025 聚合阅读

License: CC BY-SA 4.0