B站多模态精细画质分析模型在 ICCV2025 大赛获得佳绩

作者:哔哩哔哩技术日期:2025/10/17

前言

图片

暑期,B站多媒体实验室带队参与了 ICCV MIPI (Mobile Intelligent Photography and Imaging) Workshop 的细粒度图像质量定位 (Detailed Image Quality Assessment Track) 国际挑战赛,提出创新的多模态训练策略,将综合指标提升了13.5%,最终获得了第二名的好成绩。本次参赛经历阶段性地验证了实验室在视频质量评价 (Video Quality Assessment,后文统称为 VQA) ,MLLM (Multimodal Large Language Model,多模态大语言模型) 以及强化学习上的成果积累,因此借本文的机会总结下比赛以及在以上领域一路以来的积累过程。

图片

图1 B站带队联合上海交大提出多模态画质评价与诊断新方法

背景

图片

图2 视频质量评价在B站视频生产链路中可以发挥的作用

自从2023年秋上线 BILIVQA 2.0 视频质量评价算法以来,我们实验室一直致力于提升视频质量评价和视频图像处理之间的协同效应,期望能够借助 VQA 实现“视频画质预分析-自动化视频图像处理-自动化结果验收”的全链路系统。

但在业务实际使用过程中我们发现,视频画质失真类型多种多样,同时失真位置也不尽相同,难以通过单一 MOS (Mean Opinion Score,平均意见分数)来描述并指导视频图像处理。此外,我们的视频图像处理工具链中的模型算法对于不同失真类型的处理效果各有侧重,如果能够给出更细粒度的视频画质诊断结果,应用工具链时便能达到事半功倍的效果。因此,从去年开始,我们实验室就开始着手研究通过 MLLM 的强大理解能力来对视频画面进行语义 (high-level) 和画质 (low-level) 层面的细粒度分析。

图片

图3 主流开源多模态大模型的图像动态分辨率处理方案

目前开源多模态大模型中的先进 (state of the art,后文统称为 SOTA) 且社区较为活跃的方案主要为 Qwen-VL 和 InternVL 系列,这两者在输入图像尺寸方面都有着非常灵活的调节机制,其中 Qwen-VL 更是对于视频数据专门设计了时域位置编码,天然契合视频画质分析任务。遗憾的是,Qwen-VL 和 InternVL 的技术报告中并没有体现在预训练阶段加入足够多的画质评估相关数据,因此我们需要手动收集这方面的数据对预训练模型做知识迁移。此外,开源的画质评估数据集基本都只有 MOS 标注,缺乏更细粒度的失真类型、失真细节等标注,如果手工标注需要耗费大量人力成本,靠模型生成又缺乏准确性。如果能够有一种无监督 or 弱监督的训练方法能够让模型拟合 MOS 的同时让其涌现生成推理过程 (chain of thought,后文统称为 CoT) 从而描述细节的能力,将非常有利于我们研发细粒度画质评估模型,因此我们注意到了当时横空出世的 GRPO 算法。

图片

图4 GRPO 与 PPO 的区别

GRPO (Group Relative Policy Optimization,组相对策略优化)作为 PPO (Proximal Policy Optimization,近端策略优化)的简化版本,是由 Deepseek 提出的一种资源有限情况下的强化学习策略。通过对一个 prompt 采取较高的温度超参数来进行采样控制,获得一组 G 个不同的回答,同时利用奖励函数 (reward function) 替代奖励模型 (Reward Model) 计算奖励值(因为通常在数学和编程领域,有一套固定规则可以评价回答的好坏),进一步计算每个回答的相对优势 (Advance),从而驱动策略模型 (Policy Model,又称 Actor Model,这里指 LLM/MLLM) 的更新。相较于 PPO,GRPO 直接省略了价值模型 (Critic Model,预测状态价值参与优势的计算)和奖励模型,代价是动作 (Action) 和奖励 (Reward) 的不一致性可能会导致策略模型的优化过程过于稀疏,因为 GRPO 中的奖励是序列级别(根据模型完整输出确定奖励)而动作是 token 级别(模型预测的每一个 token 都依赖于上一个 token)。然而目前大部分语义理解任务的奖励都具有稀疏性,因此 GRPO 这样的极简化版本的 PPO 算法依旧可以发挥作用,进一步激发 LLM/MLLM 的能力。

今年2月份,业界陆续出现了一些将 GRPO 算法应用于 MLLM 的项目,彼时恰逢我们的 SDR2HDR 能力已基本覆盖动漫、纪录片等品类,业务方提出了自动化模型选择的需求,因此我们就以该项目作为出发点,实践 MLLM+GRPO 在视频画质及内容分析上的落地能力。本项目的核心需求是从内容相关的画面颜色与亮度的角度出发对视频进行分析,例如根据动漫视频多个镜头中人物脸部与周围环境的亮度差去判断整个视频的动态范围等级,最终选择合适的 SDR2HDR 模型进行生产。起初我们希望借助 GRPO 的特性赋予 MLLM 预测 CoT 的能力,从而能够详细描述视频画质内容细节,但在多次实验后发现对于小参数量模型(<=7b),虽然能够在 GRPO 过程中涌现生成较为合理的推理过程的能力,但是对可量化指标(例如终端模型选择准确率)的优化起到了一定程度的反作用。

因此最终我们还是从提升准确率的角度出发,设计并调优了一套 SFT+GRPO 的训练 pipeline,通过 SFT 将预训练模型能力快速迁移至业务数据 domain,之后借助 GRPO 进一步提升模型预测准确率,并通过取消 KL散度、不预测 CoT 等技巧达到了最优表现。这套训练方案相较于单独进行 SFT 或者 GRPO,在同等训练长度下,终端模型选择准确率提升在3个百分点左右,至此我们初步验证了 GRPO 对于 MLLM 在视频画质内容分析这个垂类应用上的有效性。

比赛介绍

图片

图5 ICCV MIPI Workshop

今年我们注意到了 ICCV MIPI 举办的三个赛题,其中细粒度图像质量定位赛道综合考验了 MLLM 在画面内容理解、MOS 预测、失真类型预测以及失真位置定位上的能力,基本涵盖了细粒度视频画质诊断中的所有内容,能够以此为基础构建算法原型并服务于后续的业务能力验证。

由于比赛已于5月份启动,8月初截止,而我们能够腾出人力的时间点已经来到了7月,留给我们的时间只有短短1个月,因此我们选择以已经验证过有效的 SFT+GRPO 方案为基础,结合赛题数据的特性提出“数据压缩+困难样本挖掘”的技术路径,短时间内快速提升 MLLM 在 benchmark 上的表现。

数据压缩SFT

比赛开放的训练集拥有1万多条包含 MOS 标注的图像元数据,经过主办方人工标注失真类型和位置,并通过 GPT 生成了语义内容、失真细节等详细描述,最后通过 GPT 进一步生成3大类9小类共55万条数据(按 prompt 计)。三大类为描述、定位、感知,其中描述任务需要给出图片语义内容、所有存在的失真类型及位置以及整体 MOS,定位任务可以视为描述任务的子集只需要给出失真类型及位置,而感知任务以单选题的形式回答有关图片内容和画质的问题。比赛共分为6大指标,其中描述任务占3个,定位任务占2个,感知任务占1个。

经过初步测算,Qwen2.5-VL 7b 模型在8卡 L20 上跑完55万条数据的 SFT 训练可能需要近一周时间,时间成本和试错成本难以接受,因此我们采用了数据压缩的手段,将子类数据中“单个图像,多个问题”的部分整合成一条 prompt。整合之后,55万条数据骤降为11万条左右,实测能将原本一周左右的训练时间减少至两天,同时性能基本没有受到影响。

SFT 阶段在我们的训练 pipeline 中起到的作用主要有两点:1.将预训练模型能力快速迁移至垂类数据的 domain,为后续 GRPO 的训练创造冷启动条件;2.配合数据压缩,尽量抑制模型的过拟合现象,为后续 GRPO 阶段预留搜索空间。SFT阶段,Qwen2.5-VL 7b 模型的全参数都参与训练。

困难样本挖掘GRPO

图片

图6 GRPO目标函数

不难理解 GRPO 算法核心是依赖于策略模型 (MLLM) 本身的输出多样性,一旦策略模型随着训练逐渐收敛到较为集中的输出分布,G 个回答的方差变小甚至趋近于0,同时相对优势也会趋近于0,此时策略模型就没有足够的“探索”能力去找到更好的优化路径,就会造成所谓的“熵坍塌”。即使我们在 SFT 阶段通过一些手段尽量避免 MLLM 的熵坍塌现象,但相较于预训练模型,SFT 之后的模型(后文统称为 SFT 模型)不可避免地会有这样的问题。

因此我们提出了困难样本挖掘策略,通过 SFT 模型在训练集上进行一轮推理,筛选出其中“难度适中”(因为模型在 G 个回答全对 or 全错的样本上都无法进行学习,这也是 GRPO 算法局限性)的样本提供给后续 GRPO 阶段的训练。对于描述和定位任务类型的样本,我们通过设置合适的奖励阈值区间进行筛选;而对于感知任务类型样本,由于数据本身属于单选题,其奖励非0即1,因此我们依旧利用数据压缩策略将针对同个图片的问题回答得不全对的 prompt 整合成一条 prompt,并改造奖励函数根据答对问题数量给予奖励,避免 SFT 模型出现熵坍塌。

GRPO 阶段,我们冻结了 Qwen2.5-VL 7b 的 Vision Encoder (视觉编码器)参数,放开了 LLM 参数。

图片

图7 我们的GRPO训练框架

比赛总结

通过上述方案,我们在 dev榜登顶,并在最终的 final榜中获得了第二名的成绩。由于参赛时间紧迫,我们只做完了 SFT+GRPO 联合优化这套方案,尽可能挖掘了 Qwen2.5-VL 7b 在赛题数据上的潜力,而没有时间去尝试迁移到诸如 InternVL3 等别的 MLLM 基座模型,这可能也是我们与第一名 (InternVL3 方案)的主要差距所在。按照 dev榜的测算,我们的数据压缩SFT模型总得分相较于基线(官方放出的 baseline,Qwen2-VL 7b SFT 模型)提升了0.22分,而通过困难样本挖掘 GRPO 进一步提升了0.13分,最终达到了2.86分(2.51->2.73->2.86)。

我们利用参赛模型在比赛的 dev榜测试集上做了一些可视化,如下图所示:

图片

图8 参赛模型的部分结果可视化

首先模型认为整张图片的质量属于“差”的水平,并对图片内容进行了简单描述:这张图片描绘了一幅宁静的风景,前景是高大、无叶的树木,背景是茂密的绿叶,远处是薄雾弥漫的天空和山脉。之后,模型给出了图片中存在的三种失真类型,分别是绿框代表的“边缘锯齿”(描述未在图中显示),深蓝框代表的“欠曝光”,以及黄框(整张图片)代表的“低清晰度”;且模型认为影响图片最严重的因素是“低清晰度”,在输出中会特别强调。我们在可视化中加入了 “KEY” 的标识代表关键失真。

展望未来

图片

图9 智能视频处理系统

通过这次比赛,我们基本验证了 SFT+GRPO 联合优化策略在细粒度视频画质内容分析上带来的显著提升,同时也孵化了一个可用的原型模型,后续将基于此模型搭建“内容与失真分析-视频图像处理-优化效果评估”的全链路系统,并最终为 B站画质相关业务赋能。这里简单介绍下我们对于智能视频处理系统的规划,主要分为三个步骤,其中“内容与失真分析”及“优化效果评估”均交由 MLLM 处理,只是侧重点略有不同:前者侧重于对自然 (in-the-wild) 视频的评估,依靠我们目前的模型能力基本可以 cover;而后者更侧重于对处理(经由我们的画质模型工具链)后视频的评估,可能还需要进一步收集数据迭代优化。而对于中间环节“视频图像处理”,目前的设计还是根据前置步骤的结果,基于规则的模式去选择画质模型工具链中的模型进行处理,但在未来可能会由经过“模型选择-画质反馈”数据训练后的 MLLM 接管。我们始终相信,只要经过合理的设计和精心的打磨,LLM/MLLM 在 AGI 尚未实现的今天,已经可以为企业和个人在提效方面做出巨大的贡献。

哔哩哔哩多媒体实验室(bilibili mlab)是一支技术驱动的年轻队伍,具备完善的多媒体技术能力,以极致卓越的多媒体体验为目标,通过对多模态视频内容分析、视频图像分析与处理、画质评价、自研视频编码器、高效转码策略等技术的持续打磨和算法创新,提出了诸多高质量的多媒体解决方案,从系统尺度提升了整个多媒体系统的性能和效率。

-End-

作者丨bilibili & SJTU


B站多模态精细画质分析模型在 ICCV2025 大赛获得佳绩》 是转载文章,点击查看原文


相关推荐


【软件测试】性能测试工具 JMeter
清风~徐~来2025/10/16

性能测试工具 JMeter 一. JMeter 下载与环境配置二. JMeter 介绍1. JMeter 基本使用2. JMeter 元件作用域和执行顺序3. JMeter 重点组件(1). 线程组(2). HTTP 请求(3). 查看结果树(4). HTTP 请求默认值(5). HTTP 信息头管理器(6). JSON 提取器(7). 用户定义的变量(8). JSON 断言(9). 同步定时器(10). 事务控制器(11). CSV 数据文件设置(12). HTTP Cookie 管理器


Python 的内置函数 bytes
IMPYLH2025/10/14

Python 内建函数列表 > Python 的内置函数 bytes class bytes(x=b''): ''' 创建 bytes :param x: 要转换的变量 :return: x 转换为 bytes 后的值 ''' Python 的内置函数 bytes 用于创建不可变的字节序列对象。它是 Python 中处理二进制数据的基本类型之一,与 str 类型类似但专门用于表示字节数据而非文本。 bytes 函数有三种主要创建方式: 通过指定


电视盒子助手开心电视助手 v8.0 删除电视内置软件 电视远程控制ADB去除电视广告
2501_929382652025/10/13

电视盒子助手开心电视助手 v8.0 删除电视内置软件 电视远程控制ADB去除电视广告                                       “开心电视助手V8.0最新版”是一款功能强大的安卓电视/电视盒子管理软件,通常运行在Windows电脑上。它通过局域网(Wi-Fi)或USB数据线连接到您的电视或盒子,实现一系列高级管理、调试和控制功能。 它尤其受到开发者、电视发烧友和喜欢折腾智能电视/盒子的用户的欢迎。支持安卓设备的电视 盒子 安卓手机 安卓所有设备 下载地


C# 中 Excel 工作表打印前页面边距的设置方法
缺点内向2025/10/12

C# 中 Excel 工作表打印前页面边距的设置方法 在日常的业务报表生成与文档打印场景中,Excel无疑是不可或缺的工具。然而,当我们需要批量打印或自动化生成Excel报表时,一个常见且令人头疼的问题浮现:如何确保所有打印输出的页面边距一致,避免手动逐一调整的繁琐与低效呢? 本文将探讨在C#环境中,如何通过编程方式精确控制Excel工作表的打印页面边距。在这里,我们将借助第三方库——Spire.XLS for .NET,为您提供一个高效、自动化且易于实现的解决方案,让您的Excel打印设置工作


FunASR 前端语音识别代码解析
Cosolar2025/10/10

这是基于Web技术的FunASR( 阿里巴巴达摩院 开源语音识别项目) 前端实现方案,支持麦克风实时录音识别与本地音频文件上传识别两大核心场景。整体功能围绕WebSocket通信、音频数据处理、语音识别结果解析三大关键环节展开,以下从代码结构、核心模块及关键逻辑三方面进行详细剖析。 代码:gitee.com/towao/FunAS… 一、代码整体结构 代码采用原生JavaScript编写,无框架依赖,整体架构清晰,主要划分为初始化配置、UI交互 控制 、音频 数据 处理、WebSocket通信、


Python私教FastAPI+React构建Web应用03 FARM技术栈介绍
Python私教2025/10/9

写在前面 作者:Python私教-张老师 时间:2025年10月07日 出处:电子书《Build Web Applications with FastAPI, React, and MongoDB》 翻译:英文是手抄的,可能会有错误,大家看到了请谅解一下。中文是使用有道词典翻译的。 改进:其中有些地方为了适配国内的阅读习惯以及录播课程,做了一些优化处理,可能会和原书不一样的地方。 简介:本篇文章主要介绍FARM技术栈,分别讲解FastAPI,React和MongoDB的优势以及组合后


“成章”写作助手开源:中秋赏不成月,那就开源一个 AI 实战项目吧
飞哥数智谈2025/10/7

前一阵的实战系列分享中,我们一块实现了一个 AI 写作助手 —— 成章。 当时就打算开源出来,方便感兴趣的同学学习、二开,但一直被各种事情打断,拖到了现在。 今天,赶上中秋节,但阴天没法赏月,索性整理一下先发布出来,需要的自取哈! 简介 “成章”写作助手是一个专为写作者设计的现代化写作平台,实现了文章编写、AI 辅助写作、图片上传等功能,旨在提供高效、便捷的写作体验。 前端开源地址:gitee.com/FlyFive/che… 后端开源地址:gitee.com/FlyFive/che… 功能


草梅 Auth 1.9.0 发布验证码组件 | 2025 年第 40 周草梅周报
草梅友仁2025/10/6

本文在 草梅友仁的博客 发布和更新,并在多个平台同步发布。如有更新,以博客上的版本为准。您也可以通过文末的 原文链接 查看最新版本。 前言 欢迎来到草梅周报!这是一个由草梅友仁基于 AI 整理的周报,旨在为您提供最新的博客更新、GitHub 动态、个人动态和其他周刊文章推荐等内容。 本周依旧在开发 草梅 Auth 中。 你也可以直接访问官网地址:auth.cmyr.dev/ Demo 站:auth-demo.cmyr.dev/ 文档地址:auth-docs.cmyr.dev/ 本周 草梅


SwiftUI redraw 机制全景解读:从 @State 到 Diffing
unravel20252025/10/4

为什么 UIKit 程序员总问“我的状态去哪了?” 特性UIKitSwiftUI视图定义与生命周期视图为类(Class),生命周期明确,长期驻留内存视图为值类型(Struct),每次刷新生成新实例状态保存方式状态保存在视图对象内部Struct 销毁后,状态需由外部系统(如 ObservableObject、@State 等)托管 SwiftUI 提供了一堆 Property Wrapper 来“假装”状态还在视图里,核心就是 @State。 @State


Vue基础10题:答不上来的,简历别写"熟悉Vue"
小时前端2025/10/3

前言 上周面了个应届生,简历上写着"熟悉Vue框架,有多个项目经验"。我问他v-if和v-show的区别,他说"一个是显示隐藏,一个是条件渲染"。我追问"那什么场景用哪个",他卡壳了,这就是典型的‘背题党’。 这就是大部分人的现状:概念背得滚瓜烂熟,一问实战场景就露馅。 今天这10道Vue基础题,每道题我都会告诉你:面试官为什么问这个、标准答案怎么说、什么回答会让你直接出局。每题都配"速记公式",面试前一晚看这篇就够了。 1. 什么是Vue.js?Vue的核心特性和设计理念是什么? 速记公式:

首页编辑器站点地图

Copyright © 2025 聚合阅读

License: CC BY-SA 4.0