【DeepSeek新开源】DeepSeek-OCR如何用“视觉压缩”革新长文本处理

作者:kakaZhui日期:2025/10/23

最近DeepSeek团队刚放出DeepSeek-OCR项目,不再将其视为一个简单的OCR(光学字符识别)工具,而是将其作为一个开创性的实验平台,旨在探索和验证一个激进的理念:我们能否利用视觉模态作为一种超高效的文本信息压缩媒介? 即,将长篇的数字文本“渲染”成一张图像,再用一个强大的视觉语言模型(VLM)从这张图像中“读”出原文。

接下来我们一起看下DeepSeek-OCR从“视觉压缩”的核心哲学,到其创新的DeepEncoder架构和多分辨率支持,再到其庞大的数据工程和训练管线。

1. 引言:跳出文本的传统范式,用视觉为长上下文“降维”

DeepSeek提出了一个极具洞察力的观点:LLM处理长文本的计算瓶颈,源于其一维、离散的token表示。而人类视觉系统,能够以极高的并行度和效率,从一张二维图像中瞬间捕捉海量信息。

核心假设: 将一长串文本信息“渲染”到一张图像上,然后让VLM来“阅读”这张图,所需要的视觉Token数量,可能远远少于原始的文本Token数量

  • 例如: 一篇包含1000个单词(约1300个token)的文档,如果渲染成一张图片,一个高效的VLM可能只需要100个视觉token就能完整地理解其内容,从而实现超过10倍的上下文压缩。

DeepSeek-OCR正是为了验证这一“光学上下文压缩”(Optical Contexts Compression)思想而构建的一个**概念验证(proof-of-concept)模型。它以OCR任务为“试验场”,因为OCR天然地提供了一个压缩(文本->图像)解压(图像->文本)**的映射,并且其性能可以通过编辑距离等指标进行精确的量化评估。

2. DeepSeek-OCR核心架构:一个“感知-知识-压缩”的三段式编码器

2.1 整体架构:DeepEncoder + MoE解码器

DeepSeek-OCR采用了一个统一的端到端VLM架构,由一个新颖的DeepEncoder和一个高效的MoE解码器组成。

  • DeepEncoder (编码器):负责从输入图像中提取特征、进行分词,并压缩视觉表示。
  • DeepSeek-3B-MoE (解码器):一个拥有3B总参数、570M激活参数的混合专家模型。负责根据DeepEncoder输出的视觉token和用户提示,生成最终的文本结果。

在这里插入图片描述

2.2 DeepEncoder详解:SAM与CLIP的强强联合

为了实现高分辨率下的低激活内存和高压缩率,DeepEncoder巧妙地将两个强大的预训练视觉模型串联了起来,形成一个“感知-知识-压缩”的三段式流水线。

  1. 第一部分:视觉感知层 (Visual Perception)
    • 模型

【DeepSeek新开源】DeepSeek-OCR如何用“视觉压缩”革新长文本处理》 是转载文章,点击查看原文


相关推荐


想偷卷?但微信不支持md文档?这个软件助你!
前端AC2025/10/22

📝 Markdown 查看器 - 现代化的文档预览工具 一个基于 React 19 + TypeScript 构建的现代化 Markdown 文档查看器,支持实时预览、语法高亮、数学公式渲染等功能。 在微信或浏览器上打开此编辑器,上传你的md文档可以上课偷偷看自己写的博客哈哈,这个是我解决微信这个没有md预览的痛点,自己用ai搞了一个小工具出来,效果还不错,还有图片可以借助图床工具:图床 - 简单、快速、免费的图床把自己图片上传到这里,就不会导致路径问题了。 项目概述 项目背景 在日常开发


告别页面呆板!这5个DOM操作技巧让你的网站活起来
良山有风来2025/10/21

你是不是经常遇到这样的情况:精心设计的页面看起来很美,但用户操作起来却毫无反应?点击按钮没反馈,表单提交没提示,页面切换生硬得像在翻纸质书? 这就像给用户端上了一盘色香味俱全的菜,结果吃起来却发现是冷的。问题就出在——你还没有掌握DOM操作的真正精髓。 今天,我就带你彻底搞懂JavaScript DOM操作,从基础到实战,让你的网页真正“活”起来。读完这篇文章,你不仅能理解DOM的工作原理,还能掌握5个让用户体验飙升的实用技巧。 什么是DOM?它为什么如此重要? 简单来说,DOM就是连接HTML


JVM 调优黄金三步法:监控→分析→验证
老K的Java兵器库2025/10/19

JVM 调优黄金三步法:监控→分析→验证 (方法论 + 案例 + 压测验证,新手也能照抄) 关键词:JVM 调优、监控、分析、验证、压测、方法论、黄金三步 阅读时长:20 min 环境:CentOS 7 + OpenJDK 8u342 + SpringBoot 1.5 + JMeter 5 适合:1~5 年 Java 开发、生产调优无思路、面试「JVM 怎么调优」标准答案 一、0 基础速记:黄金三步一句话 步骤目标一句话监控发现瓶颈先知道「哪里慢」再动手分析定位根因用数据证


Windows下Jenkins服务未自动重启问题解决
一张假钞2025/10/18

个人博客地址:Windows下Jenkins服务未自动重启问题解决 | 一张假钞的真实世界 成功安装 Jenkins 服务后,有时开机后 Jenkins 服务未自动启动。查看 Jenkins 服务安装目录下的日志发现没有服务启动的日志,所以猜测是系统启动后 Jenkins 服务未调起。 通过按 Win + R,然后输入 services.msc 并按回车来打开服务管理工具。找到 Jenkins 服务,点击右键,查看“属性”,Jenkins 默认设置如下: 为了每次开机能自动启动 Jen


【ComfyUI】电商模特面部融合
Mr数据杨2025/10/16

今天给大家展示一个 适用于相同脸型商品图生成的ComfyUI工作流,该工作流可高效处理两张来源图像,经过面部对齐、区域裁剪、图像融合与生成过程,快速构建视觉一致性强、适用于电商场景的最终图像输出。整体流程融合了 FluxKontext 模型推理、面部区域对齐处理、条件控制生成以及结果拼接输出等关键模块,极大提升图像一致性与真实感,适用于商品营销图、模特换穿搭图、广告图生成等多种需求场景。 文章目录 工作流介绍核心模型Node节点 工作流程应用场景开发与应用 工作流介绍 本工


ELK运维之路(Logstash7&Kibana接入ES集群-7.17.24)
会飞的小蛮猪2025/10/15

书接前文,本章介绍Logstash和Kibana组件的部署,测试环境哦别干生产,如有帮助到您请给个免费的赞呗! 1.Logstash 1.1 Docker-compose 配置片段 root@ubuntu2204test99:~/elkf# vi docker-compose.yml logstash: image: logstash:7.17.24 container_name: logstash-7.17.24 restart: always en


智能合约在分布式密钥管理系统中的应用
安当加密2025/10/14

非常好的问题!下面我将用通俗易懂 + 技术准确的方式,为你详细解释: 一、什么是智能合约(Smart Contract)? 简单比喻: 智能合约 = 自动售货机 你投入硬币(输入条件);机器自动判断金额是否足够(逻辑判断);如果满足,自动掉出饮料(执行结果);全程无需店员介入,规则透明、自动执行。 技术定义: 智能合约是运行在区块链上的、可编程的、自动执行的协议代码。它: 以代码形式定义规则(如“只有A和B同时签名,才能使用密钥”);部署在区块链上,不可篡改;当预设条件满足时,自动执行(


触摸未来2025.10.12:图景之锚,在多模态记忆中寻找记忆的本质
可触的未来,发芽的智生2025/10/12

《图景之锚:在多模态记忆中寻找记忆的本质》   心理学与神经认知科学的研究如一道强光,照进了我混沌的实验思路。个体的记忆并非以语言形式储存,而是以图景、场面、动作、感官体验等多模态图式构成的——这个发现让我重新审视了整个记忆系统的理论基础。   ---   我开始理解,在我们为事物命名之前,个体拥有的是一种极其丰富而未被语言化的记忆场域。那个场域里充斥着光影的流动、温度的变迁、肌体的触感、情绪的波动。这些原始的记忆素材如同未加工的宝石,散落在意识的各个角落。   命名所做的,


苦练Python第63天:零基础玩转TOML配置读写,tomllib模块实战
倔强青铜三 VIP.1 初学乍练2025/10/11

前言 大家好,我是倔强青铜三。欢迎关注我,微信公众号:倔强青铜三。点赞、收藏、关注,一键三连! 欢迎来到苦练Python第63天! 今天继续啃下另一只“配置文件界的瑞士军刀”——TOML。 TOML是Tom’s Obvious, Minimal Language的简写。 Python 3.11 起,标准库自带 tomllib,开箱即用,零依赖! 一、TOML 是什么?能做什么? 和 JSON、YAML 并列的三大配置文件格式之一。 像 .ini 的升级豪华版:支持嵌套表、数组、日期时间、


1688 店铺商品全量采集与智能分析:从接口调用到供应链数据挖掘
一人の梅雨2025/10/9

一、技术定位与商业价值重构 1688 店铺商品接口(alibaba.item.list.get)作为获取店铺全量商品数据的核心入口,其价值远不止于简单的数据采集。与常规实现不同,本文方案聚焦B 端供应链数据的深度挖掘,通过商品结构化解析、价格策略分析、供应链能力评估三大维度,解决批发商关注的 "店铺品类布局"" 批量采购议价空间 ""供应商履约能力" 等核心问题,构建从数据采集到商业决策的完整技术链路。 区别于网络上常见的基础调用示例,本方案实现三大突破: 支持全量商品智能分页(突破单页限

首页编辑器站点地图

Copyright © 2025 聚合阅读

License: CC BY-SA 4.0