不愧是国内首个视觉编程模型，一张草稿图直接做了一个电子版City Walk

“City Walk”太费腿？那就让AI替你走一遍。

本文记录我如何用 Doubao-Seed-Code —— 国内首个具备原生视觉理解能力的AI编程模型，把一张手绘草图变成一个可交互的“电子城市漫步”应用。全程零代码基础，仅靠对话完成编程。

一.背景

“City Walk”——城市漫步，曾是年轻人逃离内卷的诗意解药：绿灯直行、红灯拐弯、路口掷骰子、遇见小店就进去坐坐，拍一百张照片，只为记录一条无人知晓的小巷。它不为打卡，只为“瞎溜达”。

但对我这种能坐绝不站、能躺绝不坐的懒人来说：

“走1公里，拍100张照，找3家店，最后发现没带充电宝。”

于是，我灵机一动：为什么不做一个“电子版City Walk”？如果有合适的，我在出门。

不用出门，打开网页，点击“开始漫步”，AI就带着我在城市里“瞎溜达”——绿灯直行、红灯拐弯、路口掷骰子，还能推荐路边的宝藏咖啡馆和涂鸦墙。

左侧为草稿图，右侧为使用 Doubao-Seed-Code 编程的效果。

二.相关介绍

工具选择：为什么是 Doubao-Seed-Code？

Doubao-Seed-Code 是一款专为 "Agentic Coding"任务深度优化的全新代码模型。它为真实的、复杂的编程任务而设计，在长上下文理解、任务规划、代码生成与调试方面均有卓越表现。

我试过多个主流AI编程模型（Claude 3.5、GPT-4o、GLM-4、DeepSeek-Coder），但它们要么：

❌ 无法理解图片（只能靠文字描述）
❌ 生成的界面五花八门，完全偏离草图
❌ 需要手动拆解“地图+随机路线+骰子+POI推荐”等复杂逻辑，效率极低

直到我发现了 火山引擎的 Doubao-Seed-Code。

✅ 它的三大杀手锏，直接击中我的痛点：

能力	普通模型	Doubao-Seed-Code
视觉理解	❌ 依赖OCR/文本转述（信息丢失）	✅ 原生VLM，直接看图写代码，0损失
长上下文	通常≤32K	✅ 256K，整项目代码+图片+需求全塞进去
成本	业内均价高	✅ 综合成本低62.7%，首月9.9元起

关键点： 它不是“能看图”，而是真正理解图中的布局、交互、语义关系——比如我草图里左下角的“骰子”和“向右喝咖啡”，它知道那是两个独立的交互模块，不是随便画的装饰。

三.全程“对话式开发”

前置准备

虽然使用的是Doubao-Seed-Code这个国内首个具备视觉理解能力的编程模型，但是这在他的人家官方公司，我们没办法直接用，所以可以通过 Claude Code去调用 Doubao-Seed-Code ，另外，在火山方舟平台也是提供API调用。

仅需 5s 在Claude Code 丝滑接入 Doubao-Seed-Code

在启动 Claude Code 前输入环境变量（以Windows为例）：

1setx ANTHROPIC_AUTH_TOKEN ARK_API_KEY
2setx ANTHROPIC_BASE_URL https://ark.cn-beijing.volces.com/api/coding
3setx ANTHROPIC_MODEL doubao-seed-code-preview-latest
4

📌注意：换为你自己的，来这里获取 -> console.volcengine.com/ark/region:…

📚如果有不会的地方可以看官方教程来配置：www.volcengine.com/docs/82379/…

真消费才敢说真话。

使用指令导航到指定目录，并启动claude:

1C:\Users\18432> D:
2D:> cd 目标
3D:\目标>claude
4

可以看到如图所示成功启动并使用Doubao-Seed-Code模型，兼容了原本的 Anthropic API，对于使用Claude Code的开发者，几乎零成本将 API 切换到 Doubao-Seed-Code，完全无缝，像换了“引擎”，但方向盘还是原来的。

🖼️ 图片理解测评

听说 Doubao-Seed-Code 是国内首个具备视觉理解能力的编程模型，我直接把我本次的草稿图直接给了他，看他理解的怎么样？

草稿图原图（其中有多个地名为干扰选项）

💡 不是“猜”出来的，是“看懂”了。

VLM训练需要专业团队和数据积累，有一定技术壁垒，doubao 系列模型一直以来视觉理解能力非常强，Seed-Code 模型保持了这个优势，在国内，要么模型不具备视觉理解能力，要么需要依赖MCP实现，将图片转化成语义描述供模型理解，过程中消耗token，效果远不及原生VLM能力，项目开发，只有真正的理解，才能大幅提升前端开发效率。

下面是端到端模型训练的下游指标评测结果：

📌 实战 AI 开发

直接把下面的提示词扔给他

1请帮我设计并生成一个“电子版City Walk”项目方案。规则如下：
21.项目简介：
3电子版City Walk基于“瞎溜达”理念，模拟城市漫无目的漫步。
4遵循“绿灯直行，红灯拐弯，遇路口随机选择方向”的逻辑生成步行路线。
5路线生成结合兴趣点推荐，重点推介小众有趣的咖啡馆、小店、街头艺术等。
6用户可以线上“电子走一遍”这条路线，查看地图和沿途店铺景点卡片。
7支持路线保存、复盘和分享。
82.主要功能需求：
9地图展示与交互（基于高德基础地图API，直接使用我的API： fdda8428fc94）：显示地图、起点、动态路线与兴趣点标记。
10起点选取与定位功能：自动定位或手动选择起点城市和具体位置。
11路线生成规则：结合步行路径规划API和随机决策算法，实现仿真“红绿灯”及“猜拳”路口选择。
12沿途兴趣点推荐模块，智能筛查高评分非连锁商店和特色地点。
13电子City Walk模拟导航，用户可点击“下一步”体验虚拟行走过程。
14路线生成后自动生成图文路线作品，支持用户收藏和分享。
15后续拓展包括路线评价、个性化推荐和自然语言描述。
163.技术架构
17采用前后端分离的方式去写代码，后端用Python代码，地图展示与交互（基于高德基础地图API，直接使用我的API： fdda8428fc9485f355b24b1c76f6f147）
184.草稿图如附件（（仅为例子，全部具体实现））
19背景是当前的位置，会根据高德自动找到前方路口，选择路线会出现的兴趣点推荐
20左下角展示（仅为例子，你具体实现）：
21本次随机的结果
22向右可以喝咖啡(咖啡的特色）
23向左可以吃烧烤（这家烧烤..…..网上的具体评价等）
24右下角展示
25一个随机展示筛子
26绿灯直行，红灯拐弯（筛子左右）
27

第一次生成的效果如下：

虽然没有具体使用高德，但是在这个的布局上和我的草稿没有什么区别。

迭代：多轮对话，越聊越准

为让效果更好，我们多尝试、跟模型多轮对话，效果好于一次性对话

接下来就是漫长的迭代~

第一次生成的版本，骰子是静态图片。我说：“让它能转起来，像真骰子一样。”

它立刻改成了CSS动画 + JS随机数控制。

我说：“咖啡馆的推荐文案太假了，要真实评价。”

它从网络抓取了真实用户对“北京胡同咖啡馆”的点评，自动生成了3条风格迥异的文案。

我说：“能不能加个‘暂停’按钮？”

它加了，还顺手做了个“进度条”和“已走距离”。

全程无代码干预，纯对话。

看看最终效果吧~

左侧为草稿图，右侧为使用 Doubao-Seed-Code 编程的效果。

下面是生成的README.md的文件，准确的识别了图片，以及分析图片所描述的功能等。

1 # 电子城市盲盒 - 随机城市漫步导航应用
2
3## 项目简介
4
5电子城市盲盒是一款创新的城市漫步导航应用，通过随机路线生成和交互式导航，让用户体验充满惊喜的城市探索之旅。用户只需选择起点，系统将随机生成一条充满未知的路线，并在旅途中提供实时导航、兴趣点推荐和随机事件（如红绿灯决策），使每次漫步都充满新鲜感。
6
7## 核心功能
8
9### 🎲 随机路线生成
10- 基于起点位置智能生成1-5公里的随机探索路线
11- 结合高德地图API实现真实道路导航
12- 支持路径随机化，每次生成不同的探索体验
13
14### 🚦 交互式决策系统
15- 基于骰子结果的红绿灯决策机制
16- 提供多种可能的行进方向选择
17- 增强游戏化体验和探索趣味性
18
19### 📍 智能兴趣点推荐
20- 沿途兴趣点自动发现和推荐
21- 支持多种POI类型（咖啡厅、书店、公园、艺术馆等）
22- 丰富用户探索体验和文化发现
23
24### 🧭 沉浸式导航体验
25- 实时地图显示和路线追踪
26- 步骤式导航指引和进度显示
27- 暂停/继续功能，灵活控制探索节奏
28
29### 📸 路线作品生成与分享
30- 一键保存完整路线信息和探索轨迹
31- 自定义路线标题和描述
32- 生成分享链接和二维码，分享您的探索故事
33
34## 技术架构
35
36### 前端
37- **框架** : React 18 + Vite
38- **地图集成** : 高德地图JavaScript API
39- **状态管理** : React Hooks
40- **样式方案** : styled-components
41- **UI组件** : 自定义React组件
42
43### 后端
44- **框架** : FastAPI
45- **地图服务** : 高德地图REST API
46- **业务逻辑** : 路线生成算法、红绿灯决策系统、POI搜索服务
47- **部署** : Uvicorn ASGI服务器
48
49## 快速开始
50
51### 前置条件
52- Python 3.8+
53- Node.js 16+
54- npm 8+
55
56### 安装与运行
57
58#### 1. 克隆项目
59```bash
60git clone [仓库地址]
61cd 电子城市盲盒

2. 配置环境变量

后端配置

在 backend/.env 文件中添加以下内容（可选）：

AMAP_KEY=your_amap_api_key

注意：项目已配置模拟模式，无需API Key也可运行基本功能

前端配置

在 frontend/public/index.html 中配置高德地图API：

1<script type="text/javascript" src="https://webapi.amap.com/maps?v=2.0&key=your_amap_key"></script>

3. 启动后端服务

1cd backend
2pip install -r requirements.txt
3python main.py

后端服务将运行在 http://localhost:8000

4. 启动前端服务

1cd ../frontend
2npm install
3npm run dev

前端服务将运行在 http://localhost:3000

使用指南

选择起点 : 在地图上点击选择您的出发位置
生成路线 : 点击"生成路线"按钮，系统将创建一条随机探索路线
开始漫步 : 查看路线详情，点击"开始漫步"进入导航模式
决策互动 : 遇到路口时，掷骰子决定行进方向
探索兴趣点 : 沿途发现感兴趣的地点，可暂停导航进行探索
完成旅程 : 到达终点后，查看完整的探索记录
保存路线作品 : 填写路线标题和描述，保存您的探索轨迹
分享探索故事 : 获取分享链接或扫描二维码，与朋友分享您的城市漫步体验

项目结构

电子城市盲盒/
├── backend/                  # 后端服务
│   ├── app/
│   │   ├── api/              # API路由
│   │   ├── services/         # 业务逻辑服务
│   │   └── config/           # 配置文件
│   ├── main.py              # 应用入口
│   └── requirements.txt     # 依赖列表
├── frontend/                 # 前端应用
│   ├── src/
│   │   ├── components/      # React组件
│   │   ├── services/        # API服务
│   │   ├── App.jsx          # 主应用组件
│   │   └── main.jsx         # 应用入口
│   ├── public/              # 静态资源
│   └── package.json         # 依赖配置
└── README.md                # 项目说明文档

特色功能

模拟模式 : 无需真实API Key也能体验完整功能
随机算法 : 基于真实道路的智能随机路线生成
游戏化设计 : 骰子决策机制增强探索趣味性
响应式UI : 适配不同屏幕尺寸的设备
实时交互 : 流畅的地图操作和导航体验

开发说明

后端开发

API文档: http://localhost:8000/docs
主要模块:
- RouteGenerator: 路线生成服务
- TrafficLightManager: 红绿灯决策服务
- POISearcher: 兴趣点搜索服务

前端开发

组件结构:
- MapComponent: 地图显示和交互
- ControlPanel: 控制面板和交互
- DiceComponent: 骰子组件
- NavigationComponent: 导航指引
- POICard: 兴趣点卡片
- RouteWorkComponent: 路线作品生成和分享

许可证

MIT License

致谢

高德地图API提供地图数据支持
React、FastAPI等开源技术栈
所有为项目贡献代码的开发者

让城市探索充满惊喜，开启您的随机漫步之旅！ 🌆🎲✨


项目架构如下：

![](https://p3-xtjj-sign.byteimg.com/tos-cn-i-73owjymdk6/63e79a7970ad42d2ae6dcdcfd697ae7f~tplv-73owjymdk6-jj-mark-v1:0:0:0:0:5o6Y6YeR5oqA5pyv56S-5Yy6IEAgTHVjaWFuYWlC:q75.awebp?rk3s=f64ab15b&x-expires=1764600460&x-signature=QosV1O7xwo1%2FAAHSHwDVYExFDZ0%3D)

## 四.对比：为什么它赢了？

除了Doubao-Seed-Code，我用2个国外的模型进行了对比，做了相同任务：。

Doubao-Seed-Code生成的效果：

![](https://p3-xtjj-sign.byteimg.com/tos-cn-i-73owjymdk6/a00bbb8685df4390aa3ac580d2b489d8~tplv-73owjymdk6-jj-mark-v1:0:0:0:0:5o6Y6YeR5oqA5pyv56S-5Yy6IEAgTHVjaWFuYWlC:q75.awebp?rk3s=f64ab15b&x-expires=1764600460&x-signature=e8%2F1EW%2F1c82qM0%2FRUa%2Fj3FqsM24%3D)

**模型一：**

仅简单的界面，其余功能都未实现。

![](https://p3-xtjj-sign.byteimg.com/tos-cn-i-73owjymdk6/799913ba4bbb4806b44aa907344c7f4b~tplv-73owjymdk6-jj-mark-v1:0:0:0:0:5o6Y6YeR5oqA5pyv56S-5Yy6IEAgTHVjaWFuYWlC:q75.awebp?rk3s=f64ab15b&x-expires=1764600460&x-signature=Oh%2FH248WRqJ3SZyp4JJQDfadeZ8%3D)

**模型二：**

无法理解图片，仅生成了记得的前端，用的AI常用的紫色配色。

![](https://p3-xtjj-sign.byteimg.com/tos-cn-i-73owjymdk6/a179b63594294e14921c1ed5a5d8e099~tplv-73owjymdk6-jj-mark-v1:0:0:0:0:5o6Y6YeR5oqA5pyv56S-5Yy6IEAgTHVjaWFuYWlC:q75.awebp?rk3s=f64ab15b&x-expires=1764600460&x-signature=QyZ%2FBj01jYQlCl7LLU%2Bp28t5ovI%3D)

对比表如下：

| 模型               | 是否理解图片       | 是否生成完整项目            | 是否还原布局     | 成本（估算）         |
| ---------------- | ------------ | ------------------- | ---------- | -------------- |
| Doubao-Seed-Code | ✅ 原生VLM，精准还原 | ✅ 前后端齐全，功能完整        | ✅ 100%还原草图 | ¥0.34（0-32K区间） |
| 模型一              | ❌ 仅靠文字描述     | ⚠️ 只生成前端UI，无后端逻辑    | ❌ 配色乱、布局错  | ¥4.05          |
| 模型二              | ❌ 无视图片       | ❌ 生成“标准模板”，紫色主题，无交互 | ❌ 完全跑偏     | ¥2.10          |

> 📌 **Doubao-Seed-Code的输入价格：1.20元/百万Token，输出8.00元/百万Token**
> 
> 在相同任务下，成本**不到Claude的1/10**，且效果碾压。

## **五.Doubao-Seed-Code 超高性价比**

火山方舟推出了 **Coding Plan 订阅制**：

| 套餐       | 首月价格  | 续费价格   | 适合人群          |
| -------- | ----- | ------ | ------------- |
| **Lite** | ¥9.9  | ¥40/月  | 个人开发者、学生、轻量项目 |
| **Pro**  | ¥49.9 | ¥200/月 | 团队、复杂项目、高频调用  |

> ✅ **支持Claude Code、Cursor、Cline、Codex** **CLI**等主流工具
> 
> ✅ 全量透明缓存，实际成本再降80%
> 
> ✅ **火山方舟平台提供** **API** **调用中心**：[console.volcengine.com/ark/region:…](https://link.juejin.cn?target=https%3A%2F%2Fconsole.volcengine.com%2Fark%2Fregion%3Aark%2Bcn-beijing%2Fmodel%2Fdetail%3FId%3Ddoubao-seed-code "https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-seed-code")

![](https://p3-xtjj-sign.byteimg.com/tos-cn-i-73owjymdk6/2fd7b6aa41764cc09242bc277fdd42d8~tplv-73owjymdk6-jj-mark-v1:0:0:0:0:5o6Y6YeR5oqA5pyv56S-5Yy6IEAgTHVjaWFuYWlC:q75.awebp?rk3s=f64ab15b&x-expires=1764600460&x-signature=fKTGkk25vA2S48wmR50A%2FhI9Eow%3D)

**我用Lite套餐，首月9.9元，完成了这个项目，还顺手写了3个小程序。**

> 举例来说，创建一个美观的交互式 Python 学习网站，相同tokens量下（0-32k区间），Claude Sonnet 4.5成本约4.05元，GLM-4.6约0.77元，而Doubao-Seed-Code仅约0.34元。

---

另外，在**Terminal** **Bench、SWE-Bench-Verified-Openhands、Multi-SWE-Bench-Flash-Openhands**等主流测评集中表现出色，仅次于Sonnet4.5，碾压国内模型

![](https://p3-xtjj-sign.byteimg.com/tos-cn-i-73owjymdk6/94dd5774e53740a788fc9caa45fe4d59~tplv-73owjymdk6-jj-mark-v1:0:0:0:0:5o6Y6YeR5oqA5pyv56S-5Yy6IEAgTHVjaWFuYWlC:q75.awebp?rk3s=f64ab15b&x-expires=1764600460&x-signature=pUQuep8KNZndAp%2BLmiBTwZM5V4E%3D)

## 六.总结：它不是工具，是“懂你”的伙伴

Doubao-Seed-Code 的革命性，不在于它“能写代码”，而在于它终于**看懂了人类的意图**。

过去，我们写需求文档，像给外星人写说明书：

> “请在页面左上角放一个地图，右下角放一个按钮，点击后触发随机算法，返回3个兴趣点，用蓝色字体，字体大小16px，悬停有阴影……”

而今天，我们只需画一张草图，说一句：“帮我做出来。”

它知道：

* 哪里是按钮，哪里是地图；
* 哪里该有动画，哪里该有真实评价；
* 哪个“咖啡杯”不是装饰，而是故事的起点。

它不靠你“说清楚”，它靠你“画出来”。

这不是AI编程的进化，这是**人机协作** **范式** **的跃迁**。

> “以前是人教AI怎么干活，现在是AI看懂人想干嘛。” —— 这才是真正的“原生智能”。

#### 为什么这很重要？

1. **降低技术门槛**：设计师、产品经理、普通用户，都能直接“画出产品”。
2. **提升创作效率**：从“写5000字需求”到“画5分钟草图”，效率提升10倍。
3. **释放创造力**：不再被语法、框架、API文档束缚，专注“我想做什么”。
4. **重塑开发流程**：未来，产品经理画原型 → AI生成代码 → 测试上线，三步完成。

这不是未来，这是**现在正在发生的现实**。

我用9.9元，让AI替我走了一条从未走过的城市小巷。 我没有出门，但我“走”过了整座城。

**当AI能读懂你的草图，它就不再是工具，而是你思维的延伸。**

> 🌆 **真正的City Walk，不是用脚走，而是用心看。** 而现在，AI，替你看了。

---

> 《[不愧是国内首个视觉编程模型，一张草稿图直接做了一个电子版City Walk](https://xplanc.online/1d7daa2798c27cfecf017a8f37c4555381f504576f0406053ff2f9e9b0ada0a9)》 是转载文章，[点击查看原文](https://juejin.cn/post/7576086557716824115)。