Image2Code 数据集总览
Diff-guided Image-to-Code Agent Loop -- 数据集调研与样本展示 (2026-06-21)
30+
追踪数据集
13
可公开访问
6
Grade A 可用
6M+
总样本量(估计)
6
任务大类
12
关联论文
推荐 v1 数据组合
| 角色 | 推荐数据集 | 数据来源 | 选择理由 |
|---|---|---|---|
| 主评测集(Web/UI) | Design2Code | 真实网页 | 最接近「截图 -> 前端代码」的真实任务,附带视觉保真度评测指标(NAACL 2025) |
| 主训练/冒烟数据源 | WebSight | LLM 合成 | 最大直接可用截图-代码对(270万条,CC-BY-4.0) |
| 大规模真实训练 | WebCode2M | 真实爬取 | 317万条真实网页,附带布局标注和质量分数(WWW 2025) |
| 可控渲染评测 | ChartMimic / Plot2Code | 论文真实图表 | 渲染器和指标更确定性,适合视觉反馈闭环(ICLR 2025) |
| 管线调试用 | pix2code / im2latex-100k | 合成/半合成 | 体量小、格式简单,适合调试 pipeline |
| 辅助 Judge 训练 | RICO + ChartQA/PlotQA | 真实截图 | 提供视觉-结构反馈信号,无需代码 target |
P0: 网页 / UI 截图转代码
WebSight
Grade A P0 训练 / 评测 LLM 合成
HuggingFace M4 团队发布的大规模合成数据集。用 LLM 生成网页创意描述,再生成 HTML/CSS(Tailwind 风格),最后渲染为截图。全流程合成,无真实网站。是当前最大的直接可用 image2code 训练源。
论文: Unlocking the conversion of Web Screenshots into HTML Code with the WebSight Dataset (arXiv:2403.09029, 2024.03)
使用者: 训练了 HuggingFaceM4/VLM_WebSight_finetuned 模型;Design2Code 评测中使用
使用者: 训练了 HuggingFaceM4/VLM_WebSight_finetuned 模型;Design2Code 评测中使用
真实样本展示(已下载 3 条)
样本 0 - Fashion Brand 页面(全合成)
样本 1 - Tailwind CSS 风格布局
样本 2 - 不同色彩方案
<!-- 样本 0 对应 HTML(Tailwind CSS) -->
<html>
<link href="https://cdn.jsdelivr.net/npm/tailwindcss@2.2.19/dist/tailwind.min.css" rel="stylesheet">
<body class="bg-gray-100">
<div class="flex flex-col items-center justify-center h-screen">
<h1 class="text-4xl font-bold text-center text-gray-800">Fashion Brand</h1>
<p class="mt-4 text-lg text-center text-gray-600">...</p>
...
</div>
</body>
</html>
| 字段 | 类型 | 说明 |
|---|---|---|
| image | PIL Image | 渲染后的网页截图 |
| text | String | 完整 HTML/CSS 源码(344-6310 字符) |
| llm_generated_idea | String | LLM 生成的网页创意描述 |
Design2Code
Grade A P0 评测基准 真实网页
SALT-NLP 发布的首个真实场景 image2code 评测基准。484 个来自 C4 验证集的真实网页,手工整理。测试多模态 LLM 能否将真实网页截图自动转为可运行的前端代码。附带多维度评测脚本。是当前项目最核心的 Web/UI 评测集。还发布了 Design2Code-HARD 难集。
论文: Design2Code: How Far Are We From Automating Front-End Engineering? (arXiv:2403.03163, NAACL 2025)
评测模型: GPT-4o, GPT-4V, Gemini Pro Vision, Claude 等前沿多模态模型
关键发现: 模型在「回忆视觉元素」和「生成正确布局」上仍有较大差距
评测模型: GPT-4o, GPT-4V, Gemini Pro Vision, Claude 等前沿多模态模型
关键发现: 模型在「回忆视觉元素」和「生成正确布局」上仍有较大差距
WebCode2M / Vision2UI
Grade A/B P0 大规模训练集 真实爬取
来自真实互联网的超大规模截图-代码对。用爬虫采集真实网页并截图,再经质量评分模型过滤掉美学缺陷或不完整的实例。附带 20 种语言标注、布局 bbox、token 数等丰富元数据。还有净化版
xcodemind/webcode2m_purified。
论文: WebCode2M: A Real-World Dataset with Layout for Code Generation from UI Designs (arXiv:2404.06369, WWW 2025)
提出模型: WebCoder(基于 ViT)
提出指标: TreeBLEU(衡量结构层级召回)
提出模型: WebCoder(基于 ViT)
提出指标: TreeBLEU(衡量结构层级召回)
Web2Code
Grade B P0 数据集 / 框架 混合(合成+增强)
MBZUAI 发布,NeurIPS 2024 Datasets & Benchmarks。混合 4 种数据来源:(1) GPT-3.5 合成新网页代码对 (2) 增强现有代码生成数据 (3) 合成文本 QA (4) GPT-4 增强 WebSRC QA。图片来自 WebSight、pix2code 和自生成。LLaVA 指令对话格式。
论文: Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs (arXiv:2406.20098, NeurIPS 2024 D&B)
训练模型: LLM360/CrystalChat-7B-Web2Code
参考数据源: WebSRC, WebSight, Pix2Code
训练模型: LLM360/CrystalChat-7B-Web2Code
参考数据源: WebSRC, WebSight, Pix2Code
pix2code
Grade B P0 经典数据集 / 基线 程序合成
2017 年的经典 GUI 转代码工作。通过程序化随机组合简单 UI 组件(按钮、文本框等),用 DSL 描述并渲染截图。数据全部合成,UI 风格简单老旧。正因体积小、渲染确定性高,非常适合管线调试。
论文: pix2code: Generating Code from a Graphical User Interface Screenshot (Beltramelli, 2017)
被引用: Web2Code 等后续工作将 pix2code 数据作为参考来源之一
被引用: Web2Code 等后续工作将 pix2code 数据作为参考来源之一
CREW: Figma-to-Code
Grade B P1 Agent 评测 真实设计 新发现
Metaphi Labs 2026 年发布的 Figma 设计到代码 agent 评测基准。来自 Figma Community 公开设计和企业授权设计,均由人工设计师创作。Agent 需通过 MCP 工具访问 Figma 文件,提取设计系统,生成 React 组件并部署。已评测 Claude Code、Codex、Gemini CLI。
基准: CREW: Enterprise Agent Benchmarks (Metaphi Labs, 2026)
评测模型: Claude Code (Opus 4.6), Codex (GPT-5.2), Gemini CLI (3.1 Pro),96 次运行
评测方式: 人工 ELO 对比 + VLM 视觉比较 + 技能验证器
评测模型: Claude Code (Opus 4.6), Codex (GPT-5.2), Gemini CLI (3.1 Pro),96 次运行
评测方式: 人工 ELO 对比 + VLM 视觉比较 + 技能验证器
WebUI-7K
Grade B P1 UI 表征学习 真实爬取 新发现
BigLab 发布,用爬虫采集真实网站的多设备截图。HF 版本因内容过滤比论文使用量少。可用于 UI 表征预训练和 web 语义理解。
论文: Learning Mobile User Interface Representation with Web Semantics (CHI 2023)
项目: uimodeling.github.io
项目: uimodeling.github.io
MMCode
Grade B P1 多模态编码评测 真实题目 新发现
首个多模态编码基准,评测 MLLM 在视觉丰富上下文中的算法问题求解能力。来自真实编程竞赛,需要模型理解图片中的数据结构、图表等视觉信息来生成正确代码。不是直接 image2code 但测试视觉理解+代码生成的联合能力。
论文: MMCode: Benchmarking Multimodal Large Language Models for Code Generation with Visually Rich Programming Problems (EMNLP 2024)
关键发现: 当前最优模型在需要视觉推理的编程题上仍表现困难
关键发现: 当前最优模型在需要视觉推理的编程题上仍表现困难
ScreenCoder / Screen-10K
Grade D P0 数据集 / 方法任务定义贴合但公开数据和许可证未确认,列入观察名单。
FLAME / Flame-React-Eval
Grade D P0 合成 / 评测 合成面向现代 React 代码生成。需确认数据和评测是否公开。
P0/P1: 图表 / 绘图转代码
ChartMimic
Grade A P0 评测基准 论文真实图表
ICLR 2025 收录。从真实科学论文中人工筛选图表,覆盖 18 种常规 + 4 种高级图表类型,细分 201 个子类。两种任务:Direct Mimic(精确复现)和 Customized Mimic(按指令修改)。已被 Qwen3-VL 等采用为多模态编码能力评测基准。
论文: ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation (arXiv:2406.09961, ICLR 2025)
评测模型(14 个): GPT-4V, Claude 3 Opus, Gemini Pro Vision, InternVL, Phi-3-vision, MiniCPM, DeepSeek-VL, LLaVA 系列, Idefics2, QwenVL
已被采用: Qwen3-VL 将其作为多模态编码评测基准之一;已集成进 VLMEvalKit
评测模型(14 个): GPT-4V, Claude 3 Opus, Gemini Pro Vision, InternVL, Phi-3-vision, MiniCPM, DeepSeek-VL, LLaVA 系列, Idefics2, QwenVL
已被采用: Qwen3-VL 将其作为多模态编码评测基准之一;已集成进 VLMEvalKit
真实样本展示(已下载 3 条)
样本 0 (3d_1) - 3D 图表
样本 1 (3d_2) - 3D 图表
样本 2 (3d_3) - 3D 图表
| 字段 | 类型 | 说明 |
|---|---|---|
| Task | String | 任务类型 (direct_600, customized_1800 等) |
| Instruction | String | 任务描述指令 |
| InputFigurePreview | Image bytes | 需模仿的源图表预览 |
| GroundTruthFigureCode | 路径 | Ground truth matplotlib 代码 |
Plot2Code
Grade B P0 评测基准 文档真实示例
腾讯 ARC 实验室发布。从 Matplotlib Gallery 和 Plotly 文档手工筛选 132 个高质量示例图,每个附带源代码和 GPT-4 总结的描述指令。三种评测模式:纯文本生成、纯图片生成、图文结合生成。
论文: Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots (arXiv:2405.07990, 2024.05)
评测模型(14 个): GPT-4V, Gemini Pro, Mini-Gemini 等开闭源模型
提出指标: code pass rate, text-match ratio, GPT-4V overall rating
关键发现: 多数 MLLM 在文本密集图表上表现不佳,严重依赖文本指令
评测模型(14 个): GPT-4V, Gemini Pro, Mini-Gemini 等开闭源模型
提出指标: code pass rate, text-match ratio, GPT-4V overall rating
关键发现: 多数 MLLM 在文本密集图表上表现不佳,严重依赖文本指令
ChartQA / PlotQA / FigureQA
Grade C P1 辅助(QA) 真实+合成混合不直接产出代码,但可用于训练视觉语义判别器。
P1: 公式 / 文档 / LaTeX
im2latex-100k
Grade A/B P1 训练 / 评测 论文真实公式
经典窄域 image-to-code 基准。从真实学术论文提取 LaTeX 公式,渲染为图片。渲染确定性极高,适合管线调试。
论文: What You Get Is What You See: A Visual Markup Decompiler (Deng et al., 2017)
真实样本展示(已下载 3 条)
样本 0
\alpha_{1}^{r}\gamma_{1} + \dots + \alpha_{N}^{r}\gamma_{N} = 0
样本 1
\Gamma(z+1) = \int_{0}^{\infty} dx \, x^{z} e^{-x}
样本 2
\frac{d}{ds} {\bf C}_{i} = \frac{1}{2} \epsilon_{ijk}...CROHME
Grade B/C P1 评测基准 真实手写手写域基准,测试噪声输入下的泛化能力。
Nougat / 科学 PDF 解析
Grade C P1 辅助 真实论文适合未来 PDF-to-code 扩展。
论文: Nougat: Neural Optical Understanding for Academic Documents (Blecher et al., 2023)
P1: 前端 Agent / 工作流评测基准
Interaction2Code
Grade B P1 评测基准 真实网页 新发现
首个系统性研究 MLLM 生成含交互功能网页的基准。超越静态 design-to-code,要求模型生成带动态交互的功能性 UI 代码。发现 4 类 MLLM 局限和 10 种失败类型。
论文: Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping (ASE 2025)
关键发现: MLLM 在生成交互元素 vs. 完整页面方面表现不佳,对「视觉上不明显的交互」理解困难
提出策略: Interactive Element Highlighting, Failure-aware Prompting 等 4 种增强策略
关键发现: MLLM 在生成交互元素 vs. 完整页面方面表现不佳,对「视觉上不明显的交互」理解困难
提出策略: Interactive Element Highlighting, Failure-aware Prompting 等 4 种增强策略
Vision2Web
Grade B/D P1 评测基准覆盖完整网站开发生命周期。需确认输入格式和公开状态。
FrontendBench / FullFront / WebGen-Bench
Grade C/D P1 评测基准适合通用前端能力和多步工作流评测,只有包含截图或视觉参考时才算直接 image2code。
P2: SVG / 矢量 / 图表即代码
SVG-Stack / SVG 图标语料
Grade B/C P2 训练集 真实 SVG适合代码即矢量制品任务。
IconShop
Grade C P2 训练 / 方法 合成SVG 代码生成风格和质量评估参考。
Mermaid / Graphviz 合成图表
Grade C P2 合成数据源 需自行合成代码可渲染且拓扑可符号检查。适合扩展视觉反馈循环到结构化图表。
P1: 辅助 UI 数据
RICO
Grade B/C P1 移动 UI 语料 真实 App提供完整 UI 视图层级树,支持结构感知验证器和伪代码生成。访问路径需手动确认。
论文: Rico: A Mobile App Dataset for Building Data-Driven Design Applications (Deka et al., UIST 2017)
论文-数据集关联总表
| 论文 | 会议/年份 | 创建/使用的数据集 | 数据来源 | 数据规模 |
|---|---|---|---|---|
| WebSight | arXiv 2024.03 | WebSight (创建) | LLM 全合成 | 270万条 |
| Design2Code | NAACL 2025 | Design2Code (创建) | C4 真实网页 | 484 条 |
| Vision2UI / WebCode2M | WWW 2025 | WebCode2M (创建) | 真实网页爬取 | 256万条 |
| Web2Code | NeurIPS 2024 D&B | Web2Code (创建); 使用 WebSight, pix2code, WebSRC | 合成+增强混合 | 82.8万条 |
| ChartMimic | ICLR 2025 | ChartMimic (创建) | 论文真实图表(人工筛选) | 4,800 条 |
| Plot2Code | arXiv 2024.05 | Plot2Code (创建) | Matplotlib/Plotly 文档示例 | 132 条 |
| Interaction2Code | ASE 2025 | Interaction2Code (创建) | 真实交互网页原型 | 127 页面 / 374 交互 |
| MMCode | EMNLP 2024 | MMCode (创建) | 10 个竞赛网站真实题目 | 3,548 题 / 6,620 图 |
| pix2code (Beltramelli, 2017) | 2017 | pix2code (创建) | 程序化合成 | 约 1,500 条 |
| CHI 2023 (WebUI-7K) | CHI 2023 | WebUI-7K (创建) | 真实网站爬取 | 约 7,000 |
| CREW (Metaphi Labs, 2026) | 2026 | CREW Figma-to-Code (创建) | 真实 Figma 设计 | 37 任务 |
| Deng et al., 2017 | 2017 | im2latex-100k (创建) | 真实论文公式 | 67,900 条 |
访问状态总表
| 数据源 | 入口 | 状态 | 数据来源 | 备注 |
|---|---|---|---|---|
| WebSight | HuggingFace | ✓ 200 | LLM 合成 | 270万条,317 GB,CC-BY-4.0 |
| WebCode2M | HuggingFace | ✓ 200 | 真实爬取 | 317万条,1.1 TB,CC-BY-4.0 |
| Design2Code | GitHub + HF | ✓ 200 | 真实网页 | 484 条,ODC-By |
| Web2Code | HuggingFace + GitHub | ✓ 200 | 合成+增强 | 82.8万条,CC-BY-4.0 |
| ChartMimic | HuggingFace + GitHub | ✓ 200 | 论文真实图 | 4,800 条,Apache-2.0 |
| Plot2Code | GitHub | ✓ 200 | 文档示例 | 132 条,Apache-2.0 |
| pix2code | GitHub | ✓ 200 | 程序合成 | 约 1,500 条,Apache-2.0 |
| im2latex-100k | HuggingFace | ✓ 200 | 真实论文 | 67,900 条 |
| Interaction2Code | GitHub | ✓ 200 | 真实网页 | 127 页面,ASE 2025 |
| MMCode | GitHub | ✓ 200 | 真实竞赛题 | 3,548 题,CC-BY-NC-SA |
| CREW Figma | HuggingFace | ✓ 200 | 真实设计 | 37 任务,MIT |
| WebUI-7K | HuggingFace | ✓ 200 | 真实爬取 | 约 7K,8.36 GB |
| Screen2Words | GitHub | ✓ 200 | 真实+人工标注 | Google Research |
| RICO | 项目站 | ✗ 403 | 真实 App | 需手动确认下载 |
数据获取管线
冒烟测试检查清单
| 检查项 | 核心问题 |
|---|---|
| 可达性 | 能否下载或 streaming?是否需 token? |
| 许可证 | 允许研究 / 评测 / 训练 / manifest 再分发? |
| Schema | 同时有视觉输入 + instruction + 目标代码? |
| 数据来源 | 合成 / 真实 / 混合?质量和多样性如何? |
| 可渲染性 | 目标代码可自动渲染?(浏览器 / Python / LaTeX / DSL) |
| 划分 | 有 train/val/test?能否按 source 去重切分? |
| 去重/泄漏 | 与基准或训练数据交叉泄漏风险? |
| 质量 | 空图、坏 HTML、缺资源、代码-截图不匹配? |