SpatialScore助力AI精准空间理解，画图更准确

AI 2026年03月07日 18:54 406 欧博

你有没有遇到过这样的情况：让AI画一张办公桌图，笔记本在桌子偏左，咖啡杯在右边，盆栽在右侧边缘，结果成品虽然色彩漂亮、光影柔和，但咖啡杯跑到了左边，盆栽甚至消失了？这种“美丽却凌乱”的现象，是目前AI绘图模型普遍存在的问题。

为了解决这一痛点，北京大学与字节跳动Seed团队合作推出了SpatialScore——一套专门用来教AI理解物体空间位置的奖励系统。值得注意的是，它只有70亿参数，却在空间判断准确率上超过了GPT-5和Gemini-2.5 Pro等动辄万亿参数的闭源模型。

AI绘图的老问题：会画但不懂位置

当我们说“把杯子放在笔记本右边”，人类几秒就能理解。但对AI来说，这涉及多个层面的理解：识别物体、理解相对方位、并准确落位。在多物体复杂场景中，AI容易混淆方位顺序，就像接到了一份复杂的室内设计方案，家具摆错在所难免。

现有评分模型（如HPSv3、PickScore、ImageReward）擅长判断画面美感、色彩和风格，但对物体位置判断并不敏感。研究发现，这些模型有时甚至给位置错的图打分更高，因为那张图“看起来更美”。闭源大模型虽准确，但调用成本极高，在线强化学习过程中频繁调用几乎不可行。

SpatialReward-Dataset：训练“验收专家”的地基

要训练SpatialScore，研究团队制作了超过8万对的对抗性偏好数据。每对包含一张“完美图”和一张“干扰图”，仅位置关系不同，其他画风、色调保持一致。

步骤一：GPT-5生成复杂提示词，包括多个物体的空间约束。
步骤二：GPT-5对提示词做微扰，生成位置错误的版本。
步骤三：用顶尖生成模型（Qwen-Image、HunyuanImage-2.1、Seedream 4.0）生成图像，确保画质一致。
步骤四：人工专家逐一审核，剔除不符合空间约束或干扰图意外正确的样本。

这个数据集覆盖25+真实场景，提示词长度和空间关系复杂度远超以往标准。

SpatialScore训练与LoRA微调

SpatialScore基于Qwen2.5-VL-7B模型，通过LoRA微调方式训练，只在关键位置插入补丁参数，保留原模型能力。训练目标是：看到一对图，给完美图高分，给干扰图低分。评分输出为概率分布，兼顾均值μ和不确定度σ，使排序稳健。

训练在8块英伟达H20 GPU上不到一天完成，测试集配对准确率高达95.77%，超越GPT-5（89%）和Gemini-2.5 Pro（95.1%），同时远超PickScore等传统图像评分模型。

强化学习训练AI画家

有了SpatialScore后，团队用在线强化学习（GRPO）训练FLUX.1-dev模型。每个提示词生成24张图，SpatialScore评分后，通过top-k过滤策略（取最优6张和最差6张）计算优势值，指导模型改进生成路径。

SpatialScore助力AI精准空间理解，画图更准确

经过训练，FLUX.1-dev的空间评分从2.18提升到7.81，在DPG-Bench整体得分从82.91%上升到85.03%，接近OpenAI闭源产品GPT-Image-1（85.15%）。其他基准如TIIF-Bench、UniGenBench++也显示显著提升，尤其是长提示词场景下的空间布局改善明显。

实践与应用

SpatialScore不仅提升了AI画图的空间准确性，也可迁移到其他模型，如Qwen-Image，空间评分同样提升。从餐厅、露营场景到复杂3D布局，模型能更准确地把物体摆到指定位置，解决了以往“美观但乱”的问题。

未来方向包括视频生成的空间理解与动态布局推理，对虚拟仿真与具身模拟有重要意义。

总结

SpatialScore展示了构建专用奖励模型、训练高效强化学习体系的可行路径，让AI画图不仅好看，更“摆得对”。这一方法论可延伸至光影处理、人体比例、物理规律等其他生成式AI任务。

在实践中，如果你想让AI作品在创意、电商、游戏或室内设计中既美观又准确，可以参考SpatialScore方法。也可以通过欧博官网了解更多AI生成技术资讯，以及在相关平台进行欧博官网注册、下载资源，或通过欧博官网下载官方工具，方便在创作中实践。更多信息可通过欧博官网登录官方入口访问。

标签：画图辅助工具画图智力题绘图助手使用教程

发表评论

评论列表

路过回复

2026-03-08 14:39:20

AI时代到来了

欧博回复

2026-03-14 04:34:28

https://www.cn-yaxin.com.cn 打开有惊喜

SpatialScore助力AI精准空间理解，画图更准确

AI绘图的老问题：会画但不懂位置

SpatialReward-Dataset：训练“验收专家”的地基

SpatialScore训练与LoRA微调

强化学习训练AI画家

实践与应用

总结

最新评论

最新留言

标签列表