SpatialScore助力AI精准空间理解,画图更准确
你有没有遇到过这样的情况:让AI画一张办公桌图,笔记本在桌子偏左,咖啡杯在右边,盆栽在右侧边缘,结果成品虽然色彩漂亮、光影柔和,但咖啡杯跑到了左边,盆栽甚至消失了?这种“美丽却凌乱”的现象,是目前AI绘图模型普遍存在的问题。
为了解决这一痛点,北京大学与字节跳动Seed团队合作推出了SpatialScore——一套专门用来教AI理解物体空间位置的奖励系统。值得注意的是,它只有70亿参数,却在空间判断准确率上超过了GPT-5和Gemini-2.5 Pro等动辄万亿参数的闭源模型。
AI绘图的老问题:会画但不懂位置
当我们说“把杯子放在笔记本右边”,人类几秒就能理解。但对AI来说,这涉及多个层面的理解:识别物体、理解相对方位、并准确落位。在多物体复杂场景中,AI容易混淆方位顺序,就像接到了一份复杂的室内设计方案,家具摆错在所难免。
现有评分模型(如HPSv3、PickScore、ImageReward)擅长判断画面美感、色彩和风格,但对物体位置判断并不敏感。研究发现,这些模型有时甚至给位置错的图打分更高,因为那张图“看起来更美”。闭源大模型虽准确,但调用成本极高,在线强化学习过程中频繁调用几乎不可行。
SpatialReward-Dataset:训练“验收专家”的地基
要训练SpatialScore,研究团队制作了超过8万对的对抗性偏好数据。每对包含一张“完美图”和一张“干扰图”,仅位置关系不同,其他画风、色调保持一致。
步骤一:GPT-5生成复杂提示词,包括多个物体的空间约束。
步骤二:GPT-5对提示词做微扰,生成位置错误的版本。
步骤三:用顶尖生成模型(Qwen-Image、HunyuanImage-2.1、Seedream 4.0)生成图像,确保画质一致。
步骤四:人工专家逐一审核,剔除不符合空间约束或干扰图意外正确的样本。
这个数据集覆盖25+真实场景,提示词长度和空间关系复杂度远超以往标准。
SpatialScore训练与LoRA微调
SpatialScore基于Qwen2.5-VL-7B模型,通过LoRA微调方式训练,只在关键位置插入补丁参数,保留原模型能力。训练目标是:看到一对图,给完美图高分,给干扰图低分。评分输出为概率分布,兼顾均值μ和不确定度σ,使排序稳健。
训练在8块英伟达H20 GPU上不到一天完成,测试集配对准确率高达95.77%,超越GPT-5(89%)和Gemini-2.5 Pro(95.1%),同时远超PickScore等传统图像评分模型。
强化学习训练AI画家
有了SpatialScore后,团队用在线强化学习(GRPO)训练FLUX.1-dev模型。每个提示词生成24张图,SpatialScore评分后,通过top-k过滤策略(取最优6张和最差6张)计算优势值,指导模型改进生成路径。

经过训练,FLUX.1-dev的空间评分从2.18提升到7.81,在DPG-Bench整体得分从82.91%上升到85.03%,接近OpenAI闭源产品GPT-Image-1(85.15%)。其他基准如TIIF-Bench、UniGenBench++也显示显著提升,尤其是长提示词场景下的空间布局改善明显。
实践与应用
SpatialScore不仅提升了AI画图的空间准确性,也可迁移到其他模型,如Qwen-Image,空间评分同样提升。从餐厅、露营场景到复杂3D布局,模型能更准确地把物体摆到指定位置,解决了以往“美观但乱”的问题。
未来方向包括视频生成的空间理解与动态布局推理,对虚拟仿真与具身模拟有重要意义。
总结
SpatialScore展示了构建专用奖励模型、训练高效强化学习体系的可行路径,让AI画图不仅好看,更“摆得对”。这一方法论可延伸至光影处理、人体比例、物理规律等其他生成式AI任务。
在实践中,如果你想让AI作品在创意、电商、游戏或室内设计中既美观又准确,可以参考SpatialScore方法。也可以通过欧博官网了解更多AI生成技术资讯,以及在相关平台进行欧博官网注册、下载资源,或通过欧博官网下载官方工具,方便在创作中实践。更多信息可通过欧博官网登录官方入口访问。
相关文章
发表评论

评论列表
AI时代到来了
https://www.cn-yaxin.com.cn 打开有惊喜