Evaluation Framework

敏捷评估集 · 文字渲染

24条Query · 6场景 · 317项Checklist · 覆盖真实用户需求

01 · Agile Evaluation Set

敏捷评估集

IF=指令遵循(文字是否存在) · TQ=渲染质量(拼写/笔画/符号是否正确)

#难度PromptChecklist
02 · Examples

评估示例

Seedream 4.7 的VLM逐项评估结果。Q6含2处扣分(删除线缺失),Q15含3处扣分(Y轴排版错乱+段落乱码)。点击图片放大

preview