测量方法
Scale for Grams 如何验证精度
Scale for Grams 在 200 件家用物品的私有基准上进行测试,每件物品都用 Mettler Toledo MS204TS 分析天平(读数精度 0.1mg)称重。每次发布前,我们会在该基准上测试新的视觉模型或提示词版本。当被问到"准确度有多高",这里公布的数字就是答案。
基准构成
基准包含 200 件物体,分成 4 个类目,对应 Scale for Grams 的 4 种模式:
- 通用 (50 件) — 水果、书籍、杂物、手作品、家用品。
- 黄金 (50 件) — K18、K22、K24 珠宝(戒指、项链、手镯)、实心和中空链条、金币(克鲁格兰德、枫叶、维也纳爱乐、熊猫金币),有刻印和无刻印。
- 厨房 (50 件) — 肉、鱼、水果、蔬菜、米、面、面包、奶酪、鸡蛋、典型菜肴份量。
- 盲盒 (50 件) — 未开封收藏品(POP MART、卡片包、手办系列)。
结果(模型:GPT-5.1 视觉,2026 年 3 月)
| 模式 | 中位误差 | ±10% 内 | ±20% 内 |
|---|---|---|---|
| 通用 | 7.2% | 62% | 89% |
| 黄金 | 5.8% | 71% | 94% |
| 厨房 | 6.4% | 68% | 91% |
| 盲盒 | 4.9% | 78% | 96% |
| 总体 | 6.1% | 70% | 92% |
什么提升精度
- 参照物体。 在画面中放一个已知尺寸的物体(¥1 硬币 = 25mm、¥0.5 硬币 = 20.5mm、信用卡 = 85.6×53.98mm)。这是单一最大精度提升因素,把典型误差从 20-30% 降到 8-12%。
- 简单背景。 白纸、光滑木面、光滑石面。
- 均匀漫射光。 白天窗光最佳。LED 顶灯也可以。
- 正确角度。 平面物体从上方拍,高物体从上方 45 度,长物体(链条)从上方且全物体入框。
- 选对模式。 通用提示词在贵金属上始终输给黄金提示词。
什么恶化精度
- 有花纹的桌布(增加 5-15% 误差)。
- 暗光或黄光(增加 5-10% 误差)。
- 倾斜或侧拍(增加 8-15% 误差)。
- 一个画面里多个重叠物体(增加 10-20% 误差)。
- 对物体用错模式(可能造成 5-10 倍误差,贵金属上尤其明显)。
限制
- 不能取代校准。 化学、精密烘焙以及贵重物品最终交易前请用校准过的秤。
- 5g 以下误差扩大。 轻物体相对误差较大(轻量香草 15-25%)。
- 透明 / 反光物体精度下降。 玻璃、抛光金属、透明塑料可能干扰表面检测。
- 不能测量身体。 App 不测量人体重量。声称如此的 App 是假的。
更新政策
每次更新视觉模型、提示词或密度逻辑,我们都会重跑整个基准,如果结果低于此处公布的数字就不发布。如果发现回归,我们保留旧版直到修复。新基准结果会在引发变更的发布之后更新到本页。
更多详情见博客:拍照最佳实践见照片称重:7 个错误。手机秤 App 的工作原理见把 iPhone 当秤用 2026。