計測方法
Scale for Gramsの精度の検証方法
Scale for Gramsは200個の家庭用品の独自ベンチマークに対してテストされ、各オブジェクトはMettler ToledoのMS204TS分析天秤(読取精度0.1mg)で計量されています。リリースごとに、新しいビジョンモデルやプロンプトのバージョンをこのベンチマークに対してテストします。「どれくらい正確か」と尋ねられた場合、ここに公開されている数値が答えです。
ベンチマーク構成
ベンチマークには200個のオブジェクトが含まれ、Scale for Gramsの4つのモードに対応する4つのカテゴリにわたります:
- 一般 (50オブジェクト) — 果物、本、雑貨、ハンドメイド作品、家庭用品。
- 金 (50オブジェクト) — K18、K22、K24のジュエリー(指輪、ネックレス、ブレスレット)、無垢と中空のチェーン、コイン(クルーガーランド、メイプルリーフ、ウィーンフィルハーモニー)、刻印付きと刻印なし。
- キッチン (50オブジェクト) — 肉、魚、果物、野菜、米、パスタ、パン、チーズ、卵、典型的な料理ポーション。
- ブラインドボックス (50オブジェクト) — 未開封のコレクター品(POP MART、トレカパック、フィギュアシリーズ)。
結果(モデル: GPT-5.1 vision、2026年3月)
| モード | 中央誤差 | ±10%以内 | ±20%以内 |
|---|---|---|---|
| 一般 | 7.2% | 62% | 89% |
| 金 | 5.8% | 71% | 94% |
| キッチン | 6.4% | 68% | 91% |
| ブラインドボックス | 4.9% | 78% | 96% |
| 全体 | 6.1% | 70% | 92% |
精度を改善するもの
- 参照オブジェクト。 既知のサイズの物体(¥1硬貨 = 1.0g・直径20mm、¥500硬貨 = 7.0g・直径26.5mm、クレジットカード = 85.6×53.98mm)をフレーム内に。これは最大の単一精度向上要素で、典型的な誤差を20〜30%から8〜12%に削減します。
- シンプルな背景。 白い紙、滑らかな木、滑らかな石。
- 均一で拡散した光。 日中の窓からの光が最適。LEDシーリングライトも可。
- 適切な角度。 平らな物体は真上から、高い物体は45度上から、長い物体(チェーン)は全体がフレームに収まるように真上から。
- 正しいモードを選択。 一般プロンプトは金プロンプトより貴金属で常に劣ります。
精度を悪化させるもの
- 柄のあるテーブルクロス(5〜15%の誤差を追加)。
- 暗い、または黄色い光(5〜10%の誤差を追加)。
- 傾いた角度や横からの撮影(8〜15%の誤差を追加)。
- 1フレーム内に複数の物体が重なっている場合(10〜20%の誤差を追加)。
- 物体に対して間違ったモード(5〜10倍の誤差を引き起こす可能性、貴金属での顕著な悪化)。
限界
- 校正の代わりにはならない。 化学、精密ベーキング、貴重品の最終取引前には校正済みのはかりを使用してください。
- 5g未満では誤差が拡大する。 軽い物体は相対誤差が大きくなる傾向があります(軽量ハーブで15〜25%)。
- 透明・反射する物体で減少。 ガラス、研磨された金属、透明プラスチックは表面検出を混乱させる可能性があります。
- 体組成は不可。 アプリは人体の重量を測定しません。これを主張するアプリは偽物です。
更新方針
ビジョンモデル、プロンプト、または密度ロジックを更新するたびに、ベンチマーク全体を再実行し、結果がここで公開された数値より下回る場合はリリースしません。回帰が見つかった場合、修正されるまで以前のバージョンを保持します。新しいベンチマーク結果は、変更を引き起こしたリリース後にこのページが更新されます。
詳細はブログでカバーしています:写真撮影のベストプラクティスは 写真計量:7つの間違い。 スマホ計量アプリの仕組みは iPhoneを計量器として使う 2026。