Scale for Grams Scale for Grams
Методология

Как мы измеряем точность

Каждая цифра точности, которую мы публикуем — на этом сайте, в описании App Store, в статьях блога — приходит из одного приватного бенчмарка. Вот что в нём, как мы его запускаем и что числа значат или нет.

Настройка бенчмарка

  • Эталонный прибор: откалиброванные лабораторные весы 0,1 г (модель ротируется периодически; текущая — ювелирные весы с двойной платформой 0,01 г, проверенные против набора калибровочных гирь OIML класс M1).
  • Телефон: iPhone 15 Pro и iPhone 16 Pro, задняя камера, оба тестируются отдельно. Результаты ниже — среднее по двум.
  • Модель зрения: GPT-5.1 с входом изображения высокого разрешения через Supabase Edge Function. Каждый режим приложения (Общий, Золото, Кухня, Blind Box) направляется в специфичную для режима цепочку промптов.
  • Освещение: рассеянный дневной свет от окна плюс контролируемая сессия под белым LED-светом потолка. Результаты ниже — от света окна, если не указано иное.
  • Фон: простая белая бумага или гладкая среднесерая керамика. Без узоров.
  • Эталонный объект: монета €1 (диаметр 23,25 мм, 7,5 г) включена в кадр каждого снимка.

Категории предметов

Бенчмарк содержит 200 предметов в четырёх категориях, взвешенных для соответствия реальному использованию приложения, а не равномерному распределению:

  • Украшения и драгоценные металлы (60 предметов) — золотые кольца (10k, 14k, 18k = пробы 417, 585, 750), серебряные кольца, золотые цепочки (полые, полу-полые, литые в ширине 2-6 мм), кулоны, инвестиционные монеты (American Eagle, Krugerrand, Maple Leaf, червонец, sovereign), изделия с камнями.
  • Кухонные ингредиенты (50 предметов) — основные продукты в измеренных объёмах (рис, мука, сахар), специи, травы, порционная еда (куриная грудка, филе лосося, яйца, фрукты, овощи), порционированные блюда.
  • Упакованные и отправляемые предметы (50 предметов) — мягкие товары в poly mailer, мелкая электроника, предметы в bubble mailer, виниловые пластинки, мягкие и твёрдые обложки книг, мелкая керамика, образцы винтажной одежды.
  • Коллекционные предметы и blind box (40 предметов) — запечатанные коробки Pop Mart (10 серий), коробки Sonny Angel, Smiski, пачки Pokemon TCG, запечатанные тубусы монет, запечатанные коробки кроссовок, разнообразные mystery pack.

Как мы запускаем тест

  1. Калибруем эталонные весы набором гирь OIML.
  2. Помещаем предмет на тестовую поверхность с эталонной монетой в кадре.
  3. Снимаем три фотографии под слегка разными углами (сверху, 45 градусов слева, 45 градусов справа).
  4. Прогоняем каждое фото через соответствующий режим приложения.
  5. Записываем медиану трёх оценок против показания эталонных весов.
  6. Отмечаем абсолютную и процентную погрешность по предмету.
  7. Повторяем весь батч ежеквартально для отслеживания дрейфа.

Текущие результаты

Последний прогон бенчмарка: апрель 2026.

Категория Медианная погрешность 80-й перцентиль Лучший режим
Украшения и драгоценные металлы 4,8% 9,2% Золото
Кухонные ингредиенты 7,1% 14,5% Кухня
Упакованные и отправляемые 5,6% 11,8% Общий
Коллекционные и blind box 6,4% 12,1% Blind Box
Общий (200 предметов) 6,0% 11,7%

Что значат числа

Заголовочное число "6% медианной погрешности" говорит, что половина всех оценок попадает в пределы 6% от реального веса в условиях бенчмарка. 80-й перцентиль 11,7% говорит, что 80% оценок попадают в пределы 11,7% от реального. Это пригодные числа точности для решений о покупке, доставке, ценообразовании украшений и проверке рецептов. Это не лабораторная точность.

Что ухудшает эти числа

  • Фон с узором — гранитные столешницы, скатерти с узорами путают сегментацию. Добавляет 5-15% погрешности.
  • Плохой свет — только лампа накаливания, жёсткие тени, выжженные блики. Добавляет 5-10% погрешности.
  • Нет эталонного объекта — самый большой рычаг точности. Без объекта известного размера в кадре погрешность может удвоиться.
  • Неправильный режим — прогон фото украшения в режиме Кухня (или наоборот) генерирует погрешности 30%+.
  • Тарелки со смешанными предметами — несколько предметов, накладывающихся на одно фото, ухудшают сегментацию. Фотографируйте предметы по отдельности.

Что мы не измеряем

  • Массу тела (никакое приложение на телефоне не измеряет массу тела человека; мы это не утверждаем).
  • Лабораторную химию (точность ниже 1% находится за пределами возможностей метода камеры в 2026).
  • Предметы, которые камера не может видеть (скрытая внутренняя структура, плотная упаковка многопредметных пакетов).

Частота обновления

Мы запускаем полный бенчмарк из 200 предметов ежеквартально. Когда базовая модель зрения обновляется OpenAI или мы меняем цепочку промптов, мы перезапускаем затронутые категории. Числа на этой странице отражают самый последний прогон.