Scale for Grams Scale for Grams
Metodologia

Como medimos a precisão

Todo número de precisão que publicamos — neste site, na listagem da App Store, nos posts do blog — vem de um único benchmark privado. Aqui está exatamente o que tem dentro, como rodamos, e o que os números significam ou não.

A configuração do benchmark

  • Instrumento de referência: uma balança de laboratório calibrada de 0,1g (modelo rotacionado periodicamente; a atual é uma balança de joias de plataforma dupla com 0,01g de precisão verificada contra pesos de calibração OIML Classe M1).
  • Celular: iPhone 15 Pro e iPhone 16 Pro, câmera traseira, ambos testados separadamente. Resultados abaixo são média dos dois.
  • Modelo de visão: GPT-5.1 com input de imagem em alta resolução via Supabase Edge Function. Cada modo do app (Geral, Ouro, Cozinha, Blind Box) roteia para uma cadeia de prompt específica do modo.
  • Iluminação: luz difusa de janela durante o dia, mais uma rodada controlada sob luz LED branca de teto. Resultados abaixo são da luz de janela salvo nota em contrário.
  • Fundo: papel branco simples ou cerâmica cinza-média lisa. Sem padrões.
  • Objeto de referência: moeda de 25 centavos americana (24,26 mm de diâmetro, 5,67 g) incluída no quadro de toda foto.

As categorias de item

O benchmark contém 200 itens em quatro categorias, ponderados para bater com o uso real do app, não com distribuição uniforme:

  • Joias e metais preciosos (60 itens) — anéis de ouro (10k, 14k, 18k), anéis de prata, correntes de ouro (ocas, semi-ocas, maciças em larguras de 2-6 mm), pingentes, moedas de bullion (American Eagle, Krugerrand, Maple Leaf, sovereigns, Cumhuriyet), peças com pedras.
  • Ingredientes de cozinha (50 itens) — itens de armazém em volumes medidos (arroz, farinha, açúcar), especiarias, ervas, comida em porção única (peito de frango, filé de salmão, ovos, frutas, legumes), pratos porcionados.
  • Itens embalados e de envio (50 itens) — soft goods em poly mailer, eletrônicos pequenos, itens em bubble mailer, discos de vinil, livros de bolso e capa dura, cerâmicas pequenas, amostras de roupa vintage.
  • Colecionáveis e blind boxes (40 itens) — caixas lacradas Pop Mart (10 séries), caixas Sonny Angel, Smiski, pacotes Pokemon TCG, tubos de moeda lacrados, caixas de tênis lacradas, pacotes mistério variados.

Como rodamos um teste

  1. Calibrar a balança de referência com o conjunto de pesos OIML.
  2. Colocar o item na superfície de teste com a moeda de referência no quadro.
  3. Capturar três fotos em ângulos ligeiramente diferentes (de cima, 45 graus pela esquerda, 45 graus pela direita).
  4. Rodar cada foto pelo modo apropriado do app.
  5. Registrar a mediana das três estimativas contra a leitura da balança de referência.
  6. Anotar erro absoluto e erro percentual por item.
  7. Repetir o lote inteiro trimestralmente para acompanhar o drift.

Resultados atuais

Última rodada do benchmark: abril de 2026.

Categoria Erro mediano Erro percentil 80 Melhor modo
Joias e metais preciosos 4,8% 9,2% Ouro
Ingredientes de cozinha 7,1% 14,5% Cozinha
Itens embalados e envio 5,6% 11,8% Geral
Colecionáveis e blind boxes 6,4% 12,1% Blind Box
Geral (200 itens) 6,0% 11,7%

O que os números significam

O número de manchete "6% de erro mediano" diz que metade de todas as estimativas caem dentro de 6% do peso real, em condições de benchmark. O percentil 80 de 11,7% diz que 80% das estimativas caem dentro de 11,7% do real. Esses são números de precisão úteis para decisões de compra, envio, precificação de joias e checagem de receitas. Não são precisão de laboratório.

O que degrada esses números

Condições do mundo real diferem das condições do benchmark. Os seguintes fatores empurram o erro mediano de 6% para 15-25%:

  • Fundo com padrão — bancadas de granito, toalhas de mesa estampadas confundem a segmentação. Adiciona 5-15% de erro.
  • Luz ruim — só incandescente, sombras duras, brilhos estourados. Adiciona 5-10% de erro.
  • Sem objeto de referência — a maior alavanca de precisão única. Sem um objeto de tamanho conhecido no quadro, o erro pode dobrar.
  • Modo errado — rodar uma foto de joia no modo Cozinha (ou vice-versa) gera erros de 30%+.
  • Pratos com itens misturados — múltiplos itens sobrepostos numa foto degradam a segmentação. Fotografe os itens separados.

O que não medimos

  • Peso corporal (nenhum app de celular mede peso corporal humano; não afirmamos isso).
  • Química de laboratório (precisão sub-1% está fora do alcance do método de câmera em 2026).
  • Itens que a câmera não consegue ver (estrutura interna oculta, embalagem densa de pacotes com vários itens).
  • Itens maiores do que o quadro da foto consegue capturar com objeto de referência também na cena.

Cadência de atualização

Rodamos o benchmark completo de 200 itens trimestralmente. Quando o modelo de visão subjacente é atualizado pela OpenAI ou alteramos uma cadeia de prompt, rodamos novamente as categorias afetadas. Os números nesta página refletem a rodada mais recente; a data no topo de "Resultados atuais" mostra quando.

Por que publicar isso

A maioria dos apps de balança por celular cita números de precisão sem explicar como foram medidos. Alguns desses números são reais e outros são marketing — você não consegue distinguir pela listagem da App Store. Ao publicar a configuração completa do benchmark, tornamos nossa afirmação de precisão verificável. Qualquer pessoa rodando a mesma configuração contra qualquer app de balança por celular deveria obter números reproduzíveis, e as diferenças entre apps viram coisas mensuráveis em vez de debatidas.