Como medimos a precisão
Todo número de precisão que publicamos — neste site, na listagem da App Store, nos posts do blog — vem de um único benchmark privado. Aqui está exatamente o que tem dentro, como rodamos, e o que os números significam ou não.
A configuração do benchmark
- Instrumento de referência: uma balança de laboratório calibrada de 0,1g (modelo rotacionado periodicamente; a atual é uma balança de joias de plataforma dupla com 0,01g de precisão verificada contra pesos de calibração OIML Classe M1).
- Celular: iPhone 15 Pro e iPhone 16 Pro, câmera traseira, ambos testados separadamente. Resultados abaixo são média dos dois.
- Modelo de visão: GPT-5.1 com input de imagem em alta resolução via Supabase Edge Function. Cada modo do app (Geral, Ouro, Cozinha, Blind Box) roteia para uma cadeia de prompt específica do modo.
- Iluminação: luz difusa de janela durante o dia, mais uma rodada controlada sob luz LED branca de teto. Resultados abaixo são da luz de janela salvo nota em contrário.
- Fundo: papel branco simples ou cerâmica cinza-média lisa. Sem padrões.
- Objeto de referência: moeda de 25 centavos americana (24,26 mm de diâmetro, 5,67 g) incluída no quadro de toda foto.
As categorias de item
O benchmark contém 200 itens em quatro categorias, ponderados para bater com o uso real do app, não com distribuição uniforme:
- Joias e metais preciosos (60 itens) — anéis de ouro (10k, 14k, 18k), anéis de prata, correntes de ouro (ocas, semi-ocas, maciças em larguras de 2-6 mm), pingentes, moedas de bullion (American Eagle, Krugerrand, Maple Leaf, sovereigns, Cumhuriyet), peças com pedras.
- Ingredientes de cozinha (50 itens) — itens de armazém em volumes medidos (arroz, farinha, açúcar), especiarias, ervas, comida em porção única (peito de frango, filé de salmão, ovos, frutas, legumes), pratos porcionados.
- Itens embalados e de envio (50 itens) — soft goods em poly mailer, eletrônicos pequenos, itens em bubble mailer, discos de vinil, livros de bolso e capa dura, cerâmicas pequenas, amostras de roupa vintage.
- Colecionáveis e blind boxes (40 itens) — caixas lacradas Pop Mart (10 séries), caixas Sonny Angel, Smiski, pacotes Pokemon TCG, tubos de moeda lacrados, caixas de tênis lacradas, pacotes mistério variados.
Como rodamos um teste
- Calibrar a balança de referência com o conjunto de pesos OIML.
- Colocar o item na superfície de teste com a moeda de referência no quadro.
- Capturar três fotos em ângulos ligeiramente diferentes (de cima, 45 graus pela esquerda, 45 graus pela direita).
- Rodar cada foto pelo modo apropriado do app.
- Registrar a mediana das três estimativas contra a leitura da balança de referência.
- Anotar erro absoluto e erro percentual por item.
- Repetir o lote inteiro trimestralmente para acompanhar o drift.
Resultados atuais
Última rodada do benchmark: abril de 2026.
| Categoria | Erro mediano | Erro percentil 80 | Melhor modo |
|---|---|---|---|
| Joias e metais preciosos | 4,8% | 9,2% | Ouro |
| Ingredientes de cozinha | 7,1% | 14,5% | Cozinha |
| Itens embalados e envio | 5,6% | 11,8% | Geral |
| Colecionáveis e blind boxes | 6,4% | 12,1% | Blind Box |
| Geral (200 itens) | 6,0% | 11,7% | — |
O que os números significam
O número de manchete "6% de erro mediano" diz que metade de todas as estimativas caem dentro de 6% do peso real, em condições de benchmark. O percentil 80 de 11,7% diz que 80% das estimativas caem dentro de 11,7% do real. Esses são números de precisão úteis para decisões de compra, envio, precificação de joias e checagem de receitas. Não são precisão de laboratório.
O que degrada esses números
Condições do mundo real diferem das condições do benchmark. Os seguintes fatores empurram o erro mediano de 6% para 15-25%:
- Fundo com padrão — bancadas de granito, toalhas de mesa estampadas confundem a segmentação. Adiciona 5-15% de erro.
- Luz ruim — só incandescente, sombras duras, brilhos estourados. Adiciona 5-10% de erro.
- Sem objeto de referência — a maior alavanca de precisão única. Sem um objeto de tamanho conhecido no quadro, o erro pode dobrar.
- Modo errado — rodar uma foto de joia no modo Cozinha (ou vice-versa) gera erros de 30%+.
- Pratos com itens misturados — múltiplos itens sobrepostos numa foto degradam a segmentação. Fotografe os itens separados.
O que não medimos
- Peso corporal (nenhum app de celular mede peso corporal humano; não afirmamos isso).
- Química de laboratório (precisão sub-1% está fora do alcance do método de câmera em 2026).
- Itens que a câmera não consegue ver (estrutura interna oculta, embalagem densa de pacotes com vários itens).
- Itens maiores do que o quadro da foto consegue capturar com objeto de referência também na cena.
Cadência de atualização
Rodamos o benchmark completo de 200 itens trimestralmente. Quando o modelo de visão subjacente é atualizado pela OpenAI ou alteramos uma cadeia de prompt, rodamos novamente as categorias afetadas. Os números nesta página refletem a rodada mais recente; a data no topo de "Resultados atuais" mostra quando.
Por que publicar isso
A maioria dos apps de balança por celular cita números de precisão sem explicar como foram medidos. Alguns desses números são reais e outros são marketing — você não consegue distinguir pela listagem da App Store. Ao publicar a configuração completa do benchmark, tornamos nossa afirmação de precisão verificável. Qualquer pessoa rodando a mesma configuração contra qualquer app de balança por celular deveria obter números reproduzíveis, e as diferenças entre apps viram coisas mensuráveis em vez de debatidas.