Como medimos a precisão
Todos os números de precisão que publicamos — neste site, na listagem da App Store, nos artigos do blog — vêm de um único benchmark privado. Aqui está exactamente o que tem dentro, como o corremos e o que os números significam ou não.
A configuração do benchmark
- Instrumento de referência: uma balança de laboratório calibrada de 0,1g (modelo rotacionado periodicamente; a actual é uma balança de joias de plataforma dupla com 0,01g de precisão verificada contra pesos de calibração OIML Classe M1).
- Telemóvel: iPhone 15 Pro e iPhone 16 Pro, câmara traseira, ambos testados em separado. Os resultados abaixo são a média dos dois.
- Modelo de visão: GPT-5.1 com input de imagem em alta resolução através de Supabase Edge Function. Cada modo da app (Geral, Ouro, Cozinha, Blind Box) encaminha para uma cadeia de prompt específica do modo.
- Iluminação: luz difusa de janela durante o dia, mais uma ronda controlada com luz LED branca de tecto. Os resultados abaixo são da luz de janela salvo nota em contrário.
- Fundo: papel branco simples ou cerâmica cinzento-médio lisa. Sem padrões.
- Objecto de referência: moeda de €1 (23,25 mm de diâmetro, 7,5 g) incluída no enquadramento de todas as fotografias.
As categorias de item
O benchmark contém 200 itens em quatro categorias, ponderados para coincidir com o uso real da app, não com distribuição uniforme:
- Joias e metais preciosos (60 itens) — anéis de ouro (10k, 14k, 18k), anéis de prata, fios de ouro (ocos, semi-ocos, maciços em larguras de 2-6 mm), pendentes, moedas de bullion (American Eagle, Krugerrand, Maple Leaf, sovereigns), peças com pedras.
- Ingredientes de cozinha (50 itens) — itens de despensa em volumes medidos (arroz, farinha, açúcar), especiarias, ervas, comida em dose única (peito de frango, filete de salmão, ovos, frutas, legumes), pratos doseados.
- Itens embalados e de envio (50 itens) — soft goods em poly mailer, pequenos electrónicos, itens em bubble mailer, discos de vinil, livros de bolso e capa dura, pequenas cerâmicas, amostras de roupa vintage.
- Colecionáveis e blind boxes (40 itens) — caixas seladas Pop Mart (10 séries), caixas Sonny Angel, Smiski, pacotes Pokemon TCG, tubos de moeda selados, caixas de sapatilhas seladas, pacotes mistério variados.
Como corremos um teste
- Calibrar a balança de referência com o conjunto de pesos OIML.
- Colocar o item na superfície de teste com a moeda de referência no enquadramento.
- Capturar três fotografias em ângulos ligeiramente diferentes (de cima, 45 graus pela esquerda, 45 graus pela direita).
- Correr cada fotografia pelo modo apropriado da app.
- Registar a mediana das três estimativas contra a leitura da balança de referência.
- Anotar erro absoluto e erro percentual por item.
- Repetir o lote inteiro trimestralmente para acompanhar o drift.
Resultados actuais
Última ronda do benchmark: Abril de 2026.
| Categoria | Erro mediano | Erro percentil 80 | Melhor modo |
|---|---|---|---|
| Joias e metais preciosos | 4,8% | 9,2% | Ouro |
| Ingredientes de cozinha | 7,1% | 14,5% | Cozinha |
| Itens embalados e envio | 5,6% | 11,8% | Geral |
| Colecionáveis e blind boxes | 6,4% | 12,1% | Blind Box |
| Geral (200 itens) | 6,0% | 11,7% | — |
O que os números significam
O número de cabeçalho "6% de erro mediano" diz que metade de todas as estimativas caem dentro de 6% do peso real, em condições de benchmark. O percentil 80 de 11,7% diz que 80% das estimativas caem dentro de 11,7% do real. Estes são números de precisão úteis para decisões de compra, envio, preço de joias e verificação de receitas. Não são precisão de laboratório.
O que degrada estes números
- Fundo com padrão — bancadas de granito, toalhas de mesa estampadas confundem a segmentação. Adiciona 5-15% de erro.
- Iluminação fraca — só incandescente, sombras duras, brilhos saturados. Adiciona 5-10% de erro.
- Sem objecto de referência — a maior alavanca de precisão única. Sem um objecto de tamanho conhecido no enquadramento, o erro pode duplicar.
- Modo errado — correr uma fotografia de joia em modo Cozinha (ou vice-versa) gera erros de 30%+.
- Pratos com itens misturados — múltiplos itens sobrepostos numa fotografia degradam a segmentação. Fotografe os itens separados.
O que não medimos
- Peso corporal (nenhuma app de telemóvel mede peso corporal humano; não o afirmamos).
- Química de laboratório (precisão sub-1% está fora do alcance do método de câmara em 2026).
- Itens que a câmara não consegue ver (estrutura interna oculta, embalagem densa de pacotes com vários itens).
- Itens maiores do que o enquadramento da fotografia consegue capturar com objecto de referência também na cena.
Cadência de actualização
Corremos o benchmark completo de 200 itens trimestralmente. Quando o modelo de visão subjacente é actualizado pela OpenAI ou alteramos uma cadeia de prompt, corremos novamente as categorias afectadas. Os números desta página reflectem a ronda mais recente.
Porque é que publicamos isto
A maioria das apps de balança por telemóvel cita números de precisão sem explicar como foram medidos. Alguns desses números são reais e outros são marketing — não consegue distinguir pela listagem da App Store. Ao publicar a configuração completa do benchmark, tornamos a nossa afirmação de precisão verificável. Qualquer pessoa que corra a mesma configuração contra qualquer app de balança por telemóvel deveria obter números reproduzíveis, e as diferenças entre apps tornam-se mensuráveis em vez de debatidas.