Scale for Grams Scale for Grams
Metodologia

Como medimos a precisão

Todos os números de precisão que publicamos — neste site, na listagem da App Store, nos artigos do blog — vêm de um único benchmark privado. Aqui está exactamente o que tem dentro, como o corremos e o que os números significam ou não.

A configuração do benchmark

  • Instrumento de referência: uma balança de laboratório calibrada de 0,1g (modelo rotacionado periodicamente; a actual é uma balança de joias de plataforma dupla com 0,01g de precisão verificada contra pesos de calibração OIML Classe M1).
  • Telemóvel: iPhone 15 Pro e iPhone 16 Pro, câmara traseira, ambos testados em separado. Os resultados abaixo são a média dos dois.
  • Modelo de visão: GPT-5.1 com input de imagem em alta resolução através de Supabase Edge Function. Cada modo da app (Geral, Ouro, Cozinha, Blind Box) encaminha para uma cadeia de prompt específica do modo.
  • Iluminação: luz difusa de janela durante o dia, mais uma ronda controlada com luz LED branca de tecto. Os resultados abaixo são da luz de janela salvo nota em contrário.
  • Fundo: papel branco simples ou cerâmica cinzento-médio lisa. Sem padrões.
  • Objecto de referência: moeda de €1 (23,25 mm de diâmetro, 7,5 g) incluída no enquadramento de todas as fotografias.

As categorias de item

O benchmark contém 200 itens em quatro categorias, ponderados para coincidir com o uso real da app, não com distribuição uniforme:

  • Joias e metais preciosos (60 itens) — anéis de ouro (10k, 14k, 18k), anéis de prata, fios de ouro (ocos, semi-ocos, maciços em larguras de 2-6 mm), pendentes, moedas de bullion (American Eagle, Krugerrand, Maple Leaf, sovereigns), peças com pedras.
  • Ingredientes de cozinha (50 itens) — itens de despensa em volumes medidos (arroz, farinha, açúcar), especiarias, ervas, comida em dose única (peito de frango, filete de salmão, ovos, frutas, legumes), pratos doseados.
  • Itens embalados e de envio (50 itens) — soft goods em poly mailer, pequenos electrónicos, itens em bubble mailer, discos de vinil, livros de bolso e capa dura, pequenas cerâmicas, amostras de roupa vintage.
  • Colecionáveis e blind boxes (40 itens) — caixas seladas Pop Mart (10 séries), caixas Sonny Angel, Smiski, pacotes Pokemon TCG, tubos de moeda selados, caixas de sapatilhas seladas, pacotes mistério variados.

Como corremos um teste

  1. Calibrar a balança de referência com o conjunto de pesos OIML.
  2. Colocar o item na superfície de teste com a moeda de referência no enquadramento.
  3. Capturar três fotografias em ângulos ligeiramente diferentes (de cima, 45 graus pela esquerda, 45 graus pela direita).
  4. Correr cada fotografia pelo modo apropriado da app.
  5. Registar a mediana das três estimativas contra a leitura da balança de referência.
  6. Anotar erro absoluto e erro percentual por item.
  7. Repetir o lote inteiro trimestralmente para acompanhar o drift.

Resultados actuais

Última ronda do benchmark: Abril de 2026.

Categoria Erro mediano Erro percentil 80 Melhor modo
Joias e metais preciosos 4,8% 9,2% Ouro
Ingredientes de cozinha 7,1% 14,5% Cozinha
Itens embalados e envio 5,6% 11,8% Geral
Colecionáveis e blind boxes 6,4% 12,1% Blind Box
Geral (200 itens) 6,0% 11,7%

O que os números significam

O número de cabeçalho "6% de erro mediano" diz que metade de todas as estimativas caem dentro de 6% do peso real, em condições de benchmark. O percentil 80 de 11,7% diz que 80% das estimativas caem dentro de 11,7% do real. Estes são números de precisão úteis para decisões de compra, envio, preço de joias e verificação de receitas. Não são precisão de laboratório.

O que degrada estes números

  • Fundo com padrão — bancadas de granito, toalhas de mesa estampadas confundem a segmentação. Adiciona 5-15% de erro.
  • Iluminação fraca — só incandescente, sombras duras, brilhos saturados. Adiciona 5-10% de erro.
  • Sem objecto de referência — a maior alavanca de precisão única. Sem um objecto de tamanho conhecido no enquadramento, o erro pode duplicar.
  • Modo errado — correr uma fotografia de joia em modo Cozinha (ou vice-versa) gera erros de 30%+.
  • Pratos com itens misturados — múltiplos itens sobrepostos numa fotografia degradam a segmentação. Fotografe os itens separados.

O que não medimos

  • Peso corporal (nenhuma app de telemóvel mede peso corporal humano; não o afirmamos).
  • Química de laboratório (precisão sub-1% está fora do alcance do método de câmara em 2026).
  • Itens que a câmara não consegue ver (estrutura interna oculta, embalagem densa de pacotes com vários itens).
  • Itens maiores do que o enquadramento da fotografia consegue capturar com objecto de referência também na cena.

Cadência de actualização

Corremos o benchmark completo de 200 itens trimestralmente. Quando o modelo de visão subjacente é actualizado pela OpenAI ou alteramos uma cadeia de prompt, corremos novamente as categorias afectadas. Os números desta página reflectem a ronda mais recente.

Porque é que publicamos isto

A maioria das apps de balança por telemóvel cita números de precisão sem explicar como foram medidos. Alguns desses números são reais e outros são marketing — não consegue distinguir pela listagem da App Store. Ao publicar a configuração completa do benchmark, tornamos a nossa afirmação de precisão verificável. Qualquer pessoa que corra a mesma configuração contra qualquer app de balança por telemóvel deveria obter números reproduzíveis, e as diferenças entre apps tornam-se mensuráveis em vez de debatidas.