Scale for Grams Scale for Grams
Metodología

Cómo medimos la precisión

Cada cifra de precisión que publicamos — en este sitio, en la ficha de App Store, en los artículos del blog — proviene de un único benchmark privado. Aquí está exactamente lo que contiene, cómo lo ejecutamos y qué significan o no los números.

Configuración del benchmark

  • Instrumento de referencia: una báscula de laboratorio calibrada de 0,1g (modelo rotado periódicamente; el actual es una báscula de joyería de doble plataforma con precisión 0,01g verificada contra un juego de pesas de calibración OIML Clase M1).
  • Teléfono: iPhone 15 Pro y iPhone 16 Pro, cámara trasera, ambos probados por separado. Los resultados a continuación son el promedio de los dos.
  • Modelo de visión: GPT-5.1 con entrada de imagen en alta resolución vía Supabase Edge Function. Cada modo de la app (General, Oro, Cocina, Blind Box) enruta a una cadena de prompt específica del modo.
  • Iluminación: luz difusa de ventana durante el día, más una sesión controlada bajo luz LED blanca de techo. Los resultados a continuación son de la luz de ventana salvo nota en contrario.
  • Fondo: papel blanco liso o cerámica gris medio lisa. Sin patrones.
  • Objeto de referencia: moneda de €1 (23,25 mm de diámetro, 7,5 g) incluida en el cuadro de cada toma.

Categorías de objetos

El benchmark contiene 200 objetos en cuatro categorías, ponderadas para coincidir con el uso real de la app, no con una distribución uniforme:

  • Joyería y metales preciosos (60 objetos) — anillos de oro (10k, 14k, 18k), anillos de plata, cadenas de oro (huecas, semi-huecas, macizas en anchos 2-6 mm), colgantes, monedas de bullion (American Eagle, Krugerrand, Maple Leaf, sovereigns), piezas con piedras.
  • Ingredientes de cocina (50 objetos) — alimentos básicos en volúmenes medidos (arroz, harina, azúcar), especias, hierbas, comida monoporción (pechuga de pollo, filete de salmón, huevos, frutas, verduras), platos porcionados.
  • Artículos empaquetados y de envío (50 objetos) — artículos blandos en poly mailer, electrónica pequeña, artículos en bubble mailer, discos de vinilo, libros de bolsillo y tapa dura, cerámica pequeña, muestras de ropa vintage.
  • Coleccionables y blind boxes (40 objetos) — cajas selladas Pop Mart (10 series), cajas Sonny Angel, Smiski, paquetes Pokemon TCG, tubos de monedas sellados, cajas de zapatillas selladas, mystery packs varios.

Cómo ejecutamos una prueba

  1. Calibrar la báscula de referencia con el juego de pesas OIML.
  2. Colocar el objeto en la superficie de prueba con la moneda de referencia en el cuadro.
  3. Capturar tres fotos en ángulos ligeramente diferentes (desde arriba, 45 grados desde la izquierda, 45 grados desde la derecha).
  4. Pasar cada foto por el modo apropiado de la app.
  5. Registrar la mediana de las tres estimaciones contra la lectura de la báscula de referencia.
  6. Anotar error absoluto y error porcentual por objeto.
  7. Repetir el lote completo trimestralmente para seguir el drift.

Resultados actuales

Última ejecución del benchmark: abril de 2026.

Categoría Error mediano Error percentil 80 Mejor modo
Joyería y metales preciosos 4,8% 9,2% Oro
Ingredientes de cocina 7,1% 14,5% Cocina
Empaquetados y envío 5,6% 11,8% General
Coleccionables y blind boxes 6,4% 12,1% Blind Box
Total (200 objetos) 6,0% 11,7%

Qué significan los números

El número de titular "6% de error mediano" dice que la mitad de todas las estimaciones caen dentro del 6% del peso real, en condiciones de benchmark. El percentil 80 del 11,7% dice que el 80% de las estimaciones caen dentro del 11,7% del real. Estos son números de precisión utilizables para decisiones de compra, envío, fijación de precio de joyas y verificación de recetas. No son precisión de laboratorio.

Qué degrada estos números

  • Fondo con patrones — encimeras de granito, manteles estampados confunden la segmentación. Añade 5-15% de error.
  • Mala iluminación — solo incandescente, sombras duras, luces quemadas. Añade 5-10% de error.
  • Sin objeto de referencia — la palanca de precisión más importante. Sin un objeto de tamaño conocido en el cuadro, el error puede duplicarse.
  • Modo equivocado — pasar una foto de joyería en modo Cocina (o viceversa) genera errores del 30%+.
  • Platos con artículos mezclados — múltiples artículos superpuestos en una foto degradan la segmentación. Fotografía los artículos por separado.

Qué no medimos

  • Peso corporal (ninguna app en un teléfono mide el peso corporal humano; no lo afirmamos).
  • Química de laboratorio (precisión por debajo del 1% está fuera del alcance del método de cámara en 2026).
  • Artículos que la cámara no puede ver (estructura interna oculta, embalaje denso de paquetes multi-artículo).

Cadencia de actualización

Ejecutamos el benchmark completo de 200 artículos trimestralmente. Cuando el modelo de visión subyacente es actualizado por OpenAI o cambiamos una cadena de prompt, re-ejecutamos las categorías afectadas. Los números en esta página reflejan la ejecución más reciente.