Scale for Grams Scale for Grams
Metodologia

Come misuriamo la precisione

Ogni numero di precisione che pubblichiamo — su questo sito, nella scheda App Store, nei post del blog — viene da un singolo benchmark privato. Ecco esattamente cosa contiene, come lo eseguiamo e cosa significano (e non significano) i numeri.

Configurazione del benchmark

  • Strumento di riferimento: una bilancia da laboratorio calibrata da 0,1g (modello ruotato periodicamente; quello attuale è una bilancia da gioielleria a doppia piattaforma con precisione 0,01g verificata contro pesi di calibrazione OIML Classe M1).
  • Telefono: iPhone 15 Pro e iPhone 16 Pro, fotocamera posteriore, entrambi testati separatamente. I risultati sotto sono la media dei due.
  • Modello di visione: GPT-5.1 con input immagine ad alta risoluzione tramite Supabase Edge Function. Ogni modalità dell'app (Generale, Oro, Cucina, Blind Box) instrada verso una catena di prompt specifica della modalità.
  • Illuminazione: luce diffusa da finestra durante il giorno, più una sessione controllata sotto luce LED bianca da soffitto. I risultati sotto sono dalla luce della finestra salvo nota.
  • Sfondo: carta bianca o ceramica grigio medio liscia. Niente motivi.
  • Oggetto di riferimento: moneta da €1 (23,25 mm di diametro, 7,5 g) inclusa nell'inquadratura di ogni scatto.

Categorie di oggetti

Il benchmark contiene 200 oggetti in quattro categorie, ponderate per corrispondere all'uso reale dell'app, non a una distribuzione uniforme:

  • Gioielli e metalli preziosi (60 oggetti) — anelli d'oro (10k, 14k, 18k), anelli d'argento, catene d'oro (cave, semi-cave, massicce in larghezze 2-6 mm), pendenti, monete da bullion (American Eagle, Krugerrand, Maple Leaf, sovereigns), pezzi con pietre.
  • Ingredienti da cucina (50 oggetti) — alimenti base in volumi misurati (riso, farina, zucchero), spezie, erbe, cibo monoporzione (petto di pollo, filetto di salmone, uova, frutta, verdura), piatti porzionati.
  • Oggetti imballati e di spedizione (50 oggetti) — articoli morbidi in poly mailer, piccoli elettronici, articoli in bubble mailer, dischi in vinile, libri tascabili e con copertina rigida, piccole ceramiche, campioni di abbigliamento vintage.
  • Collezionabili e blind box (40 oggetti) — scatole sigillate Pop Mart (10 serie), scatole Sonny Angel, Smiski, pacchetti Pokemon TCG, tubi di monete sigillati, scatole di sneakers sigillate, mistery pack vari.

Come eseguiamo un test

  1. Calibriamo la bilancia di riferimento con il set di pesi OIML.
  2. Posizioniamo l'oggetto sulla superficie di test con la moneta di riferimento nell'inquadratura.
  3. Catturiamo tre foto a leggere angolazioni diverse (dall'alto, 45 gradi da sinistra, 45 gradi da destra).
  4. Eseguiamo ogni foto con la modalità appropriata dell'app.
  5. Registriamo la mediana delle tre stime contro la lettura della bilancia di riferimento.
  6. Annotiamo errore assoluto ed errore percentuale per oggetto.
  7. Ripetiamo l'intero lotto trimestralmente per tracciare il drift.

Risultati attuali

Ultima esecuzione del benchmark: aprile 2026.

Categoria Errore mediano Errore 80° percentile Modalità migliore
Gioielli e metalli preziosi 4,8% 9,2% Oro
Ingredienti da cucina 7,1% 14,5% Cucina
Imballati e spedizione 5,6% 11,8% Generale
Collezionabili e blind box 6,4% 12,1% Blind Box
Totale (200 oggetti) 6,0% 11,7%

Cosa significano i numeri

Il numero in copertina "6% di errore mediano" dice che metà di tutte le stime cade entro il 6% dal peso reale, in condizioni di benchmark. L'80° percentile dell'11,7% dice che l'80% delle stime cade entro l'11,7% dal reale. Questi sono numeri di precisione utilizzabili per decisioni di acquisto, spedizione, prezzo dei gioielli e verifica delle ricette. Non sono precisione da laboratorio.

Cosa degrada questi numeri

  • Sfondo con motivi — piani di lavoro in granito, tovaglie a fantasia confondono la segmentazione. Aggiunge 5-15% di errore.
  • Luce scarsa — solo incandescenza, ombre dure, luci bruciate. Aggiunge 5-10% di errore.
  • Nessun oggetto di riferimento — la singola leva di precisione più importante. Senza un oggetto di dimensione nota nell'inquadratura, l'errore può raddoppiare.
  • Modalità sbagliata — eseguire una foto di gioielli in modalità Cucina (o viceversa) genera errori del 30%+.
  • Piatti con oggetti misti — più oggetti sovrapposti in una foto degradano la segmentazione. Fotografa gli oggetti separatamente.

Cosa non misuriamo

  • Peso corporeo (nessuna app su un telefono misura il peso corporeo umano; non lo affermiamo).
  • Chimica da laboratorio (precisione sotto l'1% è fuori dalla portata del metodo della fotocamera nel 2026).
  • Oggetti che la fotocamera non può vedere (struttura interna nascosta, imballaggio denso di pacchi multi-oggetto).

Cadenza di aggiornamento

Eseguiamo il benchmark completo di 200 oggetti trimestralmente. Quando il modello di visione sottostante viene aggiornato da OpenAI o cambiamo una catena di prompt, eseguiamo di nuovo le categorie interessate. I numeri su questa pagina riflettono l'esecuzione più recente.