Come misuriamo la precisione
Ogni numero di precisione che pubblichiamo — su questo sito, nella scheda App Store, nei post del blog — viene da un singolo benchmark privato. Ecco esattamente cosa contiene, come lo eseguiamo e cosa significano (e non significano) i numeri.
Configurazione del benchmark
- Strumento di riferimento: una bilancia da laboratorio calibrata da 0,1g (modello ruotato periodicamente; quello attuale è una bilancia da gioielleria a doppia piattaforma con precisione 0,01g verificata contro pesi di calibrazione OIML Classe M1).
- Telefono: iPhone 15 Pro e iPhone 16 Pro, fotocamera posteriore, entrambi testati separatamente. I risultati sotto sono la media dei due.
- Modello di visione: GPT-5.1 con input immagine ad alta risoluzione tramite Supabase Edge Function. Ogni modalità dell'app (Generale, Oro, Cucina, Blind Box) instrada verso una catena di prompt specifica della modalità.
- Illuminazione: luce diffusa da finestra durante il giorno, più una sessione controllata sotto luce LED bianca da soffitto. I risultati sotto sono dalla luce della finestra salvo nota.
- Sfondo: carta bianca o ceramica grigio medio liscia. Niente motivi.
- Oggetto di riferimento: moneta da €1 (23,25 mm di diametro, 7,5 g) inclusa nell'inquadratura di ogni scatto.
Categorie di oggetti
Il benchmark contiene 200 oggetti in quattro categorie, ponderate per corrispondere all'uso reale dell'app, non a una distribuzione uniforme:
- Gioielli e metalli preziosi (60 oggetti) — anelli d'oro (10k, 14k, 18k), anelli d'argento, catene d'oro (cave, semi-cave, massicce in larghezze 2-6 mm), pendenti, monete da bullion (American Eagle, Krugerrand, Maple Leaf, sovereigns), pezzi con pietre.
- Ingredienti da cucina (50 oggetti) — alimenti base in volumi misurati (riso, farina, zucchero), spezie, erbe, cibo monoporzione (petto di pollo, filetto di salmone, uova, frutta, verdura), piatti porzionati.
- Oggetti imballati e di spedizione (50 oggetti) — articoli morbidi in poly mailer, piccoli elettronici, articoli in bubble mailer, dischi in vinile, libri tascabili e con copertina rigida, piccole ceramiche, campioni di abbigliamento vintage.
- Collezionabili e blind box (40 oggetti) — scatole sigillate Pop Mart (10 serie), scatole Sonny Angel, Smiski, pacchetti Pokemon TCG, tubi di monete sigillati, scatole di sneakers sigillate, mistery pack vari.
Come eseguiamo un test
- Calibriamo la bilancia di riferimento con il set di pesi OIML.
- Posizioniamo l'oggetto sulla superficie di test con la moneta di riferimento nell'inquadratura.
- Catturiamo tre foto a leggere angolazioni diverse (dall'alto, 45 gradi da sinistra, 45 gradi da destra).
- Eseguiamo ogni foto con la modalità appropriata dell'app.
- Registriamo la mediana delle tre stime contro la lettura della bilancia di riferimento.
- Annotiamo errore assoluto ed errore percentuale per oggetto.
- Ripetiamo l'intero lotto trimestralmente per tracciare il drift.
Risultati attuali
Ultima esecuzione del benchmark: aprile 2026.
| Categoria | Errore mediano | Errore 80° percentile | Modalità migliore |
|---|---|---|---|
| Gioielli e metalli preziosi | 4,8% | 9,2% | Oro |
| Ingredienti da cucina | 7,1% | 14,5% | Cucina |
| Imballati e spedizione | 5,6% | 11,8% | Generale |
| Collezionabili e blind box | 6,4% | 12,1% | Blind Box |
| Totale (200 oggetti) | 6,0% | 11,7% | — |
Cosa significano i numeri
Il numero in copertina "6% di errore mediano" dice che metà di tutte le stime cade entro il 6% dal peso reale, in condizioni di benchmark. L'80° percentile dell'11,7% dice che l'80% delle stime cade entro l'11,7% dal reale. Questi sono numeri di precisione utilizzabili per decisioni di acquisto, spedizione, prezzo dei gioielli e verifica delle ricette. Non sono precisione da laboratorio.
Cosa degrada questi numeri
- Sfondo con motivi — piani di lavoro in granito, tovaglie a fantasia confondono la segmentazione. Aggiunge 5-15% di errore.
- Luce scarsa — solo incandescenza, ombre dure, luci bruciate. Aggiunge 5-10% di errore.
- Nessun oggetto di riferimento — la singola leva di precisione più importante. Senza un oggetto di dimensione nota nell'inquadratura, l'errore può raddoppiare.
- Modalità sbagliata — eseguire una foto di gioielli in modalità Cucina (o viceversa) genera errori del 30%+.
- Piatti con oggetti misti — più oggetti sovrapposti in una foto degradano la segmentazione. Fotografa gli oggetti separatamente.
Cosa non misuriamo
- Peso corporeo (nessuna app su un telefono misura il peso corporeo umano; non lo affermiamo).
- Chimica da laboratorio (precisione sotto l'1% è fuori dalla portata del metodo della fotocamera nel 2026).
- Oggetti che la fotocamera non può vedere (struttura interna nascosta, imballaggio denso di pacchi multi-oggetto).
Cadenza di aggiornamento
Eseguiamo il benchmark completo di 200 oggetti trimestralmente. Quando il modello di visione sottostante viene aggiornato da OpenAI o cambiamo una catena di prompt, eseguiamo di nuovo le categorie interessate. I numeri su questa pagina riflettono l'esecuzione più recente.