Méthodologie

Comment nous mesurons la précision

Chaque chiffre de précision que nous publions — sur ce site, dans la fiche App Store, dans les articles du blog — vient d'un seul benchmark privé. Voici exactement ce qu'il contient, comment nous l'exécutons, et ce que les chiffres signifient ou non.

Configuration du benchmark

Instrument de référence : une balance de laboratoire calibrée à 0,1g (modèle alterné périodiquement ; l'actuel est une balance de bijouterie à double plateforme avec précision 0,01g vérifiée contre un jeu de poids de calibrage OIML Classe M1).
Téléphone : iPhone 15 Pro et iPhone 16 Pro, appareil photo arrière, tous deux testés séparément. Les résultats ci-dessous sont la moyenne des deux.
Modèle de vision : GPT-5.1 avec entrée d'image haute résolution via Supabase Edge Function. Chaque mode de l'app (Général, Or, Cuisine, Blind Box) route vers une chaîne de prompt spécifique du mode.
Éclairage : lumière diffuse de fenêtre en journée, plus une session contrôlée sous lumière LED blanche de plafond. Les résultats ci-dessous proviennent de la lumière de fenêtre sauf indication contraire.
Fond : papier blanc uni ou céramique gris-moyen lisse. Pas de motifs.
Objet de référence : pièce de €1 (23,25 mm de diamètre, 7,5 g) incluse dans le cadre de chaque cliché.

Catégories d'objets

Le benchmark contient 200 objets dans quatre catégories, pondérées pour correspondre à l'usage réel de l'app, pas à une distribution uniforme :

Bijoux et métaux précieux (60 objets) — bagues en or (10k, 14k, 18k), bagues en argent, chaînes en or (creuses, semi-creuses, massives en largeurs 2-6 mm), pendentifs, pièces de bullion (American Eagle, Krugerrand, Maple Leaf, Napoléon, sovereigns), pièces serties.
Ingrédients de cuisine (50 objets) — produits de base en volumes mesurés (riz, farine, sucre), épices, herbes, aliments en portion individuelle (blanc de poulet, filet de saumon, œufs, fruits, légumes), plats portionnés.
Articles emballés et d'expédition (50 objets) — articles souples en poly-mailer, petite électronique, articles en bubble mailer, disques vinyle, livres de poche et reliés, petites céramiques, échantillons de vêtements vintage.
Objets de collection et blind boxes (40 objets) — boîtes scellées Pop Mart (10 séries), boîtes Sonny Angel, Smiski, paquets Pokemon TCG, tubes de pièces scellés, boîtes de sneakers scellées, mystery packs assortis.

Comment nous exécutons un test

Calibrer la balance de référence avec le jeu de poids OIML.
Placer l'objet sur la surface de test avec la pièce de référence dans le cadre.
Capturer trois photos sous des angles légèrement différents (vue du dessus, 45 degrés depuis la gauche, 45 degrés depuis la droite).
Faire passer chaque photo par le mode approprié de l'app.
Enregistrer la médiane des trois estimations contre la lecture de la balance de référence.
Noter erreur absolue et erreur en pourcentage par objet.
Répéter le lot complet trimestriellement pour suivre la dérive.

Résultats actuels

Dernière exécution du benchmark : avril 2026.

Catégorie	Erreur médiane	Erreur 80e percentile	Meilleur mode
Bijoux et métaux précieux	4,8%	9,2%	Or
Ingrédients de cuisine	7,1%	14,5%	Cuisine
Emballés et expédition	5,6%	11,8%	Général
Collection et blind boxes	6,4%	12,1%	Blind Box
Total (200 objets)	6,0%	11,7%	—

Ce que les chiffres signifient

Le chiffre titre "6% d'erreur médiane" dit que la moitié de toutes les estimations tombent à moins de 6% du poids réel, dans des conditions de benchmark. Le 80e percentile à 11,7% dit que 80% des estimations tombent à moins de 11,7% du réel. Ce sont des chiffres de précision utilisables pour les décisions d'achat, d'expédition, de prix de bijoux et de vérification de recettes. Ce ne sont pas des précisions de laboratoire.

Ce qui dégrade ces chiffres

Fond à motifs — plans de travail en granit, nappes à motifs perturbent la segmentation. Ajoute 5-15% d'erreur.
Mauvais éclairage — incandescent uniquement, ombres dures, hautes lumières brûlées. Ajoute 5-10% d'erreur.
Pas d'objet de référence — le levier de précision unique le plus important. Sans objet de taille connue dans le cadre, l'erreur peut doubler.
Mauvais mode — passer une photo de bijou en mode Cuisine (ou inversement) génère des erreurs de 30%+.
Assiettes avec articles mélangés — plusieurs articles superposés sur une photo dégradent la segmentation. Photographiez les articles séparément.

Ce que nous ne mesurons pas

Poids corporel (aucune app sur un téléphone ne mesure le poids corporel humain ; nous ne le prétendons pas).
Chimie de laboratoire (la précision sous 1% est hors de portée de la méthode de l'appareil photo en 2026).
Articles que l'appareil photo ne peut pas voir (structure interne cachée, emballage dense de paquets multi-articles).

Cadence de mise à jour

Nous exécutons le benchmark complet de 200 articles trimestriellement. Quand le modèle de vision sous-jacent est mis à jour par OpenAI ou que nous changeons une chaîne de prompt, nous ré-exécutons les catégories affectées. Les chiffres sur cette page reflètent l'exécution la plus récente.