Wie wir Genauigkeit messen
Jede Genauigkeitszahl, die wir veröffentlichen — auf dieser Seite, im App-Store-Eintrag, in Blog-Beiträgen — kommt aus einem einzigen privaten Benchmark. Hier ist genau, was drinsteckt, wie wir ihn laufen lassen, und was die Zahlen bedeuten — und was nicht.
Benchmark-Aufbau
- Referenzinstrument: eine kalibrierte 0,1g-Laborwaage (Modell rotiert periodisch; aktuell ist eine Schmuckwaage mit Doppelplattform und 0,01g Präzision, gegen OIML Klasse M1 Kalibriergewichte verifiziert).
- Telefon: iPhone 15 Pro und iPhone 16 Pro, Rückkamera, beide separat getestet. Ergebnisse unten sind Durchschnitt der beiden.
- Visions-Modell: GPT-5.1 mit Hochauflösungs-Bildeingabe via Supabase Edge Function. Jeder App-Modus (Allgemein, Gold, Küche, Blind Box) leitet zu einer modus-spezifischen Prompt-Kette.
- Beleuchtung: diffuses Fensterlicht tagsüber, plus eine kontrollierte Sitzung unter weißem LED-Deckenlicht. Ergebnisse unten sind aus Fensterlicht, sofern nicht anders angegeben.
- Hintergrund: einfaches weißes Papier oder glatte mittelgraue Keramik. Keine Muster.
- Referenzobjekt: 1-Euro-Münze (23,25 mm Durchmesser, 7,5 g) im Bildausschnitt jeder Aufnahme.
Objektkategorien
Der Benchmark enthält 200 Objekte in vier Kategorien, gewichtet nach realer App-Nutzung — nicht gleichmäßiger Verteilung:
- Schmuck und Edelmetalle (60 Objekte) — Goldringe (333, 585, 750), Silberringe, Goldketten (hohl, halbhohl, massiv in 2-6 mm Breite), Anhänger, Anlagemünzen (American Eagle, Krugerrand, Wiener Philharmoniker, Vreneli, 20 Mark Reichsgold), mit Steinen besetzte Stücke.
- Küchenzutaten (50 Objekte) — Grundnahrung in gemessenen Volumen (Reis, Mehl, Zucker), Gewürze, Kräuter, Einzelportionen (Hähnchenbrust, Lachsfilet, Eier, Obst, Gemüse), portionierte Gerichte.
- Verpackte und Versand-Artikel (50 Objekte) — weiche Waren in Polybeuteln, Klein-Elektronik, Artikel in Luftpolsterumschlägen, Vinyl-Schallplatten, Taschenbücher und Hardcover, kleine Keramik, Vintage-Kleidungsproben.
- Sammlerstücke und Blind Boxes (40 Objekte) — versiegelte Pop-Mart-Boxen (10 Serien), Sonny Angel, Smiski, Pokemon-TCG-Päckchen, versiegelte Münzröhrchen, versiegelte Sneaker-Kartons, sortierte Mystery Packs.
Wie wir einen Test durchführen
- Referenzwaage mit OIML-Gewichtssatz kalibrieren.
- Objekt auf Testfläche legen, mit Referenzmünze im Bildausschnitt.
- Drei Fotos in leicht unterschiedlichen Winkeln aufnehmen (von oben, 45 Grad von links, 45 Grad von rechts).
- Jedes Foto durch den passenden App-Modus laufen lassen.
- Median der drei Schätzungen gegen die Referenzwaagen-Anzeige protokollieren.
- Absoluten und prozentualen Fehler pro Objekt notieren.
- Gesamten Batch quartalsweise wiederholen, um Drift zu verfolgen.
Aktuelle Ergebnisse
Letzter Benchmark-Lauf: April 2026.
| Kategorie | Median-Fehler | 80. Perzentil | Bester Modus |
|---|---|---|---|
| Schmuck und Edelmetalle | 4,8% | 9,2% | Gold |
| Küchenzutaten | 7,1% | 14,5% | Küche |
| Verpackt und Versand | 5,6% | 11,8% | Allgemein |
| Sammlerstücke und Blind Boxes | 6,4% | 12,1% | Blind Box |
| Gesamt (200 Objekte) | 6,0% | 11,7% | — |
Was die Zahlen bedeuten
Die Schlagzeile "6% Median-Fehler" sagt, dass die Hälfte aller Schätzungen unter Benchmark-Bedingungen innerhalb von 6% des echten Gewichts liegen. Das 80. Perzentil von 11,7% sagt, dass 80% der Schätzungen innerhalb von 11,7% des echten Werts liegen. Das sind brauchbare Genauigkeitszahlen für Kauf-, Versand-, Schmuckpreis- und Rezept-Plausibilitätsentscheidungen. Es ist keine Laborgenauigkeit.
Was diese Zahlen verschlechtert
- Hintergrund mit Muster — Granit-Arbeitsplatten, gemusterte Tischdecken verwirren die Segmentierung. Fügt 5-15% Fehler hinzu.
- Schlechtes Licht — nur Glühbirne, harte Schatten, ausgebrannte Lichter. Fügt 5-10% Fehler hinzu.
- Kein Referenzobjekt — der größte einzelne Genauigkeitshebel. Ohne Objekt bekannter Größe im Bildausschnitt kann sich der Fehler verdoppeln.
- Falscher Modus — ein Schmuckfoto im Küchen-Modus durchlaufen zu lassen (oder umgekehrt) erzeugt 30%+ Fehler.
- Teller mit gemischten Objekten — mehrere überlappende Objekte auf einem Foto verschlechtern die Segmentierung. Fotografiere die Objekte einzeln.
Was wir nicht messen
- Körpergewicht (keine App auf einem Telefon misst menschliches Körpergewicht; wir behaupten das nicht).
- Laborchemie (Sub-1%-Genauigkeit liegt 2026 außerhalb der Reichweite der Kamera-Methode).
- Objekte, die die Kamera nicht sehen kann (versteckte innere Struktur, dichte Verpackung mehrteiliger Pakete).
Aktualisierungs-Kadenz
Wir lassen den vollständigen 200-Objekt-Benchmark quartalsweise laufen. Wenn das zugrunde liegende Visionsmodell von OpenAI aktualisiert wird oder wir eine Prompt-Kette ändern, lassen wir die betroffenen Kategorien erneut laufen. Die Zahlen auf dieser Seite spiegeln den letzten Lauf wider.