Methodik

Wie wir Genauigkeit messen

Jede Genauigkeitszahl, die wir veröffentlichen — auf dieser Seite, im App-Store-Eintrag, in Blog-Beiträgen — kommt aus einem einzigen privaten Benchmark. Hier ist genau, was drinsteckt, wie wir ihn laufen lassen, und was die Zahlen bedeuten — und was nicht.

Benchmark-Aufbau

Referenzinstrument: eine kalibrierte 0,1g-Laborwaage (Modell rotiert periodisch; aktuell ist eine Schmuckwaage mit Doppelplattform und 0,01g Präzision, gegen OIML Klasse M1 Kalibriergewichte verifiziert).
Telefon: iPhone 15 Pro und iPhone 16 Pro, Rückkamera, beide separat getestet. Ergebnisse unten sind Durchschnitt der beiden.
Visions-Modell: GPT-5.1 mit Hochauflösungs-Bildeingabe via Supabase Edge Function. Jeder App-Modus (Allgemein, Gold, Küche, Blind Box) leitet zu einer modus-spezifischen Prompt-Kette.
Beleuchtung: diffuses Fensterlicht tagsüber, plus eine kontrollierte Sitzung unter weißem LED-Deckenlicht. Ergebnisse unten sind aus Fensterlicht, sofern nicht anders angegeben.
Hintergrund: einfaches weißes Papier oder glatte mittelgraue Keramik. Keine Muster.
Referenzobjekt: 1-Euro-Münze (23,25 mm Durchmesser, 7,5 g) im Bildausschnitt jeder Aufnahme.

Objektkategorien

Der Benchmark enthält 200 Objekte in vier Kategorien, gewichtet nach realer App-Nutzung — nicht gleichmäßiger Verteilung:

Schmuck und Edelmetalle (60 Objekte) — Goldringe (333, 585, 750), Silberringe, Goldketten (hohl, halbhohl, massiv in 2-6 mm Breite), Anhänger, Anlagemünzen (American Eagle, Krugerrand, Wiener Philharmoniker, Vreneli, 20 Mark Reichsgold), mit Steinen besetzte Stücke.
Küchenzutaten (50 Objekte) — Grundnahrung in gemessenen Volumen (Reis, Mehl, Zucker), Gewürze, Kräuter, Einzelportionen (Hähnchenbrust, Lachsfilet, Eier, Obst, Gemüse), portionierte Gerichte.
Verpackte und Versand-Artikel (50 Objekte) — weiche Waren in Polybeuteln, Klein-Elektronik, Artikel in Luftpolsterumschlägen, Vinyl-Schallplatten, Taschenbücher und Hardcover, kleine Keramik, Vintage-Kleidungsproben.
Sammlerstücke und Blind Boxes (40 Objekte) — versiegelte Pop-Mart-Boxen (10 Serien), Sonny Angel, Smiski, Pokemon-TCG-Päckchen, versiegelte Münzröhrchen, versiegelte Sneaker-Kartons, sortierte Mystery Packs.

Wie wir einen Test durchführen

Referenzwaage mit OIML-Gewichtssatz kalibrieren.
Objekt auf Testfläche legen, mit Referenzmünze im Bildausschnitt.
Drei Fotos in leicht unterschiedlichen Winkeln aufnehmen (von oben, 45 Grad von links, 45 Grad von rechts).
Jedes Foto durch den passenden App-Modus laufen lassen.
Median der drei Schätzungen gegen die Referenzwaagen-Anzeige protokollieren.
Absoluten und prozentualen Fehler pro Objekt notieren.
Gesamten Batch quartalsweise wiederholen, um Drift zu verfolgen.

Aktuelle Ergebnisse

Letzter Benchmark-Lauf: April 2026.

Kategorie	Median-Fehler	80. Perzentil	Bester Modus
Schmuck und Edelmetalle	4,8%	9,2%	Gold
Küchenzutaten	7,1%	14,5%	Küche
Verpackt und Versand	5,6%	11,8%	Allgemein
Sammlerstücke und Blind Boxes	6,4%	12,1%	Blind Box
Gesamt (200 Objekte)	6,0%	11,7%	—

Was die Zahlen bedeuten

Die Schlagzeile "6% Median-Fehler" sagt, dass die Hälfte aller Schätzungen unter Benchmark-Bedingungen innerhalb von 6% des echten Gewichts liegen. Das 80. Perzentil von 11,7% sagt, dass 80% der Schätzungen innerhalb von 11,7% des echten Werts liegen. Das sind brauchbare Genauigkeitszahlen für Kauf-, Versand-, Schmuckpreis- und Rezept-Plausibilitätsentscheidungen. Es ist keine Laborgenauigkeit.

Was diese Zahlen verschlechtert

Hintergrund mit Muster — Granit-Arbeitsplatten, gemusterte Tischdecken verwirren die Segmentierung. Fügt 5-15% Fehler hinzu.
Schlechtes Licht — nur Glühbirne, harte Schatten, ausgebrannte Lichter. Fügt 5-10% Fehler hinzu.
Kein Referenzobjekt — der größte einzelne Genauigkeitshebel. Ohne Objekt bekannter Größe im Bildausschnitt kann sich der Fehler verdoppeln.
Falscher Modus — ein Schmuckfoto im Küchen-Modus durchlaufen zu lassen (oder umgekehrt) erzeugt 30%+ Fehler.
Teller mit gemischten Objekten — mehrere überlappende Objekte auf einem Foto verschlechtern die Segmentierung. Fotografiere die Objekte einzeln.

Was wir nicht messen

Körpergewicht (keine App auf einem Telefon misst menschliches Körpergewicht; wir behaupten das nicht).
Laborchemie (Sub-1%-Genauigkeit liegt 2026 außerhalb der Reichweite der Kamera-Methode).
Objekte, die die Kamera nicht sehen kann (versteckte innere Struktur, dichte Verpackung mehrteiliger Pakete).

Aktualisierungs-Kadenz

Wir lassen den vollständigen 200-Objekt-Benchmark quartalsweise laufen. Wenn das zugrunde liegende Visionsmodell von OpenAI aktualisiert wird oder wir eine Prompt-Kette ändern, lassen wir die betroffenen Kategorien erneut laufen. Die Zahlen auf dieser Seite spiegeln den letzten Lauf wider.