Wir veröffentlichen unsere Genauigkeitsdaten, weil Transparenz Vertrauen schafft. Jede Zahl hier stammt aus einem unabhängigen Benchmark mit 211 realen Textstichproben.
Jede Engine hat unterschiedliche Stärken. Der Konsens vereint sie.
← Swipe to see all columns →
| Engine | Falsch-Positiv-Rate | Richtig-Positiv-Rate | Stärke |
|---|---|---|---|
| GPTZero | 0,0 % | 88,2 % | Menschenschützer — niedrigste FPR |
| Winston AI | 3,5 % | 90,2 % | Ausgewogener Detektor |
| Originality.ai | 18,4 % | 94,1 % | Aggressiv — höchste TPR |
| OmniScore (Konsens) | 2,5 % | 96,1 % | Das Beste aus beiden: niedrige FPR + hohe TPR |
FPR = menschlicher Text fälschlicherweise als KI markiert (niedriger ist besser). TPR = KI-Text korrekt erkannt (höher ist besser).
Originality.ai allein markiert 18,4 % menschlicher Texte als KI. Durch den Konsens sinkt das auf 2,5 %.
Originality.ai individuelle FPR 18,4 % → Konsens-FPR 2,5 %
Alle drei Engines stimmen im Ergebnis überein (3/3)
Zwei von drei Engines stimmen überein, Ausreißer ignoriert (2/3)
Alle Engines sind sich uneinig — als unsicher markiert
Wenn Engines sich nicht einig sind, ist das auch eine Information. Ein geteiltes Ergebnis sagt dir, dass der Text mehrdeutig ist — ehrlicher als ein falsches Konfidenz-Ergebnis eines einzelnen Detektors.
Sorgfalt rein, Vertrauen raus.
Menschliche Texte aus 15+ Quellen: klassische Literatur, wissenschaftliche Arbeiten, Studierendenaufsätze, Nachrichtenartikel, Blogbeiträge, Forenbeiträge und professionelles Schreiben. KI-Texte von 6+ Modellen: GPT-4o, Claude 3.5, Gemini, Llama, Mistral und weitere.
Alle menschlichen Stichproben wurden mit reinen Extraktionswerkzeugen (Firefox Reader Mode, Firecrawl) gesammelt. Kein LLM wurde zum 'Bereinigen' oder 'Extrahieren' menschlicher Texte verwendet — da LLM-Extraktion KI-ähnliche Artefakte erzeugt.
10 zunächst als 'menschlich' eingestufte Stichproben wurden umklassifiziert, nachdem alle drei Engines sie einstimmig markierten — zurückgeführt auf LLM-Textextraktion. Lektion gelernt, Methodik verbessert.
171 englische + 40 deutsche Stichproben. Beide Sprachen wurden gegen alle drei Engines getestet, um die sprachübergreifende Genauigkeit zu verifizieren.
Jedes Engine-Upgrade, jede Algorithmusänderung oder Schwellenwertanpassung löst einen vollständigen Benchmark-Durchlauf aus. Der Datensatz wächst mit jeder Iteration.
Which AI detector is the most accurate? Individual tools achieve 85-95% accuracy, but they frequently disagree — our benchmark shows engines contradict each other on 15-30% of texts. A single score cannot give you certainty.
OmniDetect solves this with multi-engine consensus. By combining GPTZero (the academic standard), Winston AI (content marketing focus), and Originality.ai (highest single-engine precision), we reduce false positives from ~18% to just 2.5% — verified across 1,038 independent samples.
| Tool | Engines | FPR | Approach |
|---|---|---|---|
| OmniDetect | 3 (consensus) | 2.5% | Multi-engine verdict |
| GPTZero | 1 | ~9% | Perplexity-based |
| Originality.ai | 1 | ~8% | Deep learning |
| Winston AI | 1 | ~12% | Transformer-based |
The methodology is simple: when three independent engines agree, the result is far more reliable than any single opinion. It's the difference between one judge and a jury.
Kein KI-Detektor ist perfekt. Hier sind unsere bekannten Schwächen.
Zwei KI-Stichproben, die Studierenden- und Erzählstile imitierten, erzielten unter 16 %. Winston AI und Originality.ai übersahen sie vollständig — nur GPTZero erkannte sie.
Alle drei Falsch-Positiven waren akademische oder professionelle Texte. Formales, strukturiertes Schreiben kann KI-Mustern ähneln.
Texte unter 300 Wörtern liefern bei allen Engines weniger stabile Ergebnisse. Wir empfehlen 500+ Wörter für zuverlässige Ergebnisse.
Stark paraphrasierter KI-Text kann alle drei Engines umgehen. Kein Detektor auf dem Markt löst dieses Problem vollständig.
Nicht-englische Muttersprachler erzeugen manchmal Muster, die sich mit KI-generierten Inhalten überschneiden, was zu höheren Werten führt.
Zahlen sind gut. Erfahrung ist besser. Starte einen kostenlosen Scan und beurteile die Genauigkeit selbst.
Kostenlos prüfen