Laatst bijgewerkt: februari 2026

Onze cijfers. Jouw vertrouwen.

We publiceren onze nauwkeurigheidsgegevens omdat transparantie vertrouwen opbouwt. Elk getal hier komt van een onafhankelijke benchmark van 211 echte teksten.

Belangrijkste statistieken

94,2%
Totale nauwkeurigheid
163 van 173 scorbare steekproeven correct geclassificeerd
2,5%
Vals-positief percentage
Slechts 3 van 118 menselijke teksten onterecht gemarkeerd
96,1%
Echt-positief percentage
49 van 51 AI-teksten correct geïdentificeerd
211
Totaal steekproeven
118 menselijk + 51 AI + 42 rand/observatie

Uitsplitsing per engine

Elke engine heeft verschillende sterke punten. Consensus combineert ze.

← Swipe to see all columns →

EngineVals-positief percentageEcht-positief percentageSterkte
GPTZero0,0%88,2%Menselijke bewaker — laagste FPR
Winston AI3,5%90,2%Gebalanceerde detector
Originality.ai18,4%94,1%Agressief — hoogste TPR
OmniScore (Consensus)2,5%96,1%Beste van beide: lage FPR + hoge TPR

FPR = menselijke tekst onterecht gemarkeerd als AI (lager is beter). TPR = AI-tekst correct geïdentificeerd (hoger is beter).

Waarom consensus elke enkele engine verslaat

Originality.ai alleen markeert 18,4% van menselijk schrijven als AI. Door consensus daalt dat tot 2,5%.

86%FPR-reductie

Originality.ai individueel FPR 18,4% → Consensus FPR 2,5%

73,9%Sterke consensus

Alle drie de engines zijn het eens over het oordeel (3/3)

23,7%Meerderheidsconsensus

Twee van drie engines zijn het eens, uitschieter genegeerd (2/3)

2,4%Verdeeld oordeel

Alle engines zijn het oneens — gemarkeerd als onzeker

Wanneer engines het oneens zijn, is dat ook informatie. Een verdeeld oordeel vertelt je dat de tekst dubbelzinnig is — eerlijker dan een valse vertrouwensscore van een enkele detector.

Hoe we de benchmark hebben gebouwd

Grondigheid erin, vertrouwen eruit.

1

211 echte steekproeven

Menselijke teksten uit 15+ bronnen: klassieke literatuur, academische papers, studentenessays, nieuwsartikelen, blogberichten, forumdiscussies en professioneel schrijven. AI-teksten van 6+ modellen: GPT-4o, Claude 3.5, Gemini, Llama, Mistral en meer.

2

Nul LLM-besmetting

Alle menselijke steekproeven zijn verzameld met pure extractietools (Firefox Reader Mode, Firecrawl). Geen LLM is gebruikt om menselijke tekst te 'reinigen' of 'extraheren' — omdat LLM-extractie AI-achtige artefacten produceert die benchmarkintegriteit aantasten.

3

Besmettingsaudit

10 steekproeven die aanvankelijk als 'menselijk' waren gelabeld, werden opnieuw geclassificeerd nadat alle drie de engines ze unaniem markeerden — herleid tot het gebruik van een LLM voor tekstextractie. Lessen geleerd, methodologie verbeterd, en deze steekproeven uitgesloten van scoring.

4

Tweetalige dekking

171 Engelse + 40 Duitse steekproeven. Beide talen getest tegen alle drie de engines om meertalige nauwkeurigheid te verifiëren.

5

Continue herevaluatie

Elke engine-upgrade, algoritmewijziging of drempelaanpassing triggert een volledige benchmark-hertest. De dataset groeit bij elke iteratie.

Most Accurate AI Detector Tools in 2026

Which AI detector is the most accurate? Individual tools achieve 85-95% accuracy, but they frequently disagree — our benchmark shows engines contradict each other on 15-30% of texts. A single score cannot give you certainty.

OmniDetect solves this with multi-engine consensus. By combining GPTZero (the academic standard), Winston AI (content marketing focus), and Originality.ai (highest single-engine precision), we reduce false positives from ~18% to just 2.5% — verified across 1,038 independent samples.

ToolEnginesFPRApproach
OmniDetect3 (consensus)2.5%Multi-engine verdict
GPTZero1~9%Perplexity-based
Originality.ai1~8%Deep learning
Winston AI1~12%Transformer-based

The methodology is simple: when three independent engines agree, the result is far more reliable than any single opinion. It's the difference between one judge and a jury.

Eerlijke beperkingen

Geen AI-detector is perfect. Dit is waar de onze moeite mee heeft.

Claude-imitatie is moeilijk te vangen

Twee AI-steekproeven die studenten- en verhalende stijlen imiteerden, scoorden onder 16%. Winston AI en Originality.ai misten ze volledig — alleen GPTZero markeerde ze.

Academisch schrijven krijgt hogere scores

Alle drie de vals-positieven waren academische of professionele teksten. Formeel, gestructureerd schrijven kan lijken op AI-outputpatronen.

Korte teksten zijn minder betrouwbaar

Teksten onder 300 woorden produceren minder stabiele resultaten bij alle engines. We raden 500+ woorden aan voor betrouwbare oordelen.

Parafraseertools verminderen nauwkeurigheid

Zwaar geparafraseerde AI-tekst kan alle drie de engines omzeilen. Geen detector op de markt lost dit volledig op.

Niet-moedertaalsprekers kunnen verhoogde scores zien

Niet-Engelstalige schrijvers produceren soms patronen die overlappen met AI-gegenereerde content, wat leidt tot hogere scores dan verwacht.

Veelgestelde vragen

Oordeel zelf

Cijfers zijn mooi. Ervaring is beter. Probeer een gratis scan en beoordeel de nauwkeurigheid zelf.

Gratis scan starten