AI content detectie: Bard vs ChatGPT vs Claude

Inhoud

Onderzoekers hebben het idee getest dat een AI-model mogelijk een voordeel heeft bij het zelf detecteren van zijn eigen content, omdat voor de detectie dezelfde training en datasets werden gebruikt. Tot hun verrassing ontdekten ze dat van de drie geteste AI-modellen, de content geproduceerd door één ervan zo ondetecteerbaar was dat zelfs de AI die het had gegenereerd het niet kon herkennen.

De studie werd uitgevoerd door onderzoekers van de Afdeling Informatica, Lyle School of Engineering aan de Southern Methodist University.

AI content detecteren

Onderzoekers bestuderen de wisselende vermogens van AI-detectoren om AI-gegenereerde content te herkennen en wijzen op mogelijke nieuwe methoden voor het identificeren van door AI geproduceerde inhoud. Veel AI-detectoren zijn getraind om te zoeken naar de kenmerkende signalen van door AI gegenereerde content. Deze signalen, ‘artefacten’ genoemd, ontstaan door de onderliggende transformer technologie. Maar andere artefacten zijn uniek voor elk basismodel (het Groot Taalmodel waarop de AI is gebaseerd).

Deze artefacten zijn uniek voor elke AI en ontstaan door de onderscheidende trainingsdata en fijnafstelling die altijd anders is van het ene AI-model naar het andere.

De onderzoekers ontdekten bewijs dat het juist deze uniciteit is die een AI in staat stelt om met groter succes zijn eigen content te identificeren, aanzienlijk beter dan het proberen te identificeren van content gegenereerd door een andere AI.

Bard heeft een betere kans om door Bard gegenereerde content te identificeren en ChatGPT heeft een hogere succesratio bij het identificeren van door ChatGPT gegenereerde content, maar…

De onderzoekers ontdekten dat dit niet waar was voor content gegenereerd door Claude. Claude had moeite met het detecteren van content die het zelf had gegenereerd. De onderzoekers deelden een idee waarom Claude niet in staat was om zijn eigen content te detecteren en dit artikel bespreekt dat verder.

Dit is het idee achter de onderzoekstests:

Omdat elk model op een andere manier getraind kan worden, is het een uitdaging om één detectietool te creëren die de artefacten herkent die door alle mogelijke generatieve AI-tools worden gecreëerd.

In onze aanpak ontwikkelen we een methode genaamd zelfdetectie, waarbij we het generatieve model zelf gebruiken om zijn eigen artefacten te detecteren en zo eigen gegenereerde tekst te onderscheiden van door mensen geschreven tekst.

Dit biedt het voordeel dat we niet alle generatieve AI-modellen hoeven te leren detecteren, maar alleen toegang nodig hebben tot een generatief AI-model voor detectie.

Dit is een groot voordeel in een wereld waar continu nieuwe modellen worden ontwikkeld en getraind.

Methodologie

De onderzoekers testten drie AI-modellen:

ChatGPT-3.5 van OpenAI
Bard van Google
Claude van Anthropic

Alle gebruikte modellen waren de versies van september 2023.

Er werd een dataset gecreëerd met vijftig verschillende onderwerpen. Elk AI-model kreeg exact dezelfde opdrachten om essays van ongeveer 250 woorden te creëren voor elk van de vijftig onderwerpen, wat resulteerde in vijftig essays voor elk van de drie AI-modellen.

Elk AI-model kreeg vervolgens dezelfde opdracht om hun eigen content te parafraseren en een extra essay te genereren dat een herschrijving was van elk origineel essay.

Ze verzamelden ook vijftig door mensen gegenereerde essays over elk van de vijftig onderwerpen. Alle door mensen gegenereerde essays waren afkomstig van de BBC.

De onderzoekers gebruikten vervolgens zero-shot prompting om de door AI gegenereerde content zelf te detecteren.

Zero-shot prompting is een type prompting dat vertrouwt op het vermogen van AI-modellen om taken uit te voeren waarvoor ze niet specifiek zijn getraind.

De onderzoekers legden hun methodologie verder uit:

We hebben een nieuwe instantie van elk AI-systeem gecreëerd en deze een specifieke vraag gesteld: 'Of de volgende tekst overeenkomt met zijn schrijfpatroon en woordkeuze.' De procedure wordt herhaald voor de originele, parafraseerde en door mensen geschreven essays, en de resultaten worden vastgelegd.

We hebben ook het resultaat van het AI-detectiehulpmiddel ZeroGPT toegevoegd. We gebruiken dit resultaat niet om prestaties te vergelijken, maar als basislijn om aan te tonen hoe uitdagend de detectietaak is.

Ze merkten ook op dat een nauwkeurigheidspercentage van 50% gelijkstaat aan gokken, wat in wezen kan worden beschouwd als een nauwkeurigheidsniveau dat als een mislukking wordt gezien.

Zelfdetectie

Het moet worden opgemerkt dat de onderzoekers erkenden dat hun steekproefgrootte laag was en zeiden dat ze geen definitieve claims maakten over de resultaten.

Hieronder staat een grafiek die de succespercentages toont van AI zelfdetectie van de eerste reeks essays. De rode waarden vertegenwoordigen de AI zelfdetectie en het blauw toont hoe goed het AI-detectiehulpmiddel ZeroGPT presteerde.

Bard deed het redelijk goed in het detecteren van zijn eigen content en ChatGPT presteerde ook vergelijkbaar goed bij het detecteren van zijn eigen content.

ZeroGPT, het AI-detectiehulpmiddel, detecteerde de content van Bard zeer goed en presteerde iets minder goed bij het detecteren van ChatGPT-content.

ZeroGPT slaagde er in wezen niet in om de door Claude gegenereerde content te detecteren en presteerde slechter dan de drempel van 50%.

Claude was de uitzondering in de groep omdat het niet in staat was om zijn eigen content te detecteren en presteerde aanzienlijk slechter dan Bard en ChatGPT.

De onderzoekers opperden dat het zou kunnen zijn dat de output van Claude minder detecteerbare artefacten bevat, wat verklaart waarom zowel Claude als ZeroGPT de essays van Claude niet konden detecteren als AI-gegenereerd.

Dus hoewel Claude niet betrouwbaar zijn eigen content kon detecteren, bleek dat een teken te zijn dat de output van Claude van hogere kwaliteit was in termen van het produceren van minder AI-artefacten.

ZeroGPT presteerde beter in het detecteren van door Bard gegenereerde content dan in het detecteren van ChatGPT- en Claude-content. De onderzoekers vermoedden dat dit zou kunnen zijn omdat Bard meer detecteerbare artefacten genereert, waardoor Bard gemakkelijker te detecteren is.

Dus wat betreft zelfdetectie van content, kan het zijn dat Bard meer detecteerbare artefacten genereert en Claude minder artefacten.

Zelfdetectie van geparafraseerde inhoud

De onderzoekers vermoedden dat AI-modellen in staat zouden zijn om hun eigen geparafraseerde tekst zelf te detecteren, omdat de artefacten die door het model worden gecreëerd (zoals gedetecteerd in de originele essays) ook aanwezig zouden moeten zijn in de herschreven tekst.

De onderzoekers erkenden echter dat de prompts voor het schrijven van de tekst en het parafraseren verschillend zijn, omdat elke herschrijving anders is dan de originele tekst, wat vervolgens tot verschillende zelfdetectieresultaten kan leiden voor de zelfdetectie van geparafraseerde tekst.

De resultaten van de zelfdetectie van geparafraseerde tekst waren inderdaad anders dan de zelfdetectie van de originele essaytest.

Bard kon de geparafraseerde inhoud op een vergelijkbaar niveau zelf detecteren.
ChatGPT kon de geparafraseerde inhoud niet zelf detecteren met een veel hoger percentage dan de 50% (wat gelijk staat aan gokken).
De prestaties van ZeroGPT waren vergelijkbaar met de resultaten in de vorige test en presteerden iets slechter.

Misschien wel het meest interessante resultaat werd geleverd door Anthropic’s Claude.

Claude kon de geparafraseerde inhoud zelf detecteren (maar was niet in staat om het originele essay in de vorige test te detecteren).

Het is een interessant resultaat dat de originele essays van Claude blijkbaar zo weinig artefacten bevatten om aan te geven dat het door AI gegenereerd was dat zelfs Claude het niet kon detecteren.

Toch kon het de parafrase zelf detecteren terwijl ZeroGPT dat niet kon.

De onderzoeken zeggen:

De ontdekking dat parafraseren de zelfdetectie van ChatGPT verhindert, terwijl het de zelfdetectie van Claude verbetert, is zeer interessant en kan het gevolg zijn van de interne mechanismen van deze twee transformermodellen.

Deze tests leverden bijna onvoorspelbare resultaten op, vooral met betrekking tot Anthropic’s Claude, en deze trend zette zich voort in de test van hoe goed de AI-modellen elkaars inhoud detecteerden, wat een interessante wending had.

Resultaten: AI-Modellen die elkaars inhoud detecteren

De volgende test toonde aan hoe goed elk AI-model was in het detecteren van de inhoud die door de andere AI-modellen werd gegenereerd.

Als het waar is dat Bard meer artefacten genereert dan de andere modellen, zullen de andere modellen dan gemakkelijk door Bard gegenereerde inhoud kunnen detecteren?

De resultaten tonen aan dat ja, door Bard gegenereerde inhoud het gemakkelijkst te detecteren is door de andere AI-modellen.

Wat betreft het detecteren van door ChatGPT gegenereerde inhoud, konden zowel Claude als Bard het niet detecteren als door AI gegenereerd (net zoals Claude het niet kon detecteren).

ChatGPT kon door Claude gegenereerde inhoud detecteren met een hogere frequentie dan zowel Bard als Claude, maar die hogere frequentie was niet veel beter dan gokken.

De bevinding hier is dat ze allemaal niet zo goed waren in het detecteren van elkaars inhoud, wat volgens de onderzoekers kan aantonen dat zelfdetectie een veelbelovend onderzoeksgebied is.

Op dit moment moet worden opgemerkt dat de onderzoekers niet beweren dat deze resultaten allesomvattend zijn over AI-detectie in het algemeen. De focus van het onderzoek was om te testen of AI-modellen succesvol konden zijn in het zelf detecteren van hun eigen gegenereerde content. Het antwoord is grotendeels ja; ze doen het beter in zelfdetectie, maar de resultaten lijken op wat werd gevonden met ZEROGpt.

De onderzoekers zeggen:

Zelfdetectie toont een vergelijkbare detectiekracht als ZeroGPT, maar merk op dat het doel van deze studie niet is om te beweren dat zelfdetectie superieur is aan andere methoden. Dat zou een uitgebreide studie vereisen om te vergelijken met vele geavanceerde AI-inhoudsdetectietools. Hier onderzoeken we enkel de basisvaardigheid van de modellen voor zelfdetectie.

Conclusie

De resultaten van de test bevestigen dat het detecteren van door AI gegenereerde inhoud geen eenvoudige opgave is. Bard kan zowel zijn eigen content als geparafraseerde content detecteren.

ChatGPT kan zijn eigen content herkennen, maar presteert minder goed bij zijn geparafraseerde content.

Claude valt op omdat het zijn eigen content niet betrouwbaar kan detecteren, maar wel in staat was om de geparafraseerde content te herkennen, wat nogal vreemd en onverwacht was.

Het detecteren van Claude’s originele essays en de geparafraseerde essays was een uitdaging voor zowel ZeroGPT als voor de andere AI-modellen.