Modelinstorting

Modelinstorting (Engels: model collapse) is een fenomeen waarbij modellen voor machinaal leren geleidelijk degraderen als gevolg van fouten die voortkomen uit ongecontroleerde training op de uitkomsten van een ander model (bijvoorbeeld eerdere versies van zichzelf). Deze modellen produceren dan zogenaamde synthetische data, data die kunstmatig gegenereerd is in plaats van gebaseerd op de werkelijkheid.

Shumailov^[1] bedacht de term en beschreef twee specifieke stadia van de degradatie: vroege modelinstorting en late modelinstorting.

Bij een vroege modelinstorting begint het model informatie te verliezen over de uiteinden van de distributie. Dit heeft vooral invloed op minderheidsgegevens. Uit later onderzoek is gebleken dat een vroege modelinstorting moeilijk op te merken is, omdat de algehele prestatie lijkt te verbeteren, terwijl het model juist minder goed presteert op basis van minderheidsgegevens.
Bij een late modelinstorting verliest het model een aanzienlijk deel van zijn prestaties, raken concepten verward en verliest het het grootste deel van zijn variantie.

Onderzoeker Jathan Sadowski van de Monash University omschreef het fenomeen als "Habsburg AI", of "een systeem dat zo sterk getraind is op de outputs van andere generatieve AI's dat het een inteeltmutant wordt, mogelijk met overdreven groteske eigenschappen".

Mechanisme

Het gebruik van synthetische data als trainingsdata kan leiden tot problemen met de kwaliteit en betrouwbaarheid van het getrainde model. Het instorten van een model vindt plaats om drie hoofdredenen:

fouten in de functionele benadering
steekproeffouten
leerfouten

Het is belangrijk om te weten dat dit zelfs in de eenvoudigste modellen voorkomt, waarin niet alle bronnen van fouten aanwezig zijn. In complexere modellen stapelen de fouten zich vaak op, wat leidt tot een snellere ineenstorting.

Oneensheid over de impact in de echte wereld

Sommige onderzoekers en commentatoren op het gebied van modelinstorting waarschuwen dat dit fenomeen een fundamentele bedreiging kan vormen voor de toekomstige ontwikkeling van generatieve AI: wanneer door AI gegenereerde gegevens op internet worden gedeeld, komen ze onvermijdelijk in toekomstige trainingsdatasets terecht, die vaak van internet worden gecrawld. Als training op "slop" (grote hoeveelheden ongemarkeerde synthetische data) onvermijdelijk leidt tot een ineenstorting van het model, kan dit een lastig probleem vormen.

Recent zijn andere onderzoekers het echter niet eens met deze stelling, en hebben zij laten zien dat als synthetische data zich opstapelen naast door mensen gegenereerde data, de ineenstorting van het model wordt voorkomen. De onderzoekers betogen dat de in de loop der tijd verzamelde gegevens een realistischer beschrijving van de werkelijkheid vormen dan het jaarlijks wissen van alle bestaande gegevens, en dat de impact van het ineenstorten van het model in de echte wereld wellicht niet zo catastrofaal is als gevreesd.

Een alternatieve tak van de literatuur onderzoekt het gebruik van machinelearning-detectoren en watermerken om door modellen gegenereerde data te identificeren en eruit te filteren.

Impact op grote taalmodellen

In de context van grote taalmodellen (Large Language Models of LLM's) heeft onderzoek uitgewezen dat het trainen van LLM's op door voorgangers gegenereerde tekst – taalmodellen worden getraind op de synthetische data die door eerdere modellen zijn geproduceerd – een consistente afname veroorzaakt van de lexicale, syntactische en semantische diversiteit van de modeluitvoer door opeenvolgende iteraties, wat met name opmerkelijk is voor taken die een hoge mate van creativiteit vereisen.

Bronnen

Dit artikel of een eerdere versie ervan is een (gedeeltelijke) vertaling van het artikel Model collapse op de Engelstalige Wikipedia, dat onder de licentie Creative Commons Naamsvermelding/Gelijk delen valt. Zie de bewerkingsgeschiedenis aldaar.

↑ (en) Shumailov, Ilia (juli 2024). AI models collapse when trained on recursively generated data. Nature 631 (8022): 755–759. ISSN: 1476-4687. PMID 39048682. PMC 11269175. DOI: 10.1038/s41586-024-07566-y.

[Shumailov-2024-1] (en) Shumailov, Ilia (juli 2024). AI models collapse when trained on recursively generated data. Nature 631 (8022): 755–759. ISSN: 1476-4687. PMID 39048682. PMC 11269175. DOI: 10.1038/s41586-024-07566-y.

[1]