Er is een nieuw AI-model gelanceerd dat zeer realistische tabulaire data kan genereren – het type gestructureerde data dat veel wordt gebruikt in de zorg, de financiële sector en de sociale wetenschappen. De nieuwe methode, TabCascade genaamd, pakt een al lang bestaand probleem in kunstmatige intelligentie aan: hoewel generatieve AI opmerkelijke vooruitgang heeft geboekt in het creëren van realistische beelden, video’s, tekst en andere vormen van data, is het genereren van realistische tabulaire data moeilijker gebleven.
Het model is ontwikkeld door promovendus Markus Mueller, universitair docent Kathrin Gruber en hoogleraar Dennis Fok van het Econometrisch Instituut van Erasmus School of Economics. Zij presenteren hun bevindingen op de 43e International Conference on Machine Learning, een van de wereldwijde top drie conferenties op het gebied van AI. Dit jaar vindt de conferentie plaats in Seoul, Zuid-Korea, van 6–11 juli. Daarnaast is de code van het model openbaar beschikbaar gemaakt.
Bestaande AI-methoden ondervinden moeilijkheden met het modelleren van de complexiteit van realistische data, in het bijzonder als het gaat om het genereren van missende waarden. In tegenstelling tot beelden of tekst, die slechts één vorm van informatie bevatten, combineren tabulaire datasets vaak numerieke waarden, categorische informatie en onvolledige of ontbrekende invoer binnen één dataset, en soms zelfs binnen één variabele.
Deze gemengde datatypen zijn in de praktijk gebruikelijk en dragen vaak belangrijke betekenis in de echte wereld. Zo kan een gemiste doktersafspraak die wordt geregistreerd als een ontbrekende invoer belangrijke informatie geven over de gezondheid van een patiënt, omdat dit kan duiden op een patiënt die te ziek is om naar de afspraak te komen of al is opgenomen op de spoedeisende hulp. Op vergelijkbare wijze kunnen onbeantwoorde vragen in een economische enquête gedragspatronen of sociale patronen blootleggen.
Om deze beperkingen aan te pakken, ontwikkelden de onderzoekers TabCascade, een nieuw AI-model dat specifiek is ontworpen om de volledige complexiteit van tabulaire data uit de echte wereld te vangen. De methode werkt in twee stappen. Eerst leert het de globale, 'lage resolutie’ structuur van een dataset, zoals categorische patronen en grove representaties van numerieke variabelen, waarna het deze informatie geleidelijk verfijnt tot een gedetailleerde ‘hoge resolutie’ representatie, vergelijkbaar met hoe een beeld scherper wordt wanneer je van een ruwe schets naar een hogeresolutiefoto gaat.
Deze cascadematige aanpak stelt TabCascade in staat subtiele statistische patronen, belangrijke relaties tussen variabelen, zeldzame gebeurtenissen en complexe mixed-type kenmerken vast te leggen die bestaande methoden vaak missen. Belangrijk is dat het het eerste generatieve model op basis van diffusion of flow is dat in staat is om realistisch ontbrekende waarden te genereren, samen met continue en categorische informatie binnen hetzelfde raamwerk. Bestaande modellen combineren afzonderlijke diffusieprocessen voor verschillende datatypen in één model met één gezamenlijke trainingsdoelstelling. Dit zorgt ervoor dat modellen impliciet de generatie van het ene kenmerk boven het andere bevoordelen, wat de algehele kwaliteit van de gegenereerde voorbeelden kan aantasten. De cascadestructuur van TabCascade, met zijn afzonderlijke trainingsdoelen, zorgt ervoor dat alle kenmerktypen de benodigde aandacht krijgen.
In benchmarktests verbeterde TabCascade de realisme van synthetische datasets aanzienlijk. In één belangrijke evaluatie verbeterde de methode de detectieprestatie met meer dan 50 procent vergeleken met de op één na best presterende aanpak, waardoor het voor machinelearningmodellen aanzienlijk lastiger werd om synthetische voorbeelden te onderscheiden van data uit de echte wereld.
- Promovendus
- Universitair Docent
- Professor
- Meer informatie
Voor meer informatie kunt u contact opnemen met Ronald de Groot, Media & Public Relations Officer bij Erasmus School of Economics, rdegroot@ese.eur.nl, mobiel: 06 53 641 846.
- Gerelateerde content
