Erasmus Universiteit Rotterdam en open-acces database CORE (COnnecting REpositories) lanceren samen SHARE, een nieuwe reeks AI-modellen die speciaal ontworpen zijn voor de sociale en geesteswetenschappen (SSH). Deze modellen moeten onderzoekers, docenten en studenten helpen met het bedenken van nieuwe invalshoeken binnen onderzoek, leerstof en discussies. Het projectteam van SHARE bestaat uit João Gonçalves (ESHCC), Sonia de Jager (ESPhil) en Nick Jelicic (Future Library Lab).
SHARE (Social-Humanities AI for Research and Education) vult een kritiek gat in het LLM-landschap op. LLM's zijn Large Language Models waarop AI-chatbots zoals ChatGPT zijn gebaseerd. De meeste taalmodellen worden namelijk getraind op algemene webgegevens of technische bronnen die worden gedomineerd door de bètawetenschappen (STEM: Science, Technology, Engineering en Mathematics). Die zijn daardoor vaak niet in staat om nuance, context en complexe theorieën uit de sociologie, geschiedenis, filosofie en economie te begrijpen.
Interdisciplinariteit en de ethiek van het verzamelen en delen van gegevens
Het projectteam besloot om expliciet open-sourcebibliotheken te benaderen en gesprekken aan te gaan met gegevenspartners, in plaats van alleen maar beschikbare gegevens te verzamelen. Dit resulteerde in de samenwerking met CORE, maar ook met Open Humanities Press en de bibliotheek van de Universiteit van Californië. Naast openbaar toegankelijke onderzoeksartikelen uit deze databases gebruikt het projectteam gespecialiseerde bronnen zoals Wikipedia, Project Gutenberg en de PeS2o-dataset om hun modellen te trainen.
SHARE wordt getraind om verder te gaan dan het genereren van oppervlakkige teksten. Het wordt een model met gespecialiseerde taalkundige en conceptuele vaardigheden dat in staat is om wetenschappelijke argumentatie te begrijpen, complexe theorieën te interpreteren en onderzoekers op nieuwe manieren te ondersteunen.
João Gonçalves, universitair hoofddocent AI and Digitalization aan de Erasmus Universiteit Rotterdam en hoofdonderzoeker van het project, is enthousiast: “Met SHARE creëren we een onderzoeksinstrument voor de sociale en geesteswetenschappen. We laten zien wat er mogelijk is op een gebied dat traditioneel wordt verwaarloosd door academische AI-modellen.”
Sparringpartner van lab tot collegezaal
Gonçalves benadrukt dat SHARE ontworpen is als een sparringpartner om dieper na te denken, met praktische toepassingen voor zowel staf als studenten.
"Een onderzoeker kan het model gebruiken om te brainstormen over nieuwe onderzoeksideeën of om feedback te krijgen op lopend onderzoek," legt Gonçalves uit. Het team ziet ook een belangrijke rol voor de tool in het onderwijs. "Een docent kan studenten argumenten laten voorbereiden met het model voor een discussie in de collegezaal. Dit verrijkt het debat met perspectieven die anders misschien niet aan bod waren gekomen."
“Ons doel is om van eenvoudige informatieverzameling over te stappen naar een tool die helpt bij conceptuele analyse en nieuwe interdisciplinaire stimuleert."
Het project ontwikkelt twee versies van het AI-model. De grotere versie, met 14 miljard parameters (een maatstaf voor de complexiteit en ‘denkkracht’ van het model), bevindt zich momenteel in de trainingsfase in de Nederlandse supercomputer Snellius, en een kleinere versie met 4 miljard parameters wordt al getest.
“Ons doel is om van eenvoudige informatieverzameling over te stappen naar een tool die helpt bij conceptuele analyse en nieuwe interdisciplinaire stimuleert. Dit laat zien wat er bereikt kan worden wanneer we hoogwaardige, open wetenschappelijke data combineren met geavanceerde AI-technieken, en de eerste resultaten van het 4B-parametermodel zien er veelbelovend uit,” aldus Gonçalves.
Als onderdeel van het onderzoek van Sonia de Jager naar dit onderwerp werkt het team bovendien aan het conceptualiseren en uiteindelijk prototypen van nieuwe mogelijkheden voor gebruikersinterfaces die verder gaan dan het lineaire chatbotontwerp, in de hoop nieuwe manieren te bieden om met LLM's te communiceren dan het standaard tweerichtingsgespreksmodel.
Ondersteuning door internationale en lokale beurzen
Het bouwen van een digitaal brein van deze omvang vereist enorme rekenkracht. De technische ruggengraat van het project werd mogelijk gemaakt door een prestigieuze NVIDIA Academic Grant, die het team voorzag van 20.000 uur aan GPU-rekenkracht. De techniek van SHARE is gebaseerd op de Phi-modelarchitectuur (ontwikkeld door Microsoft voor kleine taalmodellen) en maakt gebruik van geavanceerde trainingsmethoden om efficiëntie en schaalbaarheid te garanderen.

Het trainingsproces voor het 14B-model maakt gebruik van technieken zoals Fully Sharded Data Parallelism (FSDP), de Triton Kernel en FlashAttention, zoals beschreven in het open-source trainingsscript van het project. Naast NVIDIA wordt de training van het 14B-model ondersteund door SURF en NWO via rekenbeurzen voor de Snellius-supercomputer.
Open science
Trouw aan de toewijding van de universiteit aan maatschappelijke impact, blijft deze technologie niet achter gesloten deuren. De SHARE-modellen, de code die is gebruikt om ze te bouwen en een gedetailleerd onderzoeksrapport zullen openbaar worden gemaakt op het Hugging Face-platform zodra de huidige tests op bruikbaarheid, veiligheid, privacy en vooringenomenheid zijn afgerond.
De samenwerking tussen de Erasmus Universiteit Rotterdam en haar partners laat zien hoe duurzame, open wetenschappelijke infrastructuren zoals CORE de volgende generatie domeinspecifieke AI-tools aansturen. Door een tool te bouwen die is afgestemd op de unieke behoeften van academici in de sociale en geesteswetenschappen, belooft het SHARE-project onderzoek te versnellen, onderwijs te verbeteren en nieuwe wegen te openen voor het begrijpen van de menselijke conditie.
- Onderzoeker
- Onderzoeker
- Onderzoeker
- Meer informatie
- Gerelateerde content
