VUB-modellen leren Artificiële Intelligentie tabellen juister lezen

VUB-modellen leren Artificiële Intelligentie tabellen juister lezen

“We willen dat onze modellen de onderliggende structuur van tabellen begrijpen, net als mensen”

Het groeiende volume aan rapporten, facturen, wetenschappelijke publicaties en andere zakelijke documenten stelt bedrijven en instellingen steeds meer voor de uitdaging om informatie snel en betrouwbaar te verwerken. In zijn doctoraatsonderzoek aan de VUB met als titel Representation Learning for Table Understanding in Intelligent Document Processing, ontwikkelde Willy Carlos Tchuitcheu (Onderzoeksgroep Wiskunde & Data Science) een vernieuwende methode die computers veel beter leert omgaan met die tabellen. Tabellen bevatten veel informatie maar zijn dikwijls een voor AI moeilijk te interpreteren structuur binnen documenten. Zijn bevindingen vormen een belangrijke troef voor toepassingen in artificiële intelligentie en automatische documentverwerking.

De kerndata van een document zijn dikwijls samengevat in tabellen. Die vormen voor huidige AI-systemen niet zelden een probleem. Veel Large Language Models zetten tabellen om in lineaire tekst, waardoor de tweedimensionale structuur, de koppen en de relaties tussen cellen verloren gaan. Dat leidt tot fouten en onnauwkeurigheden. "We ontdekten dat veel AI-taalmodellen moeite hebben met iets dat “volgorde-onafhankelijkheid” heet", zegt Tchuitcheu. "Het betekent dat, wanneer je de rijen van een tabel van plaats verwisselt, de AI die tabel ziet als een compleet nieuwe tabel. Dat toont eigenlijk aan dat AI de onderliggende structuur van een tabel niet altijd echt begrijpt. Daardoor kan de informatie verkeerd worden geïnterpreteerd. ​ AI ziet minder goed dat twee tabellen met van plaats verwisselde kolommmen eigenlijk dezelfde informatie bevatten. Hierdoor kunnen AI-systemen minder nauwkeurige antwoorden geven wanneer ze vragen over die tabellen moeten beantwoorden."

Tchuitcheu introduceerde daarom het zogenaamde Table Understanding principle, een theoretisch kader dat beschrijft hoe mensen tabellen interpreteren door elke cel automatisch te verbinden met de juiste rij- en kolomkop. Vanuit dat principe ontwikkelde hij een structuurbewuste methode die tabellen niet langer reduceert tot platte tekst.

"Ons doel was om AI-systemen in staat te stellen tabellen natuurlijker te begrijpen", legt Tchuitcheu uit. "We willen dat modellen verder gaan dan het simpelweg nabootsen van een principe dat is bepaald door hun training met tekstuele data, en in plaats daarvan de onderliggende structuur begrijpen, net als mensen. Dat zorgt voor betrouwbaardere analyses en sneller bruikbare inzichten, met name in sectoren waar tabeldata een strategische rol spelen."

De nieuwe aanpak blijkt bijzonder robuust, onder meer omdat hij rekening houdt met permutatie-invariantie, het feit dat tabellen hun betekenis meestal behouden, zelfs als rijen of kolommen worden herschikt. Daardoor presteert het model consistent, zelfs wanneer de vorm van de tabel wijzigt.

Promotor Prof. dr. Ann Dooms benadrukt het belang van het onderzoek voor de bredere evolutie van artificiële intelligentie. "Documentverwerking is een cruciale component in tal van maatschappelijke en economische processen", zegt ze. "Het werk van Willy Tchuitcheu toont aan dat we AI-systemen veel betrouwbaarder kunnen maken door hen fundamenteel anders naar tabellen te laten kijken. Het opent de deur naar nieuwe toepassingen in administratieve automatisering, in wetenschappelijke analyse en in data-intensieve industrieën."

Het doctoraatsonderzoek toont sterke resultaten in twee centrale toepassingen: het automatisch herkennen van kolomtypes en het beantwoorden van vragen op basis van tabeldata. Daarnaast verhoogt de methode de snelheid en nauwkeurigheid van informatie-extractie, wat belangrijk is voor bedrijven die grote hoeveelheden documenten verwerken.

Co-promotor Prof. dr. Tan Lu: “Hoewel grote taalmodellen (LLM's) steeds vaker worden gebruikt voor taken zoals documentverwerking en geautomatiseerd redeneren, blijven wiskundig gemotiveerde modelleringskaders, zoals het werk van Tchuitcheu, een belangrijke invalshoek. Naast datagestuurde automatisering maakt wiskundige modellering een diepere interpreteerbaarheid, transparantie en betrouwbaarheid mogelijk, wat essentieel is voor betrouwbare AI-systemen.”

Over de onderzoeker

Willy Carlos Tchuitcheu behaalde in 2019 zijn master in de wiskundige wetenschappen aan het African Institute for Mathematical Sciences in Rwanda. Hij werkte drie jaar als onderzoeksingenieur bij Camertronix in Kameroen en startte in 2021 zijn doctoraat aan de VUB binnen de vakgroep Wiskunde en Data Science. Zijn onderzoek resulteerde in drie artikels als eerste auteur in internationale tijdschriften, een octrooiaanvraag en een Best Poster Award tijdens de Flanders AI Research Day 2021. Daarnaast is hij mede-auteur van twee bijkomende publicaties, waarvan één opnieuw als eerste auteur.

Voor meer informatie of interviewaanvragen:
​Willy Carlos Tchuitcheu: Vakgroep Wiskunde en Data Science: Willy.Carlos.Tchuitcheu@vub.be

Professor Ann Dooms: ann.dooms@vub.be

Professor Tan Lu: tan.lu@vub.be

 

 

 


Frans Steenhoudt
Frans Steenhoudt Perscontact wetenschap en onderzoek

 

WE IR
Over Press - Vrije Universiteit Brussel

volg ons op twitter @VUBrussel


De Vrije Universiteit Brussel is een internationaal georiënteerde universiteit in Brussel, het hart van Europa. Door het afleveren van hoogstaand onderzoek en onderwijs op maat, wil de VUB een actieve en geëngageerde bijdrage leveren tot een betere maatschappij.

De Wereld Heeft Je Nodig

De Vrije Universiteit Brussel neemt haar wetenschappelijke en maatschappelijke verantwoordelijkheid met liefde en daadkracht op. De VUB lanceerde daarom het platform ’De Wereld Heeft Je Nodig’.  Hier worden rond zes P’s ideeën, acties en projecten samengebracht, opgestart en uitgebouwd. De eerste P staat voor People, want daar draait alles om: mensen gelijke kansen geven, welvaart, welzijn, respect. Peace staat voor het bestrijden van klein en groot onrecht in de wereld. Prosperity gaat armoede en ongelijkheid te lijf. Planet staat voor acties rond biodiversiteit, klimaat, luchtkwaliteit, dierenrechten ... Met Partnership zoekt de VUB samenwerkingen om de wereld een betere plaats te maken. De zesde en laatste P is van Poincaré, de Franse filosoof Henri Poincaré aan wie de VUB haar leuze ontleent, dat het denken zich aan niets mag onderwerpen, behalve aan de feiten zelf. De VUB is een 'urban engaged university’, sterk verankerd in Brussel en Europa en werkend volgens de principes vrij onderzoek. www.vub.be/dewereldheeftjenodig

Press - Vrije Universiteit Brussel
Pleinlaan 2
1050 Brussel