Computer krijgt vat op cultureel erfgoed

Computer krijgt vat op cultureel erfgoed

VUB ontwikkelt software om oude documenten beter te kunnen scannen

Papieren documenten vertonen de vervelende eigenschap dat ze in de loop der tijd steeds slechter leesbaar worden. Bij het digitaliseren van oude archieven levert dit grote problemen op. Dr. Tan Lu van de VUB- onderzoeksgroep Digital Mathematics ontwikkelde voor zijn doctoraatsonderzoek een prijswinnende software die zich niet laat foppen door scheuren, vlekken of slechte scans.

Op dit moment worden er in de cultureel erfgoedsector omvangrijke digitaliseringsprojecten uitgevoerd. Daarbij worden grote hoeveelheden oude kranten en andere manuscripten ingescand, om vervolgens via zogenoemde Optical Character Recognition (OCR) te worden gedigitaliseerd. Dat laatste is van essentieel belang omdat de documenten zo doorzoekbaar worden, waardoor informatie veel makkelijker kan worden ontsloten. OCR is echter nog altijd verre van perfect. De gebruikte algoritmes hebben moeite met materiële schade aan pagina’s, zoals scheuren en vlekken. Bovendien kan de computer in de war raken van de moeilijke tekstopmaak die vaak voorkomt in reclames en modetijdschriften.

Kijken zoals mensen
Onder leiding van Prof. Dr. Ann Dooms ontwikkelde Lu een reeks zogeheten homogeniteitsmodellen die de computer helpen hun tekstherkenning sterk te verbeteren. In deze homogeniteitsmodellen formuleerde hij verschillende scenario's om een reeks van problemen aan te pakken, waaronder documentsegmentatie, vervormingsherkenning en kwaliteitsbeoordeling. Daarbij maakte hij gebruik van bestaande kennis over de manier waarop de menselijke hersenen omgaan met gecompliceerde beelden. Lu: “De gestaltpsychologie leert ons bijvoorbeeld dat mensen losse objecten van een zelfde soort van nature met elkaar groeperen tot één groep. Omdat computers dit vermogen missen, struikelen ze vaker over tekstherkenning in moeilijke layouts of in beschadigde zones. Ze zijn, anders dan mensen, niet in staat de verschillende delen van een beschadigd beeld te recombineren.” Door inzichten uit de waarnemingspsychologie te integreren in een zogenoemd probabilistisch lokaal teksthomogeniteitsmodel (PLTH), leerde Lu de computer omgaan met documenten met een moeilijke layout en hierin ook tal van beschadigingen en vervormingen herkennen.

Internationale prijs voor documentherkenning
Lu heeft met zijn onderzoek een aantal lang bestaande problemen binnen tekstherkenning opgelost waarbij zijn werk de kracht demonstreert van een wiskundige benadering van beeldverwerkingsproblemen. De ontwikkeling van nieuwe wiskundige modellen blijkt het ware potentieel te kunnen ontketenen dat schuilgaat achter de digitalisering van oude en waardevolle documenten. De software die binnen dit onderzoek door de onderzoeksgroep Digital Mathematics ontwikkeld werd, won in 2019 de internationale ICDAR-prijs voor documentherkenning.

Meer info:
Prof. Ann Dooms
Ann.Dooms@vub.be -  0479 56 35 30

WE
Contacteer ons
Lies Feron
Lies Feron Persrelaties Vrije Universiteit Brussel
Lies Feron
Lies Feron Persrelaties Vrije Universiteit Brussel
Over Press - Vrije Universiteit Brussel

De Vrije Universiteit Brussel is een internationaal georiënteerde universiteit in Brussel, het hart van Europa. Door het afleveren van hoogstaand onderzoek en onderwijs op maat, wil de VUB een actieve en geëngageerde bijdrage leveren tot een betere maatschappij.

Press - Vrije Universiteit Brussel
Pleinlaan 2
1050 Brussel