Universiteit Stellenbosch
Welkom by Universiteit Stellenbosch
Vrywilligers ontwikkel eerste masjienvertalings-maatstawwe vir 30 Afrika-tale
Outeur: Wiida Fourie-Basson
Gepubliseer: 28/04/2021

Van Khoekhoegowab tot Igbo en Sepedi – dit is maar slegs drie van die hulpbron-arm tale in Afrika wat 'n groep van meer as 400 vrywilligers uit meer as 20 Afrika-lande teiken om die tekort aan verskeidenheid in die veld van natuurlike taalprosessering die hoof te bied.

Natuurlike taalprosessering (NTP) is 'n vertakking van kunsmatige intelligensie wat rekenaars help om menslike taal te verstaan, te interpreteer en te manipuleer. Maar terwyl daar meer as 2000 Afrika-tale gepraat word, is daar baie min bestaande data wat gebruik kan word om die rekenaarmodelle op te lei. Dit bemoeilik dus die proses om spraak- en taaltegnologie relevant tot die Afrika-konteks te ontwikkel - vandaar die verwysing na hulpbron-arm tale.

Die Masakhane-projek is 'n voetsoolvlak-inisiatief wat 'n virtuele gemeenskap van inhoudskeppers, vertalers, kurators, taaltegnoloë en evalueerders betrek – almal met die doel om die tekort aan geografiese verskeidenheid in die vakgebied aan te spreek. Die projek is in 2019 tydens die Deep Learning Indaba in Kenia deur die masjienleer-ingenieur, Jade Abbott op die been gebring.

Nou is een van hulle navorsingsartikels oor 'n deelnemende navorsingsmodel vir hulpbron-arm masjienvertaling, een van twee artikels wat die eerste Wikimedia Stigting se navorsingstoekenning vir 2020 gewen het.

Die Universiteit Stellenbosch se dr Herman Kamper, 'n senior dosent in die Departement Elektriese en Elektroniese Ingenieurswese, asook Elan van Biljon, 'n MSc-student in Rekenaarwetenskap, was onder die 45 mede-outeurs van die artikel, “Participatory research for low-resourced machine translation: a case study in African languages", wat in November 2020 in Findings of the Association for Computational Linguistics: EMNLP gepubliseer is.

Dr Kamper sê hulle bydrae behels 'n masjienvertalingstelsel vir die vertaling van Engels na Afrikaans, terwyl Elan ook gewerk het aan vertalingsmoontlikhede van Engels na Sepedi en Setswana: “Vir ons was dit wonderlik om 'n klein bydrae tot so 'n groot poging te kon lewer en met mense vanoor die hele Afrika saam te werk, insluitend senior navorsers soos Julia Kreutzer van Google Research wat van die kernkodering ontwikkel het".

In NTP-terme, word die meeste Afrika-tale geklassifiseer as “die agtergeblewenes", “aan die oorleef" of “hoopvol". Slegs 'n paar, soos Afrikaans, Kiswahili en Yoruba, bevind hulself in die “opkomende sterre"-kategorie. Daar is ook 'n tekort aan NTP-navorsers in Afrika. In 2018 was slegs vyf uit die 2 695 wat aan die vyf hoof NTP-konferensies deelgeneem het, verbonde aan Afrika-instellings.

In die artikel beskryf hulle hoe 'n deelnemende benadering hulle in staat gestel het om masjienvertalingmaatstawwe vir 30 Afrika-tale daar te stel. Dit beteken dat daar vir die eerste keer masjienvertalingsisteme ontwikkel is vir die vertaling van Engels na hierdie verskillende tale (soos wat Google Translate sinne van Engels na Duits sou vertaal). Dit stel ander navorsers nou in staat om verder daarop te verbeter op grond van hierdie basislyn masjienvertalingmaatstawwe.

So byvoorbeeld is 'n span Nigeriese deelnemers besig om hulle eie werk in Yoruba en Igbo te vertaal, wat persoonlike religieuse stories en voorgraadse tesisse insluit. Dit is 'n poging om te verseker dat toeganklike en verteenwoordigende data van hulle kultuur gebruik word om modelle op te lei.

Jade Abbott hou tans samewerkingsessies met Damara-sprekers in Namibië ten einde frases in Khoekhoegowab bymekaar te maak en te vertaal wat die Damara-kultuur aangaande tradisionele drag, liedjies en gebede, reflekteer .

Nog 'n unieke kenmerk van die deelnemende benadering is die menslike evaluasie van die masjienvertalingstelsel wat vir hierdie tale ontwikkel is. Byvoorbeeld, in 2020 het elf deelnemers aangebied om vertalings in hulle moedertaal te evalueer, wat dikwels familie of vriende betrek het om die mees korrekte vertalings te kon uitwys. Binne die bestek van slegs 10 dae het hulle 'n totaal van 707 geëvalueerde vertalings bymekaar gemaak wat die tale Igo, Nigeriese Pidgin, Shona, Luo, Hausa, Kiswahili, Yoruba, Fon en Dendi gedek het. Dit was die eerste keer dat 'n masjienvertalingstelsel deur mense geëvalueer is. 

Die Wikimedia Stigting sê in 'n verklaring dat die artikel en die Maskhane-gemeenskap die benadering tot die uitdaging van hulpbron-arm tale in Afrika verander het. “Die navorsing beskryf 'n nuwe benadering tot masjienvertaling vir Afrika-tale. Die outeurs wys hoe hierdie benadering die uitdagings kan oorkom wat hierdie tale in die gesig staar om by die Web en ander tegnologieë aan te sluit, waarby ander tale vandag baat."

Die Wikimedia Stigting se navorsingspan het in 2021 die Wikimedia Stigting se navorsingstoekenning vir die jaar ingestel om erkenning te gee aan onlangse navorsing wat die potensiaal het om 'n betekenisvolle impak op Wikimedia-projekte of navorsing in hierdie veld te hê.

Medianavrae

Masakhane-projek

E-pos: masakhanetranslation@gmail.com

 

Dr Herman Kamper

E-pos: kamperh@sun.ac.za

Departement Elektriese en Elektroniese Ingenieurswese, Fakulteit Ingenieurswese

Universiteit Stellenbosch