Neŭronaj lingvomodeloj de la pola lingvo

Laboroj pri evoluigo de la neŭronaj lingvomodeloj daŭras en multaj informadikaj centroj kaj firmaoj en la tuta mondo kaj samtempe en la lastaj jaroj signife kreskis ilia populareco. Rapide evoluas ankaŭ ilia kapacito, t.e. grandiĝas kvanto de iliaj paramteroj. La neŭronaj lingvomodeloj estas aplikataj ĉiam pli vaste kaj ĝenerale, kvankam ne multaj pri tio konscias. Tamen ĝuste dank’ al ili retuzantoj sukcese akiras la lingotradukojn el diversaj lingvoj, oni malkovras trudmesaĝojn, oni enketas la sociajn agordojn en la reto, oni aŭtomate korektas tekstojn. La prilaboro de la neŭronaj lingvomodeloj postulas grandan prikalkulpovon kaj specializan infrastrukturon. La neŭronaj modeloj ne povas do esti trejnitaj de individuoj aŭ malgrandaj organizoj. Krome estas necesaj multegaj donitaĵoj. Simile kiel kaze de aliaj instrumentoj bazĝantaj sur la Artefarita Intelekto ju pli ampleksa estas kolekto de donitaĵoj, per kiu estas trejnita la modelo, des pli preciza la modelo estas. Tamen plimulto de tiuj modeloj estas prilaboritaj por la angla lingvo. Sed pri la neŭronaj lingvomodeloj laboras ankaŭ sciencistoj el la pola Centro de la Alifarado de Informoj–Ŝtata Esplorinstituto senĉese evoluigante kaj liverante pollingvajn modelojn. Nunjare ĝi disponigis du pliajn neŭronajn modelojn de la pola lingvo kun la nomoj – Polish RoBERTa v2 kaj GPT-2. La populareco de la modeloj de la pola lingvo daŭre kreskas. Ĉe la centro estis ekzemplodone establita Laboratorio por la Lingvistika Inĝenierio (LIL), en kiu ekspertoj konstruas inteligentajn instrumentojn baze de grandaj korpusoj de tekstoj kaj interretaj donitaĵoj. Ĝuste en LIL kreiĝis kaj estis envivigita Kohera Kontraŭplagiata Sistemo, kiun oni utiligas por kontroli la originalecon de altlernejaj diplomverkoj, facile konstatante eventualan piratadon. La temamplekso de la neŭronaj lingvomodeloj estas multe pli vasta. Do ankaŭ en aliaj strukturoj de la Pola Centro oni laboras pri tiu problemo. Ekzemple en ĝia plej granda Laboratorio de Inteligentaj Informadikaj Sistemoj (LISI) estis prilaborita kaj trejnita la modelo Polish RoBERTa large sur la plej granda en Pollando korpuso. Sekve de daŭrigaj laboroj nunjare estis disponigitaj la jam menciitaj pliaj versioj de la menciita modelo Polish RoBERTa base v2 kaj destinita por taskoj
ligitaj kun la tekstogenerado la modelo GPT-2.

El la elsendo 01.12.2021. Legas Barbara – 3′ 33″