Mihailo je kreirao sr-gpt2-large najveći jezički model na srpskom

Mihailo je kreirao sr-gpt2-large, do sada najveći generativni jezički model na srpskom

Zahvaljujući prikupljenoj količini tekstualnih datoteka od 30GB materijala i računarskim resursima obezbeđenim od Nacionalne platforme za veštačku inteligenciju, korisnici će moći da pristupe ovom alatu uz permisivnu licencu i time znatno olakšaju generisanje tekstova na srpskom jeziku.

Na početku godine pisali smo o tome kako jezički modeli za srpski jezik, koji se koriste u jezičkim alatima zasnovanim na veštačkoj inteligenciji (kao što su ChatGPT ili Google Bard) nisu dovoljno razvijeni zbog čega su značajno otežani zadaci poput automatskog prevođenja, sumarizacije i generisanja teksta. Međutim, zahvaljujući domaćim stručnjacima za veštačku inteligenciju, koji spadaju u najbolje u Evropi, ova situacija nije mogla dugo da stagnira.

Mihailo Škorić, interdisciplinarni naučnik koji u svom radu spaja filološke i tehničke nauke, nedavno je kreirao sr-gpt2-large veliki jezički model za generisanje teksta na srpskom jeziku, koji je obučavan na Nacionalnoj platformi za veštačku inteligenciju u Državnom data centru u Kragujevcu, ali na ostalim korpusima Društva za jezičke resurse i tehnologije. A koje su sve moguće primene ovog jezičkog modela, na kojim tehnologijama je on zasnovan i s kojim se izazovima susretao tokom njegovog razvoja, Mihailo nam je ispričao u razgovoru kroz ovaj intervju.

Za početak, da li možete da se predstavite našim čitaocima?

Mihailo: Volim da kažem da iza sebe imam dvadesetak godina interdisciplinarnog obrazovanja. To uključuje pohađanje Gimnazije u Obrenovcu, potom osnovne i master studije bibliotečko-informacionih nauka na Filološkom fakultetu i konačno, nedavno dovršene interdisciplinarne studije Inteligentnih sistema pri Univerzitetu u Beogradu. Mešavina prirodnih i društvenih nauka je tako okruženje koje mi najviše prija, što je i bilo idealno za usavršavanje u oblasti obrade prirodnog jezika, koja najčešće zahteva razumevanje kako računarskih sistema, tako i jezika kao pojave.

Prethodnih pet godina aktivan sam član Društva za jezičke resurse i tehnologije, gde se bavim razvojem pre svega alata za obradu (srpskog) jezika, ali i različitih jezičkih resursa. Paralelno radim kao softverski inženjer u Računarskom centru Rudarsko-geološkog fakulteta Univerziteta u Beogradu i učestvujem na domaćim i međunardnim projektima koji se tiču srpskog jezika ili obrade prirodnih jezika uopšte.

Kada i s kojim ciljem ste došli na ideju da kreirate sr-gpt2-large, veliki jezički model na srpskom?

Mihailo: Naš sr-gpt2-large nije prvi jezički model obučavan za srpski jezik. Samo na platformi Huggingface objavljeno ih je petnaestak. Ipak, uglavnom se radi o manjim (prema broju parametara) varijantama modela, pa je tako ovaj model trenutno najveći (bar u javnom pristupu). Kao što sam napomenuo, razvojem jezičkih resursa bavim se određeni niz godina. Modelovanje jezika tema je koja me posebno zanima, a ideja za obučavanje konkretnog modela je stara koliko i njegova arhitektura (oko četiri godine).

Prethodno sam već obučavao i objavljivao manje generativne (GPT-2) modele, ali su se nedavno ostvarili uslovi za obučavanje modela ove veličine. Kada kažem uslovi, mislim, pre svega, na neophodnu količinu tekstualnih datoteka (oko 30GB), i računarskih resursa, koji su, za potrebe obučavanja ovog modela, obezbeđeni putem Nacionalne platforme za veštačku inteligenciju. Proces obučavanja na platformi je trajao oko 35 dana, priprema za obučavanje još toliko, a prikupljanje podataka započeto je dosta pre mog vremena.

Da li možete da nam kažete nešto više o Nacionalnoj platformi za veštačku inteligenciju?

Mihailo: Nacionalna platforma za veštačku inteligenciju je računarski sistem zasnovan nVidia DGX platformi, obezbeđen od strane Vlade republike Srbije i baziran u državnom data centru u Kragujevcu. Oformljen je u cilju pružanja računarskih resursa za bavljenje veštačkom inteligencijom, s raznovrsnom ciljanom publikom: organima javne uprave, startap kompanijama, ali pripadnicima akademske zajednice. Pristup platformi dobio sam kao istraživač, a za obučavanje konkretnog modela korišćene su četiri grafičke kartice nVidia A100 (40GB).

Inače korisnici platforme mogu da koriste istovremeno do dve kartice, uz maksimalno vreme obučavanja od 72h, ali za potrebe ovog projekta, četiri kartice su na specijalan zahtev obezbeđene za čitav period obučavanja. Što se tiče softvera, korišćen je Pajton projekat Scratch2LM za obučavanje velikih jezičkih modela (zasnovan na biblioteci transformers), koji je javno dostupan i na mom GitHub-u.

Da li možete da nam objasnite i ostale korpuse Društva za jezičke resurse i tehnologije na kojima je obučavan?

Mihailo: Za obučavanje je korišćeno ukupno osam korpusa Društva za jezičke resurse i tehnologije (JeRTeh). Dva korpusa se nalaze u otvorenom pristupu na platformi HugginFace, i to su JeRTeh/SrpELTeC (korpus sačinjen od sto starih srpskih romana) i JeRTeh/SrpWiki (korpus sačinjen od tekstova sa Vikipedije na srpskom). Ostalih šest korpusa su: BiKes (jedan deo paralelnih, višejezičnih korpusa sa platforme Bibliša), GeoSrpKor (korpus geoloških tesktova), RudKor (korpus rudarskih tekstova), Disertacije (korpus doktorskih disertacija na srpskom jeziku), kao i veliki delovi opštih korpusa savremenog srpskog jezika SrpKor2013 i SrpKor2021.

Ono što ove korpuse izdavaja u odnosu na ostale je to što su sačinjeni ili od objavljene literature ili od tekstova koji su prikupljani dugi niz godina i potom ispravljani i uređivani. Cilj je bio pravljenje skupa podataka koji je pre svega visokog kvaliteta, a koji raste u obimu iz godine u godinu. Samim tim, ovi korpusi bi trebali da predstavljaju odličnu osnovu za obučavanje velikih jezičkih modela.

Kako obimnost utiče na performanse jezičkog modela?

Mihailo: Ono što se iznova i iznova pokazano je jasna korelacija između broja parametara i performansi jezičkih modela, a slično pravilo važi i za količinu podataka koji se koriste za njihovo obučavanje (veće je uvek bolje). Iako su i manji modeli generisali uglavnom koherentne rečenice na srpskom, ideja ovog, koji je četiri puta veći od najvećeg prethodnika, je da donese jasna poboljšanja, koja će verovatno biti i kvantitativno vidljiva kada se uradi koherentna komparativna analiza postojećih modela.

Naravno, postoje i veći jezički modeli koji su mogli biti obučeni (GPT2-XL ili čak GPT-J), ali je ovaj (GPT2- large) odabran kao kompromis između cene i kvaliteta, tako da bi vreme potrebno za obučavanje bilo u prihvatljivim granicama (a da se pritom dobije model koji je značajno veći od postojećih).

Koje mere ste preduzeli kako biste sprečili najčešće izazove s kojima se susreću veliki jezički modeli?

Mihailo: Nažalost, pri obučavanju ovakvih modela, nema puno mera koje se mogu preduzeti. Ono što možete da uradite je da za obučavanje koristite što kvalitetniji skup (tekstualnih) podataka. Idealno, treba koristiti što više tekstova koji su pre objave podlegnuti lekturi i korekturi, poput književnih ili naučnih i naučno-popularnih tekstova objavljenih u knjigama i časopisima ili upotrebiti određene kvalitativne filtere pri prikupljanju korpusa sa weba.

Što se tiče generisanja pogrešnih informacija, može se uposliti drugi jezički model ili sistem zasnovan na pravilima koji će proveravati generisani tekst ali, ukoliko zaista želite proverene informacije, nemojte ih tražiti od strogo generativnog modela (koji je obučavan da prosto pogađa narednu reč u tekstu).

Da li možete da nam navedete neke konkretne primere upotrebe sr-gpt2-large, koje ste do sada testirali?

Mihailo: Kao što je već rečeno, glavna funkcionalnost ovog modela je pogađanje naredne reči, to jest generisanje nastavka teksta. Što se tiče upotrebe, ona je u skladu sa ostalim generativnim modelima: možete ga koristiti da sebi olakšate proces pisanja teksta (tako što ćete ga započeti) ili za generisanje novog, kreativnog, do sada neviđenog teksta (koji ne mora nužno biti dobar ni informativan).

Osim toga, testirana je i njegova vrednost na zadacima evaluacije teksta (korišćenje modela kao zlatnog standarda), kao i na zadatku detekcije (štamparskih) grešaka u tekstu. Ako pričamo o jedinstvenosti ovog modela, ne bih mogao da posebno izdvojim ništa osim njegove veličine, dostupnosti i činjenice da je obučavan specijalno za srpski jezik, i to na prilično kvalitetnom korpusu tekstova.

Šta podrazumeva permisivna licenca za korišćenje jezičkog modela?

Mihailo: Sr-gpt2-large je obučavan na nacionalnoj platformi, pa je samim tim i javno objavljen, u cilju opšte upotrebe. U skaldu sa tim, a što se tiče licenciranja, zaštićen je permisivnom cc-by-sa (Creative commons, Attribution-ShareAlike) licencom. Prvi deo označava da se model može slobodno distribuirati i koristiti u bilo koju svrhu (uključujući komercijalnu upotrebu), kao i da se može koristiti kao podloga za obučavanje novih modela, dakle, ne zahteva nikakvu posebnu dozvolu ili licencu.

Drugi deo licence primorava korisnike da, ukoliko koriste ovaj model, pripišu adekvatne zasluge, i da ukoliko objavljuju nove modele koji su koristili ovaj kao osnovu, naznače da je reč o derivaciji ovog modela. Takođe, svi modeli zasnovani na ovom modelu moraju biti pod istom, permisivnom, licencom. Dakle, nadam se da će model naći upotrebnu vrednost, kao i da će ljudi praviti zanimljive varijacije i objavljivati ih, takođe, u javnom pristupu.

Najzad, kako će u budućnosti izgledati razvoj vašeg jezičkog modela?

Mihailo: Što se tiče unapređenja ovog modela konkretno, moguće je da će biti dorađen pomoću dodatnih korpusa Društva za jezičke resurse i tehnologije, koji do sada nisu korišćeni za njegovo obučavanje, ali će ta verzija verovatno biti korišćena samo za specijalne prilike. Sa druge strane, uskoro se planira objavljivanje dva dodatna encoder-only velika jezička modela, zasnovana na arhitekturi RoBERTa, čije obučavanje se obavlja na Rudarsko-geološkom fakultetu i trenutno se nalazi u finalnoj fazi.

Za razliku od ovog modela, koji je generativnog tipa, oni će se ponajviše koristiti za zadatke anotacije i klasifikacije rečenica, a siguran sam da će pretstavljati najveće i najbolje modele za srpski jezik u toj kategoriji.


Želiš da podeliš svoje mišljenje o ovoj temi? Komentari su otvoreni na našoj Facebook i LinkedIn stranici!

Popularno

Karijere

Otvoren Mejkers lab konkurs: 25.000 učenika imaće pristup učionicama budućnosti!

Grupa za obrazovanje koju čine Nordeus Fondacija, Centar za promociju nauke, Dostignuća mladih u Srbiji i Inicijativa Digitalna Srbija, otvorila je konkurs za pokretanje Mejkers lab učionica u srednjim školama širom Srbije.

Intervju

Miloš Čučulović iz Srbije direktor je u švajcarskom MDPI-u sa više od 6.500 zaposlenih širom sveta

U švajcarskoj kompaniji koja je jedan od lidera u naučnom izdavaštvu, razvija najsavremenije alate zasnovane na generativnoj veštačkoj inteligenciji. A kako je izgledao njegov karijerni put? Pročitajte u intervjuu koji je pred vama!

Office Talks Podcast

Besplatna pravna dokumenta za sve startape

U 194. epizodi Office Talks podkasta razgovarali smo o 'Open Source Documentation' projektu koji je proizašao iz Tenderly Garaže a koji je namenjen da pomogne startapima kada je reč o pravnim dokumentima.

Propustili ste

Intervju

Miloš Čučulović iz Srbije direktor je u švajcarskom MDPI-u sa više od 6.500 zaposlenih širom sveta

U švajcarskoj kompaniji koja je jedan od lidera u naučnom izdavaštvu, razvija najsavremenije alate zasnovane na generativnoj veštačkoj inteligenciji. A kako je izgledao njegov karijerni put? Pročitajte u intervjuu koji je pred vama!

Office Talks Podcast

Besplatna pravna dokumenta za sve startape

U 194. epizodi Office Talks podkasta razgovarali smo o 'Open Source Documentation' projektu koji je proizašao iz Tenderly Garaže a koji je namenjen da pomogne startapima kada je reč o pravnim dokumentima.

Startapi i poslovanje

Native Teams: Kako doći do i na šta potrošiti €6,3 miliona investicije?

Kompanija Native Teams, koja je zakonski poslodavac za frilensere, podigla je višemilionsku investiciju od grupe fondova. Evo u šta će uložiti dobijen novac.

Tehnologija

Domaće softverske kompanije mogu da spasu srpsku privredu, ako im se pruži šansa

Dok IT industrija inovira, tradicionalne privredne grane tapkaju u mestu, jedan je od zaključaka Foruma naprednih tehnologija održanog 12. i 13. juna u Nišu.

Gaming

Potpuno nova Tetris video igra napravljena je u Srbiji

Beogradski studio za razvoj video igara Playstudios Europe, objavio je igru Tetris Block Puzzle namenjenu za igranje na mobilnim telefonima.

Startapi i poslovanje

ICT Hub: Osmislite najbolje rešenje za inovacije u pravosuđu i osvojite vredne nagrade

ICT Hub je lansirao novi projekat 'Inovacije u Pravosuđu' koji ima za cilj da unapredi pristup pravdi za osetljive i marginalizovane grupe u Srbiji kroz razvoj inovativnih digitalnih alata.