Mihailo je kreirao sr-gpt2-large najveći jezički model na srpskom

Mihailo je kreirao sr-gpt2-large, do sada najveći generativni jezički model na srpskom

Zahvaljujući prikupljenoj količini tekstualnih datoteka od 30GB materijala i računarskim resursima obezbeđenim od Nacionalne platforme za veštačku inteligenciju, korisnici će moći da pristupe ovom alatu uz permisivnu licencu i time znatno olakšaju generisanje tekstova na srpskom jeziku.

Na početku godine pisali smo o tome kako jezički modeli za srpski jezik, koji se koriste u jezičkim alatima zasnovanim na veštačkoj inteligenciji (kao što su ChatGPT ili Google Bard) nisu dovoljno razvijeni zbog čega su značajno otežani zadaci poput automatskog prevođenja, sumarizacije i generisanja teksta. Međutim, zahvaljujući domaćim stručnjacima za veštačku inteligenciju, koji spadaju u najbolje u Evropi, ova situacija nije mogla dugo da stagnira.

Mihailo Škorić, interdisciplinarni naučnik koji u svom radu spaja filološke i tehničke nauke, nedavno je kreirao sr-gpt2-large veliki jezički model za generisanje teksta na srpskom jeziku, koji je obučavan na Nacionalnoj platformi za veštačku inteligenciju u Državnom data centru u Kragujevcu, ali na ostalim korpusima Društva za jezičke resurse i tehnologije. A koje su sve moguće primene ovog jezičkog modela, na kojim tehnologijama je on zasnovan i s kojim se izazovima susretao tokom njegovog razvoja, Mihailo nam je ispričao u razgovoru kroz ovaj intervju.

Za početak, da li možete da se predstavite našim čitaocima?

Mihailo: Volim da kažem da iza sebe imam dvadesetak godina interdisciplinarnog obrazovanja. To uključuje pohađanje Gimnazije u Obrenovcu, potom osnovne i master studije bibliotečko-informacionih nauka na Filološkom fakultetu i konačno, nedavno dovršene interdisciplinarne studije Inteligentnih sistema pri Univerzitetu u Beogradu. Mešavina prirodnih i društvenih nauka je tako okruženje koje mi najviše prija, što je i bilo idealno za usavršavanje u oblasti obrade prirodnog jezika, koja najčešće zahteva razumevanje kako računarskih sistema, tako i jezika kao pojave.

Prethodnih pet godina aktivan sam član Društva za jezičke resurse i tehnologije, gde se bavim razvojem pre svega alata za obradu (srpskog) jezika, ali i različitih jezičkih resursa. Paralelno radim kao softverski inženjer u Računarskom centru Rudarsko-geološkog fakulteta Univerziteta u Beogradu i učestvujem na domaćim i međunardnim projektima koji se tiču srpskog jezika ili obrade prirodnih jezika uopšte.

Kada i s kojim ciljem ste došli na ideju da kreirate sr-gpt2-large, veliki jezički model na srpskom?

Mihailo: Naš sr-gpt2-large nije prvi jezički model obučavan za srpski jezik. Samo na platformi Huggingface objavljeno ih je petnaestak. Ipak, uglavnom se radi o manjim (prema broju parametara) varijantama modela, pa je tako ovaj model trenutno najveći (bar u javnom pristupu). Kao što sam napomenuo, razvojem jezičkih resursa bavim se određeni niz godina. Modelovanje jezika tema je koja me posebno zanima, a ideja za obučavanje konkretnog modela je stara koliko i njegova arhitektura (oko četiri godine).

Prethodno sam već obučavao i objavljivao manje generativne (GPT-2) modele, ali su se nedavno ostvarili uslovi za obučavanje modela ove veličine. Kada kažem uslovi, mislim, pre svega, na neophodnu količinu tekstualnih datoteka (oko 30GB), i računarskih resursa, koji su, za potrebe obučavanja ovog modela, obezbeđeni putem Nacionalne platforme za veštačku inteligenciju. Proces obučavanja na platformi je trajao oko 35 dana, priprema za obučavanje još toliko, a prikupljanje podataka započeto je dosta pre mog vremena.

Da li možete da nam kažete nešto više o Nacionalnoj platformi za veštačku inteligenciju?

Mihailo: Nacionalna platforma za veštačku inteligenciju je računarski sistem zasnovan nVidia DGX platformi, obezbeđen od strane Vlade republike Srbije i baziran u državnom data centru u Kragujevcu. Oformljen je u cilju pružanja računarskih resursa za bavljenje veštačkom inteligencijom, s raznovrsnom ciljanom publikom: organima javne uprave, startap kompanijama, ali pripadnicima akademske zajednice. Pristup platformi dobio sam kao istraživač, a za obučavanje konkretnog modela korišćene su četiri grafičke kartice nVidia A100 (40GB).

Inače korisnici platforme mogu da koriste istovremeno do dve kartice, uz maksimalno vreme obučavanja od 72h, ali za potrebe ovog projekta, četiri kartice su na specijalan zahtev obezbeđene za čitav period obučavanja. Što se tiče softvera, korišćen je Pajton projekat Scratch2LM za obučavanje velikih jezičkih modela (zasnovan na biblioteci transformers), koji je javno dostupan i na mom GitHub-u.

Da li možete da nam objasnite i ostale korpuse Društva za jezičke resurse i tehnologije na kojima je obučavan?

Mihailo: Za obučavanje je korišćeno ukupno osam korpusa Društva za jezičke resurse i tehnologije (JeRTeh). Dva korpusa se nalaze u otvorenom pristupu na platformi HugginFace, i to su JeRTeh/SrpELTeC (korpus sačinjen od sto starih srpskih romana) i JeRTeh/SrpWiki (korpus sačinjen od tekstova sa Vikipedije na srpskom). Ostalih šest korpusa su: BiKes (jedan deo paralelnih, višejezičnih korpusa sa platforme Bibliša), GeoSrpKor (korpus geoloških tesktova), RudKor (korpus rudarskih tekstova), Disertacije (korpus doktorskih disertacija na srpskom jeziku), kao i veliki delovi opštih korpusa savremenog srpskog jezika SrpKor2013 i SrpKor2021.

Ono što ove korpuse izdavaja u odnosu na ostale je to što su sačinjeni ili od objavljene literature ili od tekstova koji su prikupljani dugi niz godina i potom ispravljani i uređivani. Cilj je bio pravljenje skupa podataka koji je pre svega visokog kvaliteta, a koji raste u obimu iz godine u godinu. Samim tim, ovi korpusi bi trebali da predstavljaju odličnu osnovu za obučavanje velikih jezičkih modela.

Kako obimnost utiče na performanse jezičkog modela?

Mihailo: Ono što se iznova i iznova pokazano je jasna korelacija između broja parametara i performansi jezičkih modela, a slično pravilo važi i za količinu podataka koji se koriste za njihovo obučavanje (veće je uvek bolje). Iako su i manji modeli generisali uglavnom koherentne rečenice na srpskom, ideja ovog, koji je četiri puta veći od najvećeg prethodnika, je da donese jasna poboljšanja, koja će verovatno biti i kvantitativno vidljiva kada se uradi koherentna komparativna analiza postojećih modela.

Naravno, postoje i veći jezički modeli koji su mogli biti obučeni (GPT2-XL ili čak GPT-J), ali je ovaj (GPT2- large) odabran kao kompromis između cene i kvaliteta, tako da bi vreme potrebno za obučavanje bilo u prihvatljivim granicama (a da se pritom dobije model koji je značajno veći od postojećih).

Koje mere ste preduzeli kako biste sprečili najčešće izazove s kojima se susreću veliki jezički modeli?

Mihailo: Nažalost, pri obučavanju ovakvih modela, nema puno mera koje se mogu preduzeti. Ono što možete da uradite je da za obučavanje koristite što kvalitetniji skup (tekstualnih) podataka. Idealno, treba koristiti što više tekstova koji su pre objave podlegnuti lekturi i korekturi, poput književnih ili naučnih i naučno-popularnih tekstova objavljenih u knjigama i časopisima ili upotrebiti određene kvalitativne filtere pri prikupljanju korpusa sa weba.

Što se tiče generisanja pogrešnih informacija, može se uposliti drugi jezički model ili sistem zasnovan na pravilima koji će proveravati generisani tekst ali, ukoliko zaista želite proverene informacije, nemojte ih tražiti od strogo generativnog modela (koji je obučavan da prosto pogađa narednu reč u tekstu).

Da li možete da nam navedete neke konkretne primere upotrebe sr-gpt2-large, koje ste do sada testirali?

Mihailo: Kao što je već rečeno, glavna funkcionalnost ovog modela je pogađanje naredne reči, to jest generisanje nastavka teksta. Što se tiče upotrebe, ona je u skladu sa ostalim generativnim modelima: možete ga koristiti da sebi olakšate proces pisanja teksta (tako što ćete ga započeti) ili za generisanje novog, kreativnog, do sada neviđenog teksta (koji ne mora nužno biti dobar ni informativan).

Osim toga, testirana je i njegova vrednost na zadacima evaluacije teksta (korišćenje modela kao zlatnog standarda), kao i na zadatku detekcije (štamparskih) grešaka u tekstu. Ako pričamo o jedinstvenosti ovog modela, ne bih mogao da posebno izdvojim ništa osim njegove veličine, dostupnosti i činjenice da je obučavan specijalno za srpski jezik, i to na prilično kvalitetnom korpusu tekstova.

Šta podrazumeva permisivna licenca za korišćenje jezičkog modela?

Mihailo: Sr-gpt2-large je obučavan na nacionalnoj platformi, pa je samim tim i javno objavljen, u cilju opšte upotrebe. U skaldu sa tim, a što se tiče licenciranja, zaštićen je permisivnom cc-by-sa (Creative commons, Attribution-ShareAlike) licencom. Prvi deo označava da se model može slobodno distribuirati i koristiti u bilo koju svrhu (uključujući komercijalnu upotrebu), kao i da se može koristiti kao podloga za obučavanje novih modela, dakle, ne zahteva nikakvu posebnu dozvolu ili licencu.

Drugi deo licence primorava korisnike da, ukoliko koriste ovaj model, pripišu adekvatne zasluge, i da ukoliko objavljuju nove modele koji su koristili ovaj kao osnovu, naznače da je reč o derivaciji ovog modela. Takođe, svi modeli zasnovani na ovom modelu moraju biti pod istom, permisivnom, licencom. Dakle, nadam se da će model naći upotrebnu vrednost, kao i da će ljudi praviti zanimljive varijacije i objavljivati ih, takođe, u javnom pristupu.

Najzad, kako će u budućnosti izgledati razvoj vašeg jezičkog modela?

Mihailo: Što se tiče unapređenja ovog modela konkretno, moguće je da će biti dorađen pomoću dodatnih korpusa Društva za jezičke resurse i tehnologije, koji do sada nisu korišćeni za njegovo obučavanje, ali će ta verzija verovatno biti korišćena samo za specijalne prilike. Sa druge strane, uskoro se planira objavljivanje dva dodatna encoder-only velika jezička modela, zasnovana na arhitekturi RoBERTa, čije obučavanje se obavlja na Rudarsko-geološkom fakultetu i trenutno se nalazi u finalnoj fazi.

Za razliku od ovog modela, koji je generativnog tipa, oni će se ponajviše koristiti za zadatke anotacije i klasifikacije rečenica, a siguran sam da će pretstavljati najveće i najbolje modele za srpski jezik u toj kategoriji.


Želiš da podeliš svoje mišljenje o ovoj temi? Komentari su otvoreni na našoj Facebook i LinkedIn stranici!

Popularno

Startapi i poslovanje

Srpsko-američki MotionOps podigao investiciju od $1,2 miliona – sledi širenje tima u Srbiji i dalji razvoj proizvoda

MotionOps zatvorio je 'pre-seed' rundu od gotovo 1,2 miliona dolara predvođenu VC fondom iz Jute Alpine 100. Nikola Cvetković, jedan od osnivača ovog startapa, otkriva nam više o tome kako tim planira da iskoristi investiciju.

Analiza

Rast po svaku cenu više nije ono što startape vodi do investicije – i tu je prilika za srpske timove

Po pitanju investiranja u startape na globalnom nivou, prošla decenija lako bi mogla dobiti titulu zlatne decenije. Problem je bio samo jedan: ti startapi u velikoj većini nisu stavljali naglasak na profitablinost i zdrav rast i, uprkos gubicima koji su se brojali u stotinama miliona, ipak su dostizali valuacije od nekoliko milijardi. Sada su se pravila igre promenila - što može ići u prilog domaćim startapima.

Sponzorisano

Degordian pokreće novi podbrend: Builtt! Fokusiraće se na ecommerce, web i product projekte

Degordian dobija novi specijalizovani spin-off brand koji deluje u 3 vertikale. Upoznajte 'Builtt' koji se bavi izradom web stranica, digitalnih proizvoda i ecommerce rešenja.

Propustili ste

Kultura 2.0

Web pristupačnost čini internet boljim mestom za sve – a posebno za osobe sa invaliditetom

Internet je alat putem kog možemo pronaći gotovo sve što želimo da saznamo, zar ne? Nažalost, to nije slučaj za osobe koje imaju određene invaliditete. Upravo zato je pristupačnost interneta (web accessibillity) sve aktuelnija tema.

Društvene mreže

Hoće li Elon Mask zaista uvesti pretplatu za sve korisnike Twittera?

Ono što se dešava sa Twitterom od momenta akvizicije od strane kontraverznog biznismena Elona Maska može se kategorizovati kao potpuna farsa sa čudnim spletom događaja i okolnostima koji su zadesili ovu društvenu mrežu.

Takmičenje

Bosch Startup Harbour poziva startape da zajedno validiraju ideje i skaliraju biznis – prijave traju do 30. septembra

Startup Harbour je globalna inicijativa kompanije Bosch čiji je cilj kreiranje ekosistema kroz saradnju između 'early stage' startapa i različitih Bosch divizija u oblasti informacionih tehnologija i digitalizacije.

Intervju

Amir Moini pomogao je Netflixu da izgradi Employer Brand iz temelja – a sada dolazi na Empple Festival

Treći po redu Empple Festival 5. oktobra ugostiće Amira Moinija, direktora Employer Branding-a kompanije Moloco u Silicijumskoj dolini.

Internet marketing

Weekend Media Festival po 16. put u Rovinju, ovog puta sa fokusom na HR i veštačku inteligenciju

Weekend Media Festival, jedna od najvećih regionalnih konferencija posvećenih digitalnom marketingu, po 16. put će se održati u Rovinju od 21. do 24. septembra, sa potpuno novim i aktuelnim temama iz digitalnog sveta.

Karijere

Olja Vučićević Gaković: Srpski IT bio je prenaduvani balon koji je morao da pukne – i to je izdvojilo kvalitetne kompanije

Olja Vučićević Gaković ima impresivno poslovno iskustvo: od života i rada u Silicijumskoj dolini i saradnje sa kompanijama kao što su Google, Yahoo i IBM, do povratka u Srbiju i vođenja uspešnih IT kompanija. U intervjuu koji sledi, ona je sa nama podelila svoje mišljenje o srpskoj IT industriji - i zašto smatra da je kriza imala pozitivan uticaj na nju.