Mihailo je kreirao sr-gpt2-large najveći jezički model na srpskom

Mihailo je kreirao sr-gpt2-large, do sada najveći generativni jezički model na srpskom

Zahvaljujući prikupljenoj količini tekstualnih datoteka od 30GB materijala i računarskim resursima obezbeđenim od Nacionalne platforme za veštačku inteligenciju, korisnici će moći da pristupe ovom alatu uz permisivnu licencu i time znatno olakšaju generisanje tekstova na srpskom jeziku.

Na početku godine pisali smo o tome kako jezički modeli za srpski jezik, koji se koriste u jezičkim alatima zasnovanim na veštačkoj inteligenciji (kao što su ChatGPT ili Google Bard) nisu dovoljno razvijeni zbog čega su značajno otežani zadaci poput automatskog prevođenja, sumarizacije i generisanja teksta. Međutim, zahvaljujući domaćim stručnjacima za veštačku inteligenciju, koji spadaju u najbolje u Evropi, ova situacija nije mogla dugo da stagnira.

Mihailo Škorić, interdisciplinarni naučnik koji u svom radu spaja filološke i tehničke nauke, nedavno je kreirao sr-gpt2-large veliki jezički model za generisanje teksta na srpskom jeziku, koji je obučavan na Nacionalnoj platformi za veštačku inteligenciju u Državnom data centru u Kragujevcu, ali na ostalim korpusima Društva za jezičke resurse i tehnologije. A koje su sve moguće primene ovog jezičkog modela, na kojim tehnologijama je on zasnovan i s kojim se izazovima susretao tokom njegovog razvoja, Mihailo nam je ispričao u razgovoru kroz ovaj intervju.

Za početak, da li možete da se predstavite našim čitaocima?

Mihailo: Volim da kažem da iza sebe imam dvadesetak godina interdisciplinarnog obrazovanja. To uključuje pohađanje Gimnazije u Obrenovcu, potom osnovne i master studije bibliotečko-informacionih nauka na Filološkom fakultetu i konačno, nedavno dovršene interdisciplinarne studije Inteligentnih sistema pri Univerzitetu u Beogradu. Mešavina prirodnih i društvenih nauka je tako okruženje koje mi najviše prija, što je i bilo idealno za usavršavanje u oblasti obrade prirodnog jezika, koja najčešće zahteva razumevanje kako računarskih sistema, tako i jezika kao pojave.

Prethodnih pet godina aktivan sam član Društva za jezičke resurse i tehnologije, gde se bavim razvojem pre svega alata za obradu (srpskog) jezika, ali i različitih jezičkih resursa. Paralelno radim kao softverski inženjer u Računarskom centru Rudarsko-geološkog fakulteta Univerziteta u Beogradu i učestvujem na domaćim i međunardnim projektima koji se tiču srpskog jezika ili obrade prirodnih jezika uopšte.

Kada i s kojim ciljem ste došli na ideju da kreirate sr-gpt2-large, veliki jezički model na srpskom?

Mihailo: Naš sr-gpt2-large nije prvi jezički model obučavan za srpski jezik. Samo na platformi Huggingface objavljeno ih je petnaestak. Ipak, uglavnom se radi o manjim (prema broju parametara) varijantama modela, pa je tako ovaj model trenutno najveći (bar u javnom pristupu). Kao što sam napomenuo, razvojem jezičkih resursa bavim se određeni niz godina. Modelovanje jezika tema je koja me posebno zanima, a ideja za obučavanje konkretnog modela je stara koliko i njegova arhitektura (oko četiri godine).

Prethodno sam već obučavao i objavljivao manje generativne (GPT-2) modele, ali su se nedavno ostvarili uslovi za obučavanje modela ove veličine. Kada kažem uslovi, mislim, pre svega, na neophodnu količinu tekstualnih datoteka (oko 30GB), i računarskih resursa, koji su, za potrebe obučavanja ovog modela, obezbeđeni putem Nacionalne platforme za veštačku inteligenciju. Proces obučavanja na platformi je trajao oko 35 dana, priprema za obučavanje još toliko, a prikupljanje podataka započeto je dosta pre mog vremena.

Da li možete da nam kažete nešto više o Nacionalnoj platformi za veštačku inteligenciju?

Mihailo: Nacionalna platforma za veštačku inteligenciju je računarski sistem zasnovan nVidia DGX platformi, obezbeđen od strane Vlade republike Srbije i baziran u državnom data centru u Kragujevcu. Oformljen je u cilju pružanja računarskih resursa za bavljenje veštačkom inteligencijom, s raznovrsnom ciljanom publikom: organima javne uprave, startap kompanijama, ali pripadnicima akademske zajednice. Pristup platformi dobio sam kao istraživač, a za obučavanje konkretnog modela korišćene su četiri grafičke kartice nVidia A100 (40GB).

Inače korisnici platforme mogu da koriste istovremeno do dve kartice, uz maksimalno vreme obučavanja od 72h, ali za potrebe ovog projekta, četiri kartice su na specijalan zahtev obezbeđene za čitav period obučavanja. Što se tiče softvera, korišćen je Pajton projekat Scratch2LM za obučavanje velikih jezičkih modela (zasnovan na biblioteci transformers), koji je javno dostupan i na mom GitHub-u.

Da li možete da nam objasnite i ostale korpuse Društva za jezičke resurse i tehnologije na kojima je obučavan?

Mihailo: Za obučavanje je korišćeno ukupno osam korpusa Društva za jezičke resurse i tehnologije (JeRTeh). Dva korpusa se nalaze u otvorenom pristupu na platformi HugginFace, i to su JeRTeh/SrpELTeC (korpus sačinjen od sto starih srpskih romana) i JeRTeh/SrpWiki (korpus sačinjen od tekstova sa Vikipedije na srpskom). Ostalih šest korpusa su: BiKes (jedan deo paralelnih, višejezičnih korpusa sa platforme Bibliša), GeoSrpKor (korpus geoloških tesktova), RudKor (korpus rudarskih tekstova), Disertacije (korpus doktorskih disertacija na srpskom jeziku), kao i veliki delovi opštih korpusa savremenog srpskog jezika SrpKor2013 i SrpKor2021.

Ono što ove korpuse izdavaja u odnosu na ostale je to što su sačinjeni ili od objavljene literature ili od tekstova koji su prikupljani dugi niz godina i potom ispravljani i uređivani. Cilj je bio pravljenje skupa podataka koji je pre svega visokog kvaliteta, a koji raste u obimu iz godine u godinu. Samim tim, ovi korpusi bi trebali da predstavljaju odličnu osnovu za obučavanje velikih jezičkih modela.

Kako obimnost utiče na performanse jezičkog modela?

Mihailo: Ono što se iznova i iznova pokazano je jasna korelacija između broja parametara i performansi jezičkih modela, a slično pravilo važi i za količinu podataka koji se koriste za njihovo obučavanje (veće je uvek bolje). Iako su i manji modeli generisali uglavnom koherentne rečenice na srpskom, ideja ovog, koji je četiri puta veći od najvećeg prethodnika, je da donese jasna poboljšanja, koja će verovatno biti i kvantitativno vidljiva kada se uradi koherentna komparativna analiza postojećih modela.

Naravno, postoje i veći jezički modeli koji su mogli biti obučeni (GPT2-XL ili čak GPT-J), ali je ovaj (GPT2- large) odabran kao kompromis između cene i kvaliteta, tako da bi vreme potrebno za obučavanje bilo u prihvatljivim granicama (a da se pritom dobije model koji je značajno veći od postojećih).

Koje mere ste preduzeli kako biste sprečili najčešće izazove s kojima se susreću veliki jezički modeli?

Mihailo: Nažalost, pri obučavanju ovakvih modela, nema puno mera koje se mogu preduzeti. Ono što možete da uradite je da za obučavanje koristite što kvalitetniji skup (tekstualnih) podataka. Idealno, treba koristiti što više tekstova koji su pre objave podlegnuti lekturi i korekturi, poput književnih ili naučnih i naučno-popularnih tekstova objavljenih u knjigama i časopisima ili upotrebiti određene kvalitativne filtere pri prikupljanju korpusa sa weba.

Što se tiče generisanja pogrešnih informacija, može se uposliti drugi jezički model ili sistem zasnovan na pravilima koji će proveravati generisani tekst ali, ukoliko zaista želite proverene informacije, nemojte ih tražiti od strogo generativnog modela (koji je obučavan da prosto pogađa narednu reč u tekstu).

Da li možete da nam navedete neke konkretne primere upotrebe sr-gpt2-large, koje ste do sada testirali?

Mihailo: Kao što je već rečeno, glavna funkcionalnost ovog modela je pogađanje naredne reči, to jest generisanje nastavka teksta. Što se tiče upotrebe, ona je u skladu sa ostalim generativnim modelima: možete ga koristiti da sebi olakšate proces pisanja teksta (tako što ćete ga započeti) ili za generisanje novog, kreativnog, do sada neviđenog teksta (koji ne mora nužno biti dobar ni informativan).

Osim toga, testirana je i njegova vrednost na zadacima evaluacije teksta (korišćenje modela kao zlatnog standarda), kao i na zadatku detekcije (štamparskih) grešaka u tekstu. Ako pričamo o jedinstvenosti ovog modela, ne bih mogao da posebno izdvojim ništa osim njegove veličine, dostupnosti i činjenice da je obučavan specijalno za srpski jezik, i to na prilično kvalitetnom korpusu tekstova.

Šta podrazumeva permisivna licenca za korišćenje jezičkog modela?

Mihailo: Sr-gpt2-large je obučavan na nacionalnoj platformi, pa je samim tim i javno objavljen, u cilju opšte upotrebe. U skaldu sa tim, a što se tiče licenciranja, zaštićen je permisivnom cc-by-sa (Creative commons, Attribution-ShareAlike) licencom. Prvi deo označava da se model može slobodno distribuirati i koristiti u bilo koju svrhu (uključujući komercijalnu upotrebu), kao i da se može koristiti kao podloga za obučavanje novih modela, dakle, ne zahteva nikakvu posebnu dozvolu ili licencu.

Drugi deo licence primorava korisnike da, ukoliko koriste ovaj model, pripišu adekvatne zasluge, i da ukoliko objavljuju nove modele koji su koristili ovaj kao osnovu, naznače da je reč o derivaciji ovog modela. Takođe, svi modeli zasnovani na ovom modelu moraju biti pod istom, permisivnom, licencom. Dakle, nadam se da će model naći upotrebnu vrednost, kao i da će ljudi praviti zanimljive varijacije i objavljivati ih, takođe, u javnom pristupu.

Najzad, kako će u budućnosti izgledati razvoj vašeg jezičkog modela?

Mihailo: Što se tiče unapređenja ovog modela konkretno, moguće je da će biti dorađen pomoću dodatnih korpusa Društva za jezičke resurse i tehnologije, koji do sada nisu korišćeni za njegovo obučavanje, ali će ta verzija verovatno biti korišćena samo za specijalne prilike. Sa druge strane, uskoro se planira objavljivanje dva dodatna encoder-only velika jezička modela, zasnovana na arhitekturi RoBERTa, čije obučavanje se obavlja na Rudarsko-geološkom fakultetu i trenutno se nalazi u finalnoj fazi.

Za razliku od ovog modela, koji je generativnog tipa, oni će se ponajviše koristiti za zadatke anotacije i klasifikacije rečenica, a siguran sam da će pretstavljati najveće i najbolje modele za srpski jezik u toj kategoriji.


Želiš da podeliš svoje mišljenje o ovoj temi? Komentari su otvoreni na našoj Facebook i LinkedIn stranici!

Popularno

Tehnologija

Neuralink moždani čip: Revolucija u medicini ili senzacionalizam?

Čip pod nazivom 'Telepatija' uspešno je ugrađen u ljudski mozak, saopštila je kompanija Elona Maska. Analizirali smo da li je reč o velikom naučnom dostignuću, ili tek eksperimentu u testnoj fazi.

Startapi i poslovanje

Vega IT ulaže €1.000.000 u osnivanje novog startapa Thrivea

Kao nastavak globalnog širenja poslovanja, kompanija Vega IT najavila je novi poslovni poduhvat. Ovog puta, rade na razvoju inovativnog HR SaaS rešenja pod imenom Thrivea.

Startapi i poslovanje

Anygo je novi servis za deljenje vozila u Beogradu putem aplikacije – čija se mreža širi

Na ulicama glavnog grada pojavili su se mali gradski Hyundai automobili sa natpisom 'Anygo car sharing'. Prestonica je konačno dobila jedan ovakav servis, a mi vam u intervjuu sa osnivačem startapa 'Anygo' otkrivamo kako on funkcioniše i na koji način je nastao.

Propustili ste

Startapi i poslovanje

Novi GapMinder Fond II s kapitalom od €80 miliona targetira i srpske startape!

GapMinder Ventures, VC fond koji je dosad primarno ulagao u tehnološke kompanije iz Rumunije, pokreće GapMinder Fond II, investicioni paket od 80 miliona evra koji će biti alociran i na širem istočnoevropskom regionu, pa tako i Srbiji i Hrvatskoj.

Tehnologija

SEO Spam: Kako su AI generisani advokati pokušali da prevare Netokraciju?

Razvojem veštačke inteligencije cyber kriminalci postaju sve veštiji, a napadi sve maliciozniji. Donosimo vam priču o tome kako smo uspeli da raskrinkamo jedan takav pokušaj ucene.

Office Talks Podcast

Da li će Bitcoin doći do $100.000?

Dolazak Bitcoin ETF-a izazvao je pažnju mnogih u Web3 svetu. Upravo o ovoj temi ali i o stanju na tržištu kriptovaluta, razgovarali smo u novoj epizodi podkasta sa Aleksandrom Matanovićem, direktorom i osnivačem kripto menjačnice ECD.rs.

Mobilno

Uživo praćenje prevoza u Beogradu od danas na Google mapama!

Google je u okviru svoje aplikacije mapa na pametnim telefonima omogućio praćenje javnog prevoza u realnom vremenu za našu prestonicu.

Digitalni mediji

Vladimir Kovač: Iz zajednice se regrutuje radna snaga, zato kompanije treba da budu deo događaja

Zrenjaninski hotel Vojvodina tradicionalno će krajem aprila ugostiti još jednu DigiTalk konferenciju i edukaciju posvećenu e-trgovini. O važnosti održavanja ovakvih događaja za kreativnu, digitalnu i IT zajednicu, razgovaramo sa jednim od osnivača i organizatora konferencije.

Intervju

Bosch inženjerski centar u Srbiji zapošljava IT stručnjake koji razvijaju rešenja za auto industriju

Ubrzani razvoj 'automotive' industrije i okretanje u smeru sve veće integracije digitalnih rešenja, otvorile su jedno sasvim novo poglavlje za tehnološke i IT kompanije. Jedan od lidera u razvoju digitalnih rešenja za auto industriju je i kompanija Bosch, čiji IT sektor u Srbiji zapošljava više od 400 stručnjaka.