Upoznajte SrBERTa - jezički model za pravne tekstove na srpskoj ćirilici!

Upoznajte SrBERTa – prvi jezički model za pravne tekstove na srpskoj ćirilici!

Dvoje studenata-entuzijasta za veštačku inteligenciju udružili su se sa svojim mentorom i osmislili jezički model na ćirilici koji će značajno unaprediti pretragu i obradu pravne dokumentacije na srpskom jeziku. Sve pojedinosti vezane za ovaj projekat, pročitajte u tekstu koji sledi.

Ekspanzija veštačke inteligencije i brojnih jezičkih alata, primorala je tehnološke stručnjake, ali i ljude koji se bave brojnim drugim, ne-tehničkim, profesijama da se polako navikavaju na “novu normalnost”, zainteresuju se za pomenute oblasti, te implementiraju njene alate u svoja zanimanja. Da bi to bilo moguće, neophodno je da postoje dobro osmišljeni, bogati i pouzdani jezički alati, koji razumeju i precizno obrađuju podatke na jeziku koji se koristi u specifičnim sferama ljudskog bavljenja.

Podsećanja radi, na Netokraciji smo prvo pisali o tome kako su takozvani NLP modeli za srpski jezik, nedovoljno razvijeni i šturi, i kako im je neophodno usavršavanje. Nije prošlo ni pola godine, a već smo vas izvestili o sr-gpt2-large, do sada najvećem generativnom jezičkom modeu na srpskom. Dakle, napredak se dešava munjevitom brzinom, a stručnjaci iz naše zemlje, čine sve da ona ostane pri samom vrhu razvoja veštačke inteligencije.

Zato vam danas donosimo još jednu u nizu inspirativnih priča, ovoga puta o timu sa Elektronskog fakulteta u Nišu koji je kreirao prvi jezički model za pravne tekstove, i to na srpskoj ćirilici. Kako su došli na ideju da razviju jezički model baš za oblast prava, o procesu obuke ovog modela, njegovim primenama i pouzdanosti podataka kojima raspolaže razgovarali smo s Nemanjom Petrovićem, predstavnikom tima koji stoji iza projekta.

Jezički model koji razume i interpretira zakonske tekstove

Nemanja je svoje obrazovanje započeo na Prirodno-matematičkom fakultetu u Nišu, gde je stekao osnove iz programiranja. Nakon prve godine, počeo je da radi u softverskoj industriji, paralelno sa svojim studijama. U prethodnih 9 godina, bio je zaposlen softverski inženjer sa fokusom na backend, a trenutno obavlja funkciju tech lead-a u kompaniji Badin Soft u Nišu gde, kako kaže, ima privilegiju da aktivno učestvuje u razvoju softvera – od samog početka projekta, pa sve do finalne implementacije.

U jednom trenutku odlučio je da nastavi svoje školovanje, te upiše master studije i tako nadogradi svoja tehnološka znanja i veštine. Kako je do te odluke došlo i zašto je odlučio da se usmeri na oblast veštačke inteligencije, Nemanja nam je opisao na sledeći način:

Prošle godine, doneo sam odluku da se dodatno usmerim ka veoma interesantnoj oblasti veštačke inteligencije, pa sam odlučio da upišem master studije na Elektronskom fakultetu u Nišu. Ova odluka proizilazi iz moje želje da se razvijam i prilagodim budućim trendovima u tehnologiji. AI je postala sve popularnija tema u svetu tehnologije, i verujem da će se dalje razvijati i oblikovati našu budućnost.

Tako, on trenutno završava master studije i sa svojim mentorom i jednom koleginicom koja pohađa doktorske studije, radi na razvoju velikog jezičkog modela za srpski jezik i pravne tekstove, što mu pruža priliku da se dublje posvetim ovoj specifičnoj oblasti.

U pitanju je projekat SrBERTa, rezultat zajedničkog napora troje gorepomenutih saradnika – Nemanje, njegovog mentora Miloša Bogdanovića i koleginice Jelene Tošić, pri čemu su svo troje koautori ovog modela. Naš sagovornik naglašava da je inicijalna ideja za razvoj SrBERTa potekla od profesora Bogdanovića, koji je prepoznao potrebu za unapređenjem jezičkih modela za srpski jezik, naročito u kontekstu prava. Potom nam je ispričao put od-ideje do realizacije, a koji kaže da je bio izazovan jer je uključivao niz koraka:

Prvo smo se posvetili prikupljanju podataka, s posebnim fokusom na podacima za fino podešavanje, a zatim je došlo treniranje modela koje je trajalo par meseci. Pored same arhitekture modela, razvili smo i visoko kvalitetan skup podataka za obuku, koji ćemo takođe staviti na raspolaganje javnosti.

Kada su u pitanju finansije, projekat je podržao Elektronski fakultet, što je omogućilo razvoj projekta bez potrebe za dodatnim sredstvima. Međutim, kako bi idejni tvorci postigli još bolje rezultate i razvili naprednije jezičke modele, Nemanja navodi da će im u budućnosti biti potrebni dodatni računarski resursi. Stoga, trenutno istražuju moguće opcije za obezbeđivanje ovih resursa kako bi nastavili sa napredovanjem u ovoj važnoj oblasti.

S obzirom na to da, kao što smo već pomenuli, na domaćem tržištu postoje jezički modeli za srpski jezik, zanimalo nas je šta SrBERTa izdvaja od konkurencije. Ono što, prema Nemanjinim rečima, izdvaja njihov jezički model, jeste njegova specijalizacija za pravne tekstove. Naime, pravni jezik karakterišu specifične jezičke konstrukcije i terminologija, što često izazov za jezičko modelovanje, zato naš sagovornik navodi:

SrBERTa model nije samo obučen za razumevanje srpskog jezika, već smo uložili napor da ga fino podesimo i specifično treniramo za pravne tekstove. To znači da je model sposoban da bolje razume i interpretira zakonske tekstove, pružajući preciznije i korisnije rezultate u ovom specifičnom kontekstu.

Ova specijalizacija ga čini perfektim za razvoj alata za pravne stručnjake, advokate i sve one koji se bave pravnom dokumentacijom, jer pruža veći nivo razumevanja i efikasnosti u obradi pravnih tekstova.

U poređenju sa GPT modelima, BERT se izdvaja po svojoj sposobnosti za analizu i razumevanje konteksta zahvaljujući bidirekcionalnom enkodiranju.

Obuka je trajala skoro 13 dana

On, nadalje, ekplicira kako proces obuke AI modela za razumevanje ćiriličnog pisma bio je složen i uključivao je nekoliko koraka. Pre svega, model je morao biti obučen da razume srpski jezik, što se naziva pre- training. Za ovu fazu tim je koristio OSCAR skup podataka, koji je besplatan i javno dostupan na više jezika, a nastao putem web skraping-a podataka sa interneta, uključujući novinske članke, blogove i druge izvore. Za srpski i ćirilicu, ovaj skup podataka sadrži 7,7 GB podataka i oko 600 miliona reči, zbog čega je proces učenja našeeg jezika bio veoma iscrpan:

Učenje srpskog jezika na dostupnim računarskim resursima trajalo je gotovo 13 dana. Nakon ovog koraka, modelu je prosleđen poseban skup podataka sa pravnim tekstovima koji smo sami kreirali.

Ovaj korak omogućio je modelu da ne samo razume srpski jezik, već i srpski pravni jezik, sa svim svojim specifičnostima i terminologijom. Najveći izazov sa kojim smo se suočili tokom ovog procesa bili su resursi. Radili smo sa onim što nam je bilo dostupno, što je usporilo proces treniranja.

Takođe, ograničeni hardverski resursi nisu im omogućili da kreiraju optimalnu arhitekturu modela koja bi još bolje naučila jezik. Ipak, planiraju da unaprede model kada dobiju pristup boljem hardveru, što će omogućiti još bolje rezultate u razumevanju i obradi srpskog jezika.

Sam naziv – SrBERTa – sugeriše da je ovaj jezički model zasnovan na BERT arhitekturi, pa smo našeg sagovornika pitali koje to prednosti ovaj tip arhitekture nudi u odnosu na druge jezičke modele, a naročito u kontekstu analize pravnih tekstova, na šta nam je on odgovorio sledeće:

BERT ima sposobnost da u potpunosti razume kontekst reči u rečenici, bilo da se radi o rečima koje prethode ili slede. Ovo je presudno za precizno razumevanje i analizu pravnih dokumenata gde često izrazi zavise od prethodnih ili kasnijih definicija.

Takođe je prilagodljiv i može se fino podesiti za specifične zadatke, treniranjem na odgovarajućim skupovima podataka, model može bolje razumeti terminologiju i strukturu pravnih dokumenata. U poređenju sa GPT modelima, BERT se izdvaja po svojoj sposobnosti za analizu i razumevanje konteksta zahvaljujući bidirekcionalnom enkodiranju.

Nemanja nam je nadalje objasnio da ova karakteristika omogućava BERT-u da uzme u obzir sve reči u rečenici, kako pre, tako i posle određene reči, pružajući dublje razumevanje konteksta. U kontekstu pravnih tekstova, gde su pojmovi i definicije često međusobno povezani u istoj rečenici ili pasusu, on naglašava da je ova sposobnost ključna.

To podrazumeva da BERT može bolje razumeti kako se termini koriste u specifičnom okruženju i kako se odnose jedan prema drugom. A, da mi nam bolje dočarao ove karakteristike, uporedio ih je sa GPT modelima:

S druge strane, GPT modeli, dok su izvanredni za generisanje teksta, nemaju istu dubinu razumevanja konteksta kao BERT zbog njihove dekoderske prirode. To ih čini manje efikasnim za analizu i interpretaciju pravnih dokumenata gde je precizno razumevanje terminologije i njihovih međusobnih odnosa od presudnog značaja.

SrBERTa će unaprediti pretragu i obradu pravne dokumentacije

Iako SrBERTa model još uvek nije implementiran u komercijalnim alatima, i dalje se nalazi u istraživačkoj fazi, Nemanja nam je naveo njegove potencijalne primene u svakodnevnom životu. Prvenstveno, to bi bila provera pravnog jezika, jer bi ovaj mofel mogao biti integrisan u alate za proveru pravnog jezika:

Na primer, korisnik bi mogao da unese pravni tekst, poput ugovora ili zakona, a zatim upotrebom SrBERTa modela proveri da li je tekst napisan u skladu sa pravnim standardima i duhom pravnog jezika. Model bi mogao da identifikuje nedoslednosti, neprecizne formulacije ili terminološke greške i predloži poboljšanja i ispravke.

Druga primena mogla bi da bude predlaganje reči i fraza, jer SrBERTa takođe može biti koristan u alatima za predlaganje reči i fraza u pravnim tekstovima. To znači da bi korisnik mogao da selektuje određenu reč ili frazu u pravnom dokumentu, a model bi u tom slučaju bio spreman da predloži slične reči ili fraze koje bi odgovarale kontekstu ili pomogle u razjašnjavanju određenih termina. Uzevši u obzir da je sve još u vek u test fazi, naš sagovornik ne isključuje ni druge potencijalne primene upotrebe:

Ovo su samo dva primera kako bi mogao da se koristi. Sigurno će biti mnogo drugih situacija i aplikacija gde bi se ovakav model mogao koristiti kako bi unapredio pravne tekstove ili pružio vredne sugestije za ispravke i poboljšanja. Potencijal primene SrBERTa u analizi i unapređenju pravnih dokumenata je širok i obećava nove mogućnosti u oblasti pravnog jezika.

Njegova trenutna zamisao je da SrBERTa model i vektorske baze podataka mogu zajedno revolucionarno promeniti način na koji pravni stručnjaci pretražuju i analiziraju pravne dokumente, uključujući zakone, akte i odluke. Stoga, u planu ima da prvo sprovede istraživanje kako bi razvio osnovne koncepte i metode za semantičku pretragu pravnih dokumenata. Tek nakon što postignem zadovoljavajuće rezultate u istraživačkom procesu, razmotriće mogućnost razvoja praktičnog alata koji će koristiti ove tehnike:

Ovo istraživanje će omogućiti temeljno razumevanje kako SrBERTa i vektorske baze podataka mogu biti primenjeni na pravne tekstove i kako bi se unapredila efikasnost i preciznost analize. Tek nakon što budem imao jasnu sliku o izvodljivosti i korisnosti ovog pristupa, razmotriću dalje korake u razvoju praktičnog alata za pravne stručnjake.

Nemanja je siguran sam da će pojedinci i organizacije naći kreativne načine da iskoriste SrBERTa model za razvoj različitih alata koji će unaprediti efikasnost i tačnost obrade pravnih dokumenata. On procenjuje da ove alate, kada budu bili razvijeni, mogu koristiti advokatske kancelarije kako bi ubrzale proces istraživanja i analize pravnih slučajeva, identifikovale relevantne zakone i presedane, ili proverile ispravnost pravnih tekstova.

Takođe, pretpostavlja da i državne institucije mogu koristiti ovakve alate kako bi olakšale analizu i obradu zakona, regulativa ili administrativnih akata. Na kraju, svestan je činjenice da konkretni načini primene ovih alata mogu varirati, ali i da je potencijal za povećanje efikasnosti i tačnosti u obradi pravnih dokumenata izuzetno velik.

Stoga, iako još uvek nisu definisane konkretne aplikacije, veruje da će se tokom vremena razvijati različiti alati koji će koristiti SrBERTa model kako bi unapredili rad u pravnom sektoru.

Korišćeni su pažljivo filtrirani i relevantni podaci

SrBERTa jezički model zamišljen je kao besplatan za komercijalnu upotrebu, a Nemannja najavljuje da će biti dostupan pod licencom cc-by-sa (Creative Commons, Attribution-ShareAlike). To znači da će korisnici moći slobodno da koriste model za svoje komercijalne potrebe, ali uz obavezu da navedu odgovarajuće zasluge.

Uz to, imaće priliku da kreiraju druge modele zasnovane na SrBERTa modelu uz obavezu da budu dostupni pod istom licencom kao SrBERTa. A kako će se dalje razvijati i ostajati u toku sa tehnološkim promenama, Nemanja objašnjava na sledeći način:

Model je zasnovan na najsavremenijim tehnologijama i te tehnologije su osnova svog trenutnog razvoja velikih jezičkih modela ali aktivno će se pratiti najnovija istraživanja u oblasti prirodnog jezika i dubokog učenja kako bi se identifikovale nove tehnike i metode koje bi mogle unaprediti performanse modela.

Ovo uključuje praćenje akademskih radova, konferencija i zajednica istraživača. Takođe radiće se na ostvarivanju saradnje sa drugim istraživačima i stručnjacima u oblasti veštačke inteligencije i prirodnog jezika kako bi se razmenilo znanje i iskustvo i na kraju dobio još bolji model.

Kako bi osigurali da model razume specifičnosti srpskog pravnog jezika, Nemanja i njegov tim kreirali su sopstveni korpus podataka za fino podešavanje. Ovaj korpus sastavljen je od podataka dostupnih na Pravno informacionom sistemu Republike Srbije, što uključuje zakone, propise, odluke i druge pravne tekstove. Kako ističe, izbor podataka za fino podešavanje bio je ključan jer je omogućio modelu da razume specifične konstrukcije, terminologiju i kontekst pravnih tekstova na srpskom jeziku:

Korišćenje ovog korpusa doprinelo je boljim performansama modela u analizi i razumevanju pravnih dokumenata. Izbor podataka za obuku i fino podešavanje modela imao je značajan uticaj na njegove performanse. Prednost korpusa koji smo sami kreirali leži u pažljivom odabiru podataka kako bi se modelu pružili najbolji mogući resursi za učenje i razumevanje srpskog pravnog jezika. U procesu kreiranja korpusa, pažljivo smo filtrirali i odabrali relevantne podatke.

Ovo uključuje izbacivanje kratkih tekstova, raznih tabela i drugih sadržaja iz kojih model nije mogao znatno da nauči. Fokusirali smo se na tekstualne resurse koji su bogati pravnim terminima, zakonima, propisima i odlukama. Ovaj pristup omogućio je modelu da se usmeri na suštinske elemente pravnog jezika i konteksta, čime su njegove performanse poboljšane u analizi i razumevanju pravnih dokumenata.

Dakle, izbor pažljivo odabranih podataka bio je ključan faktor u postizanju visokih performansi modela, jer mu je omogućio da efikasno nauči i usvoji specifičnosti pravnog jezika na srpskom.

Javna dostupnost i doprinos zajednici kao vrhovni ciljevi za dalji razvoj

Iako trenutno nije u planu proširenje upotrebe SrBERTa modela izvan pravnog domena, Nemanja nagoveštava potencijal da u budućnosti osnovni model – koji nije fino podešen za pravne tekstove već samo za srpski jezik – bude stavljen na raspolaganje zajednici. To bi omogućilo pojedincima i organizacijama da preuzmu model i fino ga podese za različite oblasti kao što su medicina, sport, nauka i mnoge druge:

Ovaj pristup otvorenog koda i otvorene zajednice omogućio bi širenje primene modela na različite sfere u budućnosti. Ipak, trenutno se fokusiramo na pravne tekstove i pravni jezik, a eventualno proširenje bi bilo predmet daljeg razmatranja i razvoja u skladu sa potrebama korisnika i istraživanjima.

Pošto je pravo izuzetno osetljiva kategorija ljudskog bavljenja, te zahteva posebnu bezbednost i privatnost podataka, a SrBERTa je model zasnovan na principu otvorenog koda, interesovalo nas je koji su koraci preduzeti kako bi se obezbedila etičnost i pouzdanost ovog modela. Na ovu dilemu, Nemanja je odgovorio da su u procesu obuke modela, korišćeni pravni podaci koji su bili provereni, javno dostupni i preuzeti od renomiranih organizacija:

To je značajno smanjilo rizik od bilo kakvih etičkih ili pravnih problema vezanih za privatnost podataka ili nepouzdane informacije. Dodatno, pored samog modela, korisnicima je dostupan i korpus podataka nad kojim je model treniran.

Ovo omogućava svakom korisniku da detaljno proveri nad kojim tačno podacima je model treniran i da se uveri u njihovu tačnost i etički karakter. Transparentnost u vezi sa izvorima podataka i metodama obuke ključna je komponenta obezbeđivanja etičnosti i pouzdanosti modela.

Na kraju razgovora, Nemanja je istakao da je razvoj jezičkih modela na srpskom jeziku tek  počeo, pa narednih godinu-dve očekuje značajan napredak u ovoj oblasti. On i njegov tim planiraju da budu aktivan deo tog razvoja, te svoji zalaganjem doprinesu zajednici. Zato, kako bi se se izdvojili na tržištu i obezbedili resurse za dalji razvoj, planiraju da pokrenu projekte u okviru Fonda za inovacionu delatnost, a istražuju i druge slične oblike finansiranja daljeg istraživanja.

Veruju da će im ova sredstva omogućiti da kontinuirano unapređuju svoj model i učine ga još korisnijim za pravnu i širu zajednicu. Iz tog razloga, ostaju verni strategiji da sve što budu razvijali učine javno dostupnim, čime će podržati razvoj i primenu veštačke inteligencije na srpskom jeziku i doprineti raznolikosti jezičkih modela u ovoj oblasti.


Želiš da podeliš svoje mišljenje o ovoj temi? Komentari su otvoreni na našoj Facebook i LinkedIn stranici!

Popularno

Office Talks Podcast

Kako doći do investicije za vaš startap?

Gost 195. epizode Office Talks podkasta bio je Miloš Rakčević koji je sa nama podelio svoj preduzetnički put i iskrene savete za sve koji planiraju da osnuju startap u Web3 ili nekom drugom sektoru IT industrije.

Startapi i poslovanje

Kako je Slobodan pobegao iz Beograda na Rtanj gde spaja IT i poljoprivredu?

U podnožju planine Rtanj, zajedno sa svojom porodicom pobegao je od gradske vreve i stresnog života. Tamo uzgajaju lekovito bilje od kojeg proizvode preparate dostupne na portalu Royal Balm.

Startapi i poslovanje

Srpsko-američki Lupa Technology osigurao investiciju od $1,8 miliona – sledi širenje poslovanja

Lupa Technology je na misiji da značajno unapredi upravljanje podacima u građevinskoj industriji. Ova srpsko-američka platforma, sa sedištem u Njujorku i Beogradu, upravo je zatvorila rundu ulaganja od $1,8 miliona kako bi podstakla svoju ekspanziju.

Propustili ste

Intervju

Endava: Program dualnog obrazovanja stvara IT budućnost Srbije

 Ukoliko nastojimo da razvijamo IT industriju i digitalnu ekonomiju u Srbiji, jedan od temelja za to jeste obrazovanje i dolazak novih mladih talentovanih ljudi. Velike IT kompanije, poput Endave, igraju važnu ulogu u procesu izgradnje i edukacije budućih stručnjaka.

Karijere

Učenike u Srbiji više ne zanima IT: Istina ili medijski spin?

'Đaci neće u programere' odjeknulo je u svim medijima nakon završenog prijemnog za srednje škole i gimnazije. Da li je zaista tako i zbog čega ove godine ima manje upisanih đaka na IT smerove u gimnazijama, pročitajte u analizi koja sledi.

Office Talks Podcast

Mily Tech: Startap koji pomaže da vam paketi stižu na vreme

Gost 197. epizode Office Talks podkasta bio je Miloš Zlatković, osnivač i CEO kompanije Mily Technologies. On nam je predstavio razvojni put kompanije — od osnivanja do milionske investicije i planova za budućnost!

Intervju

Mastercard lansirao alat ‘Shopping Muse’ za jednostavnu i personalizovanu kupovinu

Kompanija Mastercard je razvila novi alat 'Shopping Muse' koji je zasnovan na AI tehnologiji a sve u cilju da se napravi veliki korak ka interaktivnijoj i angažovanijoj trgovini u budućnosti. 

Sponzorisano

Kako strani eksperti iz kompanije ABBYY ocenjuju IT tržište rada u Srbiji?

Predviđaju da će Srbija od 'outsourcing' regrutnog centra postati atraktivna tehnološka lokacija na globalnom tržištu, ali je prethodno potrebno preduzeti određene korake ka ostvarivanju tog cilja.

Intervju

Može li veštačka inteligencija pomoći u izgradnji održivih energetskih sistema i poslovanja?

Koliko bi i na koji način integracija AI tehnologije mogla da utiče na unapređenje rešenja u energetskom sektoru, ali i na poslovanje jedne kompanije? Odgovor na ovo pitanje dobili smo u razgovoru sa Jelenom Pejković iz kompanije Schneider Electric.