Roboti nas nisu zamenili, ali zato uče srpski jezik - da se bolje razumemo

Roboti nas nisu zamenili, ali zato uče srpski jezik – da se bolje razumemo

Veštačka inteligencija je nesumnjivo obeležila 2023. godinu! Zato smo analizu ove tehnologije po prvi put uvrstili u našu tradicionalnu godišnju retrospektivu, a fokus smo usmerili na razvoj velikih jezičkih modela za srpski jezik.

Pored masovnih otpuštanja i krize u IT industriji, najzastupljenija tema nišnih (i mejnstrim) medija bila je, naravno, veštačka inteligencija. Zato smo, sa nekima od trenutno najvećih domaćih stručnjaka iz ove oblasti, pripremili veliku analizu u kojoj smo istakli najvažnija saznanja i činjenice koje su važne za, pre svega razumevanje, a potom i implementaciju veštačke inteligencije u svakodnevicu.

Goran Milovanović (Lead Data Scientist-u u kompaniji SmartOcto) pružio je kritički osvrt na AI dešavanja koja su obeležila godinu, dok je Slobodan Marković (digitalni savetnik u organizaciji UNDP) govorio o temi važnoj za razvoj domaćih AI alata – velikim jezičkim modelima koji će omogućiti njihovo funkcionisanje na srpskom jeziku.

Naposletku, Aleksa Gordić (kreator yugoGPT) predstavio nam je najveći generativni model za srpski jezik – yugoGPT, na čijem razvoju neumorno radi i koji će doneti značajnu promenu u poimanju alata zasnovanih na veštačkoj inteligenciji.

Javnost nema razvijeno kritičko mišljenje o veštačkoj inteligenciji

Goran Milovanović procenio je da se u ovoj godini dogodila “čitava decenija” kada su u pitanju dostignuća vezana za razvoj i ekspanziju veštačke inteligencije. Prema njegovim zapažanjima, pomenuta dostignuća ogledaju se u alatima kao što su GPT-4, Anthropic Claude, odnedavno Google Gemini, kako kaže “predivni” Midjourney, i još mnogo toga:

Eksplodirale su kao supernova dve decenije dinamičnog, ingenioznog razvoja u oblasti dubokog učenja, otkriće Transformer arhitekture, Stable Diffusion algoritma, i konačno smo uspeli da računarski simuliramo mentalne procese tek asocijativnog pamćenja i mišljenja, stvarajući jedno parcijalno rešenje koje je ipak dostojno toga da se prvi put nazove veštačkom inteligencijom. Revolucija, ukratko.

Ističe i da će biti potrebno još mnogo usavršavanja do opšte veštačke inteligencije, ali i da priučeni i nekompetentni analitičari često iznose predviđanja, koja nemaju veze sa naučno relevantnim istraživanjima:

Ljudi koji to sve ozbiljno prate i poznaju nauku, matematiku i inženjering koji stoje iza svih tih razvoja znaju gde smo po tom pitanju, a nismo blizu uopšte.

Dostignuća koja imamo su objektivno vredna, primenjena, već obrću kapital, prava stvar, a naš naveći ‘fail’ je kao i uvek to što smo u javnosti nekritički prihvatili mnogo toga, o preteranim očekivanjima i strahovima od katastrofičkih rizika da ne govorim. Treba nam sada jedna godina da se sve ovo slegne.

Evropa kaska za Amerikom i Kinom u AI razvoju

Nadalje, Goran smatra da Evropa i njena Unija poprilično zaostaju za Amerikom i Kinom kada je u pitanju razvoj veštačke inteligencije, ali vidi i neke značajne korake koji su pokrenuti kako bi se ove razlike umanjile:

Treba nam i taj treći konkurent, treba nam što dinamičnija utakmica, međusobno motivisanje na nova rešenja.

Kad smo kod EU, ne zaboravimo da AI Act, iako je ta priča tek počela, ipak jeste usvojen i da predstavlja prvi sveobuhvatan regulatorni okvir za AI tehnologije. Primena će biti komplikovana, ali sa nečime mora da se počne, i dobro je da se počelo.

Ono što je za njega otvorena tema i nosi najveću neizvesnost u nastupajućoj godini jeste razvoj Open Source projekata, a kao primer navodi francuski Mistral AI, na primer i pitanje dokle može da se stigne sa njime. A, kada je reč o razočaranju godine, označio bi frejmvorke za AI development poput LangChain i sličnih:

Svi realni AI developeri sa kojima sam pričao – a pod “realnim” ovde mislim na one koji nisu samo eksperimentisali, nisu samo čitali/pisali blog o tome šta sve može, nego su nešto primeljivo i što može da se naplati na bazi generativnih AI u 2023. zaista razvili – slažu se sa mnom u tom sudu: “Neko se odlično setio kako da okrene pare razvijajući nešto što nikome u suštini ne treba”.

Open AI i dalje najjači igrač na tržištu

Uzevši u obzir činjenicu da su od početka godine mnogi veliki igrači u tehnološkoj industriji svoju pažnju usmerili na razvoj AI alata, pitali smo Gorana da li misli da će Open AI izgubiti ulogu suverena po pitanju razvoja veštačke inteligencije, na šta nam je on odgovorio sledeće:

OpenAI je trenutno i dalje ispred konkurencije, a najoštriji konkurenti su mu svakako Anthropic čiji modeli Claude klase imaju neverovatan performans. Tu se izdvaja i Google, čiji Gemini – prema testovima koje su doduše sami izveli – prednjači po postignućima u odnosu na GPT-4 klasu.

Ali tu postoje druge stvari. Prva, iz OpenAI uspeli su da u prethodnih godina doslovce brendiraju AI, pa ljudi danas kada kažu AI misle ChatGPT. Ta snaga brenda sada predstavlja ogroman kapital u njihovim rukama. Drugo, u bezbednom su savezu sa Microsoft-om, i iako znam da se se neće svi sa mnom složiti u vezi toga, smatram da je njihova poslovna koalicija sa ujedno i njihov najpametniji poslovni potez uopšte.

Veštim kriznim menadžmentom posle pokušaja malog puča protiv Altmana ranije ove godine, iz Microsoft-a su uspeli da obezbede još čvršće veze svojom investicijom od 13 milijardi dolara, a verujem i da OpenAI spasu od samih sebe od potencijalno nepromišljenih poteza.

Iz OpenAI uspeli su da u prethodnih godina brendiraju AI, pa ljudi danas kada kažu AI misle ChatGPT!

Naš sagovornik dodaje i da kompanija OpenAI prednjači u integraciji svojih sistema, pa korisnici ChatGPT Plus alata danas u istom paketu imaju i DALL-E 3. Zatim, on smatra da razvoj njihovog API servisa ide u dobro pravcu, jer kompanija diktira i postavlja standarde koje će drugi morati da slede, zbog čega sada imamo Stateful API servis što je značajno za AI developere.

Što se tiče ostalih kompanija, Goran uviđa da ih Anthropic prati u stopu, a kako će Google Gemini parirati tek ostaje da se vidi:

Google i dalje, čini mi se, ne uspeva da nadoknadi headstart kojim su se OpenAI izdvojili. Ono što možda može da brine OpenAI je da, uz sve njihove napore, većina uključujući i mene smatra da je Midjourney i dalje bolji AI sistem od DALL-E 3.

Veštačka inteligencija nije uticala na tržište rada

Na pitanje da li ima uvid u to koliko je ekspanzija AI alata uticala na tržište rada u Srbiji i kolika je njihova zastupljenost u domaćim biznisima, Goran nam je odgovorio kako je siguran da je učešće generativnih AI u srpskoj privredi trenutno ravno nuli. Iako, profesionalci u raznim industrijama koriste AI da bi sebi olakšali posao i uštedeli vreme i napor, ističe činjenicu da o sistematskim promenama još uvek nema poente govoriti:

Kroz nekoliko razgovora na našem tržištu koje sam imao o razvoju potencijalnih proizvoda i servisa baziranih na generativnim AI shvatio sam da su naše kompanije retko pripremljene da naprave korak i u prethodnu generaciju modela klasičnog mašinskog učenja, o AI da ne počinjemo.

Opet, u razgovorima sa strancima, dobijao sam zahteve za razvoj sistema baziranih na generativnim AI od  ljudi koji nisu znali da mi odgovore da li se njihov posao već bazira na cloud servisima ili ne. Tako da, naša radna snaga apsolutno nema zbog čega da brine – neće to skoro!

U 2024. godini, stišaće se AI pomama

Pošto su AI alati odavno u produkciji i prisutni kroz Google i Microsoft servise i aplikacije na prvom mestu, a developeri u cloud-u je “uredno vuku” kroz AWS Bedrock services, Goran predviđa da ljudi neće biti ni svesni da koriste veštačku inteligenciju u svakodnevnom poslu, ali dodaje i sledeće:

Očekujem da u 2024. poslovne analize i projekcije na AI tržištu postanu manje optimistične i počnu da uvažavaju realnost da cena razvoja i održavanja AI podržanih servisa i aplikacija nije mala.

Od toga će zavisiti mnogo, da li će konkurencija u pružanju usluge generativne AI dovesti do toga da se mehanizam cena uravnoteži tako da AI developerima – onima koji će koristiti generative AI nekog provajdera poput OpenAI, Anthropic, Google, ili već – razvoj specijalizovanih servisa bude solidno isplativ.

Domaća zajednica prepoznaje značaj razvoja jezičkih modela

Početkom godine, sa Slobodanom Markovićem, razgovarali smo o inicijativi koju je pokrenuo za izradu kvalitetnih skupova podataka i jezičkih modela prilagođenih fine-tuned podacima na maternjem jeziku. Zato smo ga zamolili da nam opiše rad i glavna dostignuća na ovom projektu i pitali ga da li je zadovoljan dosadašnjim rezultatima, na šta nam je on odgovorio:

Pre svega, zadovoljan sam što je naša inicijativa podigla svest u zajednici o problemu jezičkih tehnologija za srpski i uticala na druge aktere da neke svoje podatke i resurse objave pod permisivnim licencama. Naš projektni tim je ove godine, u saradnji sa partnerima iz privatnog sektora, radio na skupu podataka za jedan specifičan jezički domen i konkretan zadatak u okviru njega.

Napravljeni su reprezentativni ekavski i ijekavski korpusi za prilagođavanje NLP modela radi bolje pretrage pravno-administrativnih tekstova.

Prema Slobodanovim rečima, gorenavedeni skup podataka i njime prilagođen model, biće obјavljeni kraјem јanuara 2024. pod permisivnom licencom. Uz to, tokom naredne godine očekuјe se dopuna skupa i modela podrškom za prepoznavanje imenovanih entiteta u pravnim tekstovima (npr. naziva propisa, instituciјa i slično).

ChatGPT bolje razume srpski, ali ima još prostora za učenje

Slobodana smo pitali i u kojoj fazi se danas nalazi razvoj alata za prepoznavanje sentimenata u tekstu na srpskom jeziku i da li je zadovoljan dosadašnjim učinkom, on je izjavio da se suštinski nije mnogo promenilo:

Popularni veliki jezički modeli, poput ChatGPT, jesu podigli lestvicu kada je razumevanje srpskog jezika u pitanju, ali oni nisu suštinski prilagođavani za naš jezik, kulturu, pravni sistem i tako dalje.

Ovo odsustvo optimizacije za srpski znači da je njihova primena u domaćim poslovnim aplikacijama ograničena i svakako skuplja u odnosu na engleski (čak i ako izuzmemo slučajeve gde se traži garantovanje tajnosti ili rad bez internet veze, gde takve modele nije moguće primeniti).

Veliko je pitanje da li će, i u kojoj meri, veliki igrači obratiti pažnju na nas u neko dogledno vreme, jer smo za njih malo tržište i nizak prioritet.

Zato Slobodan i dalje smatra da zajednica mora da obezbedi podatke za obuku i prilagođavanje jezičkih modela našem jeziku. Za njega i njegov tim ima dosta posla posla, i to ne samo kada je reč o NLP modelima (u koje spada i visoko kontekstualni sentiment), nego i kada su u pitanju i druge oblasti obrade jezika, kao što je pretvaranje govora u tekst ili generisanje govora:

Potreban nam je ‘level-up’ na nacionalnom nivou, ako mislimo da naša ekonomija ima koristi od mogućnosti koje donosi tekuća ‘AI revolucija’. Ovaj ‘level-up’ bi mogao da dođe u obliku državnog Programa za podršku razvoju jezičkih tehnologija.

Zajednica mora da obezbedi podatke za obuku i prilagođavanje jezičkih modela našem jeziku.

U toku je razvoj najvećeg generativnog modela za srpski jezik

Slobodan je istakao i značajan rast home grown hacking zajednice oko jezičkih tehnologija za srpski. Tim povodom, istakao je Mihaila Škorića, koji je ove godine izbacio GPT2 model za srpski, Nemanju Petrovića, koji je izbacio novu verziju BERT modela obučavanog na pravnim tekstovima, Andriju Sagića koji prilagođava srpskom Whisper model za pretvaranje govora u tekst. Konačno, tu je i kako kaže “herojski poduhvat” Alekse Gordića, koji obučava najveći generativni model za srpski – yugoGPT sa 7 milijardi parametara.

Zato smo za kraj ove velike AI analize, pozvali Aleksu da nam bliže predstavi svoj projekat. U želji da uradi jedan fine-tune Meta-inog LLaMA jezičkog modela, shvatio je da je podrška za ex-jugoslovenske jezike dosta loša:

Ne samo da nema open-source ekosistema oko LLM-ova već i generalan nedostatak inteligentnih sistema za prevođenje (DeepL najbolji komercijalni provider ovih usluga recimo uopšte ne podržava srpski) i ostalih NLP sistema.

To me je inspirisalo da krenem da radim na open-source-ovanju rada od Mete koji se zove ‘no language left behind’ odnosno ‘ni jedan jezik neće biti ostavljen iza’ u mom slobodnom prevodu. Taj sistem podržava 202 jezika odnosno preko 40.000 pravaca prevođenja.

Svestan da želi da se bavi treniranjem LLM-ova za razne jezike, odlučio je da počne sa ovdašnjom grupom jezika i tako se rodila ideja yugoGPT-a, LLM-a od 7 milijardi parametara za HBS jezike (hrvatski, bosanski, srpski, crnogorski). A razlog tome, kako ističe, čisto je tehničke prirode:

Prvenstveno, slični su tako da ako model nauči jedan jezik lako će naučiti i drugi (transfer learning). A zatim, da bih maksimizovao broj tekstualnih tokena (token je za sve praktične potrebe ovog bloga sinonim za reč).

Činjenica je da ne postoji dovoljno tokena za sve ove jezike na celom internetu da se istrenira jedan optimalan LLM, pa zbog toga mora da se krene od modela koji su pretrenirani na engleskom i uradi ‘continued pretraining’.

Pravo testiranje yugoGPT-a tek sledi

Proces razvoja yugoGPT modela još uvek traje i obuhvata mnogo komponenta i detalja. Aleksa ističe da mu je najveći problem bio da razume kako će da nabavim veliku količinu GPU-ova za treniranje ovih sistema:

Zbog moje pozicije u AI svetu to je bilo nešto lakše i uskoro se naređalo više stranih kompanija koje su htele da mi daju svoje A100 GPU-ove na korišćenje. Zauzvrat, ja njih promovišem na socijalnim mrežama na kojima imam preko 160.000 pratilaca (takođe im znači i što sam ‘power user’).

Model sam skoro testirao na svom kompjuteru i samo ću reći da pokazuje izuzetne rezultate (uskoro ću i javno podeliti te rezultate).

Ipak, pravo testiranje tek sledi, a naš sagovornik najavljuje da će verovatno već sledeće nedelje podeliti sajt na kome će ljudi moći da ga isprobaju. Nakon toga će open-source-ovati base model. Jedan od izazova, pored manjka compute-a, bio je i nedostatak testova za srpske/HBS LLM-ove, zbog čega je prethodnih nedelja napravio i prvi srpski LLM skup evaluation testova.

Najzad, objašnjava i da su OpenAI GPT-4 krediti veoma skupi, ali da su uz pomoć entuzijastičnih pojedinaca, kao i nekoliko kompanija, uspeli da obezbede finansije za čitav projekat. 

Aleksa je završio dvonedeljno treniranje YugoGPT-a, ali pravo testiranje tek sledi i biće mu potrebna podrška zajednice.

Da bi yugoGPT zaživeo, potrebna je veća podrška kompanija

Zvanično, YugoGPT 7B značajno nadmašuje Mistral i LLaMA 2 i to ga čini najboljim open-source LLM na svetu za srpski i druge HBS (hrvatski, bosanski, crnogorski) jezike.

Ipak, kada je u pitanju razvoj yugoGPT-a, i odgovor domaće tehnološke zajednice na ovaj projekat, Aleksa uviđa nekoliko problema. To su: manjak GPU-ova od strane domaćih kompanija, manjak talenatovanih ljudi koji znaju da treniraju i fine-tune-uju ove modele, ali i nedovoljno svesti oko toga zašto je open source bitan:

Zbog ovoga mislim da će neke kompanije samo uzeti model, izgraditi nešto interno, i neće potom podeliti taj svoj rad sa zajednicom. Nažalost, mnogi ljudi i dalju kada čuju open-source samo čuju “besplatno”.

Ukoliko ima kompanija koje bi želele da koriste ove velike jezičke modele ja ću nuditi tu uslugu narednih meseci kroz svoj startap. Veliki broj use-case-eva koji su prethodno bili nerešivi mogu da se reše na ovaj način.

Iz tih razloga, skoro svu podršku Aleksa je pronalazio van Srbije i regiona, a značajnu ulogu imao je njegov Discord server. Ipak, kada je projekat dobio odjek u zajednici, stvari su se malo promenile, pa su domaće kompanije, ali i pojedinci iz Srbije i regiona finansijski pomogli i rasplamsali interesovanje.

Svakako, finansijska podrška  je i dalje potrebna, a sve zainteresovane kompanije i pojedinci mogu se informisati na zvaničnom sajtu projekta!


Želiš da podeliš svoje mišljenje o ovoj temi? Komentari su otvoreni na našoj Facebook i LinkedIn stranici!

Popularno

Startapi i poslovanje

Srpsko-američki ‘Cosmic Buildings’ podigao investiciju od $1,5 miliona i predstavio svoju održivu kuću u San Francisku

Startap Cosmic Buildings koji je osnovao Saša Jokić, podigao je pre-seed rundu investicije u iznosu od 1,5 miliona dolara koju predvodi domaći fond Fifth Quarter Ventures uz učešće Ciri Ventures, Navitas Capital, Climate Capital i vodećih 'angel' investitora.

Office Talks Podcast

Tech feminizam i Mudrinićev američki san

Nakon kraće pauze, 182. epizoda Office Talks podkasta bila je internog tipa: Mudrinić je s nama podelio utiske sa svoje 'američke turneje', a Anastasija je analizirala položaj žena u srpskoj tech industriji.

Društvene mreže

Twitter punoletstvo: Da li je Mask stavio X na instituciju uticajnih tviteraša?

Na godišnjicu prvog tvita, razmatramo da li će Maskovi eksperimenti zaista napraviti revoluciju, ili je u pitanju 'mnogo vike ni oko čega'?

Propustili ste

Gaming

SGA izveštaj: Video igre kreirane u Srbiji za 2023. godinu prihodovale €175 miliona

Uprkos izazovima koje je donela 2023. godina, gejming industrija Srbije uspela je ne samo da očuva stabilnost, već i da poveća prihode i broj zaposlenih, pokazuje istraživanje Asocijacije industrije video igara Srbije (SGA) koje je u saradnji sa Privrednom komorom Srbije predstavljeno javnosti.

Startapi i poslovanje

Srpski Collabwriting podigao €1,1 milion za AI implementaciju u poslovanje!

Nakon osvojenih €880.000 na prošlogodišnjoj 'How To Web' konferenciji, startap Sandre Iđoški i Ivana Ralića nastavlja da pridobija povrenje investitora.

Web 3.0

Bitcoin Halving je počeo, zašto je on važan za ovu kriptovalutu i njene rudare?

Bitcoin Halving koji se dešava danas je redak događaj u mehanizmu Bitcoina, nakon kog obično uslede značajne promene kada je reč o ovoj kriptovaluti.

Tehnologija

Ko je zapravo lažna dr Emili Roberts o kojoj je izvestilo preko 50 domaćih medija?

Učesnica ovogodišnjeg Dana internet domena i njeno predavanje na temu 'Borba protiv uznemiravanja u deepfake eri' privukla je ogromnu medijsku pažnju i to s dobrim razlogom!

Office Talks Podcast

Biznis podcasti omladinu kvare?

U 186. epizodi podkasta govorili smo o sve većoj ekspanziji zapaljivog sadržaja o izgradnji biznisa, uspehu i brzom obogaćivanju. Sve to smo uporedili i analizirali sa realnim pričama o izgradnji preduzetništva u Srbiji i gde zapravo u ovom slučaju postoje kontradiktornosti.

Startapi i poslovanje

Otvoren konkurs za StarTech grantove do $50.000

Konkurs je deo šireg projekta kompanije Philip Morris, ukupno vrednog osam miliona evra, koji sprovodi NALED uz podršku Vlade Srbije.