ChatGPT – novo ažuriranje
Do sada smo sa ChatGPT-om mogli razgovarati isključivo pisanim putem, no OpenAl je krajem rujna 2023. godine objavio značajno ažuriranje kojim se počinju uvoditi nove mogućnosti – mogućnosti umjetne inteligencije da “vidi, čuje i govori”.
Ove mogućnosti nude novi tip sučelja koji je intuitivniji i koji vam omogućava da vodite razgovor glasom ili da pokažete ChatGPT-u o čemu govorite, te bi trebale biti uvedene u sljedeća dva tjedna za Plus i Enterprise korisnike. Glas će biti dostupan na iOS-u i Androidu, a slike će biti dostupne na svim platformama.
ADVERTISEMENT
Unos slika
Razumijevanje slika pokreću multimodalni modeli GPT-3.5 i GPT-4 na način da primjenjuju svoje vještine jezičnog razumijevanja na širok spektar slika, snimki zaslona i dokumenata koji sadrže i slike i tekstove. Na primjer, možete uslikati namirnice koje imate u hladnjaku i pitati ChatGPT za ideje za ručak te postavljati dodatna pitanja u vezi recepata. Možete uslikati i određenu znamenitost i voditi stvarni razgovor o tome što vam je zanimljivo u vezi nje, zatražiti priču za laku noć i slično. Ukoliko se budete željeli usredotočiti na određeni dio slike, moći ćete koristiti alat za crtanje u njihovoj mobilnoj aplikaciji.
Glasovne mogućnosti
Nova mogućnost glasa pokreće se novim modelom pretvaranja teksta u govor koji je sposoban za generiranje zvuka sličnog ljudskom samo iz teksta i nekoliko sekundi uzorka govora. Zanimljivost je da su surađivali s profesionalnim glumačkim vokalima te nude mogućnost biranja glasa koji vam se najviše sviđa između čak pet različitih glasova. Također koriste i Whisper – otvoreni sustav za prepoznavanje govora, kako bi preveli vaše izgovorene riječi u tekst. Nova tehnologija glasa koja je sposobna za stvaranje realnih sintetičkih glasova iz samo nekoliko sekundi stvarnog govora otvoriti će vrata brojnim kreativnim aplikacijama. Zanimljivo je da Spotify (popularna digitalna usluga za streaming glazbe) koristi snagu ove tehnologije za pilot projekt njihove značajke Voice Translation (prijevoda glasa), te pomaže podcasterima proširiti doseg svojih priča na dodatne jezike.
Izvor: Unsplash
ADVERTISEMENT
Važno je naglasiti da ovo ažuriranje predstavlja i nove rizike, na primjer potencijal da zlonamjerni akteri imitiraju javne ličnosti. Tvrtka tvrdi da je provela procjene rizika u domenama poput ekstremizma i znanstvene stručnosti i tražila povratne informacije od alfa testera, ali i dalje savjetuje oprez pri korištenju, posebno u situacijama visokog rizika ili specijaliziranog konteksta kao što je znanstveno istraživanje.
Izvor naslovne fotografije: Unsplash