Domov Novinky Multimodálny GPT-4o nastavuje novú latku pre chatbotov

Multimodálny GPT-4o nastavuje novú latku pre chatbotov

Zdielať

Nový hlasový asistent hovorí tak prirodzene, že si budete myslieť, že je to podvod.

OpenAI práve predstavil GPT-4o (GPT-4 Omni alebo skrátene „O“). Model nie je o nič „inteligentnejší“ ako GPT-4, ale napriek tomu ho odlišujú niektoré pozoruhodné inovácie: schopnosť spracovávať textové, vizuálne a zvukové údaje súčasne, takmer žiadna latencia medzi kladením otázok a odpovedí a neuveriteľne ľudsky znejúci hlas. Zatiaľ čo dnešné chatboty sú jedny z najpokročilejších, aké boli kedy vytvorené, všetky trpia vysokou latenciou.

V závislosti od dotazu sa časy odozvy môžu pohybovať od sekundy do niekoľkých sekúnd. Niektoré spoločnosti, ako napríklad Apple, to chcú vyriešiť spracovaním AI na zariadení. OpenAI zvolila iný prístup k Omni. Väčšina odpovedí Omni bola počas pondelkovej demonštrácie rýchla, vďaka čomu bola konverzácia plynulejšia ako typická relácia chatbota. Elegantne prijala aj prerušenia. Ak by moderátor začal hovoriť o odpovedi GPT-4o, pozastavil by to, čo hovorí, namiesto toho, aby dokončil svoju odpoveď.

OpenAI pripisuje nízku latenciu modelu schopnosti modelu spracovať všetky tri formy vstupu: text, vizuál a zvuk. Napríklad ChatGPT spracoval zmiešaný vstup prostredníctvom siete samostatných modelov. Omni všetko spracováva a koreluje do súdržnej odozvy bez čakania na výstup iného modelu. Stále má „mozog“ GPT-4, ale má ďalšie spôsoby vstupu, ktoré dokáže spracovať, čo by sa podľa CTO OpenAI Mira Murati malo stať normou. „GPT-4o poskytuje inteligenciu na úrovni GPT-4, ale je oveľa rýchlejší. Myslíme si, že GPT-4o skutočne posúva túto paradigmu do budúcnosti spolupráce, kde sa táto interakcia stáva oveľa prirodzenejšou a oveľa jednoduchšou,“ povedal Murati.

V ukážke najviac vynikol hlas (alebo hlasy) Omniho. Keď prezentujúci hovoril na bota, ten reagoval nenúteným jazykom popretkávaným prirodzene znejúcimi pauzami. Dokonca sa aj rozosmial, čo mu dodalo ľudský charakter, ktorý ma prinútil zamyslieť sa nad tým, či bol vytvorený počítačom alebo falošný. Skutoční aj amatérski odborníci budú nepochybne zábery podrobne skúmať, aby ich potvrdili alebo vyvrátili. To isté sme videli, keď Google predstavil Duplex.

Možno však nebudeme potrebovať dodatočnú kontrolu. OpenAI nechal GPT-4o hovoriť so sebou na dvoch telefónoch. Tým, že dve verzie bota medzi sebou konverzovali, sa táto ilúzia podobná človeku trochu narušila. Hoci mužský a ženský hlas stále znel ľudsky, konverzácia pôsobila menej organicky a viac mechanicky, čo dáva zmysel, ak odstránime jediný ľudský hlas. Na konci ukážky moderátor požiadal botov, aby zaspievali. Bol to ďalší nepríjemný moment, keď sa snažil koordinovať botov, aby zaspievali duet, čo opäť narušilo ilúziu. Aj Omniho ultra nadšený tón by potreboval trochu doladiť.

Spoločnosť OpenAI dnes tiež oznámila, že vydáva desktopovú aplikáciu ChatGPT pre systém macOS, pričom verzia pre Windows sa objaví neskôr v tomto roku. Používatelia s predplatným majú k aplikácii prístup už teraz a v bližšie nešpecifikovanom termíne nakoniec ponúkne aj bezplatnú verziu. Na webovej verzii ChatGPT už beží GPT-4o a očakáva sa, že tento model bude s obmedzeniami dostupný aj pre bezplatných používateľov.