Ако с нетърпение очаквахте последната пролетна актуализация от OpenAI за ChatGPT и се надявахте, че компанията ще пусне GPT-5, ще бъдете разочаровани в това отношение. Но това, което OpenAI пусна вместо това, би компенсирало повече от това.
Компанията наскоро представи най-новия си водещ модел – GPT-4o – и той е шедьовър на човешките иновации. „O“ в GPT-4o означава „omni“ и това е подходящо намигване към най-новите вездесъщи възможности на ChatGPT. Въпреки че няма голямо подобрение в частта за интелигентност и логика спрямо модела GPT-4, новият модел включва драстични подобрения в скоростта и мултимодалността.
Какво означава? GPT-4o има подобрени възможности за текст, глас и визия. Може да разбира и обсъжда изображения по-добре. Но най-вълнуващата част от актуализацията е способността й да разговаря с вас в реално време чрез аудио и видео, което ни въвежда в бъдещето на взаимодействието човек-машина. Повечето от нас само си представяха това взаимодействие в стил на научната фантастика с изкуствен интелект надолу по алеята. Но е тук и е вълнуващо.
Мира Мурати, главен технически директор на OpenAI, заедно с двама изследователи, демонстрираха новите възможности на GPT-40.
Гласовият модел има невероятна индивидуалност и тоналност, способни да ви накарат да забравите (за известно време), че взаимодействате с AI. Страшно вълнуващо е. Отговорите са много по-естествени и дори се смее и се преструва, че се изчервява като човек.
Демото също така подчерта гамата от емоции, които ChatGPT може да покаже, когато е изрично помолен: Докато разказва история, ChatGPT поглъща гласа си с повече емоции и драма, превключва на роботизиран звук и дори пее като в мюзикъл и го направи всичко безпроблемно.
Много потребители казват, че гласът им напомня за изкуствения интелект на Скарлет Йохансон от филма „Her“, но по-специално, това е същият глас, който ChatGPT е имал в миналото. Цялата разлика идва от промените в тоналността и някои добре поставени смешки.
Когато го сдвоите със способностите му да вижда и реагира на съдържанието на екрана, това е направо умопомрачително. С новите си възможности за виждане ChatGPT не само можеше да разбира неща като линейни уравнения, но свърши доста добра работа за тълкуване на заобикалящата среда, както и емоциите на лицето на човек, показани му с помощта на камерата. Вече можете дори да играете камък-ножица-хартия и да помолите ChatGPT да бъде рефер или да направите подготовката за интервю с ChatGPT една крачка напред, като го помолите да критикува вашето облекло и той няма да замаже лошите избори, които направите.
Като цяло ефектът е забележителен и почти ви кара да вярвате, че общувате с истински човек по време на видео разговор (ако другият човек държи камерата си изключена през цялото време, т.е.).
https://www.youtube.com/watch?v=DQacCB9tDaw
Гласовият модел също е по-добър като цяло от наличния в момента. Диалогът протича по-скоро като естествен разговор, където можете да го прекъснете по средата, той може да разбере и разграничи множество гласове и фонови шумове, както и тона на гласа.
На техническо ниво това е така, защото GPT-4o може да прави всичко естествено, което досега изискваше три различни модела: транскрипция, разузнаване и преобразуване на текст в реч. Тези подобрения носят по-завладяващо, съвместно изживяване на потребителя вместо закъсненията на предишните модели.
Докато достъпът до GPT-4o вече започва да се разпространява както за безплатни, така и за потребители на Plus в уеб приложението, новият гласов режим с GPT-4o ще бъде пуснат в алфа версия само за потребители на ChatGPT Plus през следващите седмици. Пуска се и ново приложение за macOS ChatGPT, като достъпът се разпространява итеративно, започвайки от потребители на ChatGPT Plus.
Въпреки че демонстрацията беше доста впечатляваща, ще трябва да изчакаме, за да видим дали приложението в реалния свят ще бъде толкова гладко, когато моделът най-накрая бъде пуснат.
Вашият коментар