Преглед на усъвършенствания гласов режим ChatGPT: Забавен и впечатляващ, който все още ще променя играта

През май демонстрацията на усъвършенствания гласов режим на OpenAI плени публиката, генерирайки вълна от вълнение. Тази първоначална тръпка обаче бързо се превърна в разочарование, когато се разкри, че функцията няма да бъде налична до по-късно тази година.

Бързо напред няколко месеца и OpenAI внедри разширен гласов режим за всички потребители на ChatGPT, включително безплатни и платени абонати. С технологията, която вече е достъпна за по-широко използване, е време да оценим нейната производителност и да видим дали отговаря на високите очаквания, поставени от първоначалната витрина.

Оценяване на способностите и ограниченията

Осезаемо чувство на разочарование възникна от потребителите, които очакваха Advanced Voice Mode да отразява впечатляващите функционалности, показани в по-ранната демонстрация. Ключови характеристики като мултимодалност, интернет свързаност и възможности за качване на файлове забележимо липсват. Въпреки въвеждането на ChatGPT Search, гласовият режим все още няма достъп до интернет в реално време и актуализации.

Освен това невъзможността за продължаване на гласови разговори от предишни текстови взаимодействия ограничава неговата практичност. Този недостатък рязко контрастира с обещаващите възможности, подчертани по време на демонстрацията, което кара потребителите да желаят функции, които остават нереализирани.

Подобрения в разговорния поток

Въпреки ограниченията си, Advanced Voice Mode показва забележими подобрения спрямо предшественика си. Разговорите се чувстват по-органични и потребителите могат да прекъсват, без да чакат AI да „помисли“, създавайки по-ангажиращо изживяване.

Докато някои спекулират относно задните процеси на новия гласов режим, опитът ми показва, че има минимално забавяне между говоренето и получаването на отговор. Тази непосредственост насърчава усещането за диалог, подобен на човешкия разговор.

Възможността за превключване между езици, включително хинди, пенджаби, английски и френски, също е похвална. Въпреки това понякога се затруднява да направи разлика между хинди и пенджаби и гласовият режим може да се възползва от функция за транскрипция на живо за изучаване на езици.

Разнообразни и ангажиращи гласови опции

Изборът на гласове на ChatGPT подобрява потребителското изживяване. В момента предлага следните гласове:

Arbor (M) – Лесен и многофункционален
Vale (F) – Ярък и любознателен
Бриз (M) – Оживен и сериозен
Сол (F) – Находчив и спокоен
Клен (F) – Весел и откровен
Cove (M) – Сдържано и директно
Ember (M) – Уверен и оптимистичен
Хвойна (F) – отворен и оптимистичен
Смърч (M) – Спокойно и утвърждаващо

Оживеният характер на тези гласове прави взаимодействията много по-приятни в сравнение с тези, предлагани от конкуренти като Gemini Live и Copilot, които нямат подобна плавност на разговора.

Предизвикателства с ограничения

Въпреки че гласовият режим може ефективно да предаде емоционален нюанс за разказване на истории, той не успява поради прекалено строги ограничения. В по-ранната демонстрация потребителите изпитаха по-широка гама от възможности, включително способността да пеят, която беше премахната, за да се избегнат потенциални нарушения на авторските права.

За съжаление, тези ограничения влошават цялостното изживяване. Потребителите могат да се сблъскат с откази на разумни искания, като например генериране на диалози за актьорска практика, създавайки чувство на неудовлетвореност. Разширеният гласов режим може от време на време да изпълни някои творчески запитвания с малко подсказване, но често се усеща, че несъответствието възпрепятства неговата използваемост.

Възможности за памет и осъзнаване на контекста

Забележителна характеристика на Advanced Voice Mode е способността му да извиква информация. Той обаче не позволява проследяване на гласови разговори в рамките на съществуващи чатове, които съдържат текст или изображения, значително ограничение.

За сравнение, Gemini Live поддържа непрекъснат диалог, независимо от предишния контекст на чат, подчертавайки област, в която OpenAI може да се наложи да подобри, за да се конкурира ефективно.

Време за бърза реакция

Докато бързите отговори подобряват динамиката на разговора, понякога те могат да нарушат потока на диалога. AI е склонен да тълкува погрешно паузите като покана за отговор, което води до прекъсвания, които могат да провалят мислите на потребителя.

Функция, позволяваща на потребителите да сигнализират за по-дълги паузи, подобно на бутона „Задържане“, би подобрила значително естествеността на тези взаимодействия.

Случайни незначителни проблеми

Повечето взаимодействия с Разширения гласов режим са плавни, но понякога потребителите може да срещнат незначителни проблеми, като кратки статични или неочаквани гласови промени. Въпреки че тези проблеми като цяло са незначителни, те понякога могат да нарушат потребителското изживяване.

Съображения за цена и достъпност

Разширеният гласов режим е достъпен в безплатния план ChatGPT за приблизително 15 минути на месец, но пълният достъп изисква абонамент. Това контрастира с конкуренти като Copilot и Gemini Live, които предлагат своите гласови функции безплатно за потребителите.

Абонаментната такса, заедно с липсата на функции като достъп до интернет, открити в други модели, повдига въпроси относно стойността на услугата, особено за потребители, които се интересуват единствено от гласови възможности.

Крайна оценка

Въпреки че Advanced Voice Mode безспорно може да се похвали с впечатляващ технологичен напредък, в момента той не успява да предостави всичко, обещано в демонстрацията. Практическите му приложения са ограничени и без значителни подобрения той служи повече като новост, отколкото като необходим инструмент.

За тези, които вече са абонирани за ChatGPT за функции като Canvas, Търсене или модел на разсъждение, Advanced Voice Mode може да служи като възхитителна добавка. Въпреки това, той може да не оправдае абонамент сам по себе си.

Източник и изображения