Google пуска Gemini Live, отговорът на компанията на разширения гласов режим на ChatGPT

Google пуска Gemini Live, отговорът на компанията на разширения гласов режим на ChatGPT

Събитието Made by Google на Google официално приключи, когато компанията пусна най-новата гама за своите водещи смартфони от серията Pixel. Мелницата за слухове работи усилено през последните няколко седмици за това и много слухове най-накрая се превърнаха в реалност. Освен това, както се очакваше, събитието също имаше повече от няколко – всъщност доста – споменавания на AI.

Наред с други неща AI, едно важно съобщение беше стартирането на Gemini Live. Google обяви Gemini Live на своята I/O конференция по-рано тази година. Най-накрая се разпространява за абонатите на Gemini Advanced на Android на английски език, като скоро ще се появи на повече езици и iOS (чрез приложението Google).

С Gemini Live, Gemini вече е в състояние да поддържа по-естествени, двупосочни разговори. Можете също да го прекъснете по средата на отговор, точно както във всеки естествен разговор. Можете да влезете в приложението Gemini на Android, за да разговаряте с чатбота.

Това е подобно на изживяването в разширен гласов режим в приложението ChatGPT, което сега се пуска в ограничена алфа версия за потребителите на ChatGPT Plus. За първи път Google изпревари OpenAI в графика за издаване, като започна по-широко разпространение.

Gemini Live също е наличен със свободни ръце, така че можете да говорите с Gemini във фонов режим или дори когато телефонът ви е заключен. Можете също така да оставите разговорите по средата и да се върнете към тях по-късно.

Google пуска Gemini Live в 10 нови гласа, така че вашите разговори с AI да ви се струват още по-автентични; можете да изберете гласа и тона, които резонират с вас.

По-специално, Gemini Live не може да симулира друг глас освен 10-те гласа, налични в приложението, вероятно за да се избегнат проблеми с авторските права. ChatGPT-4o следва същата политика. Има една област, в която Gemini Live не е същото като гласовия режим на ChatGPT-4o. Първият не може да разбере емоциите ви от тона ви, нещо, което OpenAI демонстрира, че техният чатбот може да направи.

Освен това има и една възможност на Gemini Live, която Google демонстрира на I/O конференцията, която няма да бъде налична при стартирането. Да, говорим за мултимодални входове. Ако не знаете какво е това, не се притеснявайте. Ето обобщение: С мултимодални входове, Gemini Live може да приема входове от камерата на телефона ви (както снимки, така и видеоклипове) в реално време и да отговаря на всякакви въпроси или да ви помага да идентифицирате обектите, които насочвате. Например, можете да го насочите към някакво DJ оборудване и да го помолите да идентифицира името на част или можете да го насочите към екрана си и да попитате какво прави определена част от кода.

Но мултимодалните възможности засега се забавят и Google само каза, че ще пристигнат по-късно тази година, без подробности. Интересното е, че усъвършенстваният гласов режим на ChatGPT-4o също се предполага, че има подобни възможности, но те също не са стартирани с ограниченото алфа разпространение.

Трябва да се отбележи, че Gemini Live е стъпка по пътя към реализирането на проекта Astra от Google.

Разговорът с чатбот понякога е много по-удобен от въвеждането на нещо, особено когато искате да обмислите нещо. А с Gemini Live разговорът може да бъде много по-безпроблемен. Или ако демонстрациите на живо от събитието Made by Google трябва да бъдат някаква индикация, достатъчно безпроблемно. (Чатботът очевидно е халюцинирал по време на демонстрацията на живо и има известно търкане при поставянето на функцията „прекъсване на Gemini в средата“ за тестване). Да видим как се справя в реалния свят, а? Пригответе се да тествате Gemini Live на вашите Pixel, Samsung или други устройства с Android през следващите седмици, считано от днес.

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *