Google пуска Gemini Live, отговорът на компанията на разширения гласов режим на ChatGPT

Събитието Made by Google на Google официално приключи, когато компанията пусна най-новата гама за своите водещи смартфони от серията Pixel. Мелницата за слухове работи усилено през последните няколко седмици за това и много слухове най-накрая се превърнаха в реалност. Освен това, както се очакваше, събитието също имаше повече от няколко – всъщност доста – споменавания на AI.

Наред с други неща AI, едно важно съобщение беше стартирането на Gemini Live. Google обяви Gemini Live на своята I/O конференция по-рано тази година. Най-накрая се разпространява за абонатите на Gemini Advanced на Android на английски език, като скоро ще се появи на повече езици и iOS (чрез приложението Google).

С Gemini Live, Gemini вече е в състояние да поддържа по-естествени, двупосочни разговори. Можете също да го прекъснете по средата на отговор, точно както във всеки естествен разговор. Можете да влезете в приложението Gemini на Android, за да разговаряте с чатбота.

Това е подобно на изживяването в разширен гласов режим в приложението ChatGPT, което сега се пуска в ограничена алфа версия за потребителите на ChatGPT Plus. За първи път Google изпревари OpenAI в графика за издаване, като започна по-широко разпространение.

Gemini Live също е наличен със свободни ръце, така че можете да говорите с Gemini във фонов режим или дори когато телефонът ви е заключен. Можете също така да оставите разговорите по средата и да се върнете към тях по-късно.

Google пуска Gemini Live в 10 нови гласа, така че вашите разговори с AI да ви се струват още по-автентични; можете да изберете гласа и тона, които резонират с вас.

По-специално, Gemini Live не може да симулира друг глас освен 10-те гласа, налични в приложението, вероятно за да се избегнат проблеми с авторските права. ChatGPT-4o следва същата политика. Има една област, в която Gemini Live не е същото като гласовия режим на ChatGPT-4o. Първият не може да разбере емоциите ви от тона ви, нещо, което OpenAI демонстрира, че техният чатбот може да направи.

Освен това има и една възможност на Gemini Live, която Google демонстрира на I/O конференцията, която няма да бъде налична при стартирането. Да, говорим за мултимодални входове. Ако не знаете какво е това, не се притеснявайте. Ето обобщение: С мултимодални входове, Gemini Live може да приема входове от камерата на телефона ви (както снимки, така и видеоклипове) в реално време и да отговаря на всякакви въпроси или да ви помага да идентифицирате обектите, които насочвате. Например, можете да го насочите към някакво DJ оборудване и да го помолите да идентифицира името на част или можете да го насочите към екрана си и да попитате какво прави определена част от кода.

Но мултимодалните възможности засега се забавят и Google само каза, че ще пристигнат по-късно тази година, без подробности. Интересното е, че усъвършенстваният гласов режим на ChatGPT-4o също се предполага, че има подобни възможности, но те също не са стартирани с ограниченото алфа разпространение.

Трябва да се отбележи, че Gemini Live е стъпка по пътя към реализирането на проекта Astra от Google.

Разговорът с чатбот понякога е много по-удобен от въвеждането на нещо, особено когато искате да обмислите нещо. А с Gemini Live разговорът може да бъде много по-безпроблемен. Или ако демонстрациите на живо от събитието Made by Google трябва да бъдат някаква индикация, достатъчно безпроблемно. (Чатботът очевидно е халюцинирал по време на демонстрацията на живо и има известно търкане при поставянето на функцията „прекъсване на Gemini в средата“ за тестване). Да видим как се справя в реалния свят, а? Пригответе се да тествате Gemini Live на вашите Pixel, Samsung или други устройства с Android през следващите седмици, считано от днес.