Събитието Made by Google на Google официално приключи, когато компанията пусна най-новата гама за своите водещи смартфони от серията Pixel. Мелницата за слухове работи усилено през последните няколко седмици за това и много слухове най-накрая се превърнаха в реалност. Освен това, както се очакваше, събитието също имаше повече от няколко – всъщност доста – споменавания на AI.
Наред с други неща AI, едно важно съобщение беше стартирането на Gemini Live. Google обяви Gemini Live на своята I/O конференция по-рано тази година. Най-накрая се разпространява за абонатите на Gemini Advanced на Android на английски език, като скоро ще се появи на повече езици и iOS (чрез приложението Google).
С Gemini Live, Gemini вече е в състояние да поддържа по-естествени, двупосочни разговори. Можете също да го прекъснете по средата на отговор, точно както във всеки естествен разговор. Можете да влезете в приложението Gemini на Android, за да разговаряте с чатбота.
Това е подобно на изживяването в разширен гласов режим в приложението ChatGPT, което сега се пуска в ограничена алфа версия за потребителите на ChatGPT Plus. За първи път Google изпревари OpenAI в графика за издаване, като започна по-широко разпространение.
Gemini Live също е наличен със свободни ръце, така че можете да говорите с Gemini във фонов режим или дори когато телефонът ви е заключен. Можете също така да оставите разговорите по средата и да се върнете към тях по-късно.
Google пуска Gemini Live в 10 нови гласа, така че вашите разговори с AI да ви се струват още по-автентични; можете да изберете гласа и тона, които резонират с вас.
По-специално, Gemini Live не може да симулира друг глас освен 10-те гласа, налични в приложението, вероятно за да се избегнат проблеми с авторските права. ChatGPT-4o следва същата политика. Има една област, в която Gemini Live не е същото като гласовия режим на ChatGPT-4o. Първият не може да разбере емоциите ви от тона ви, нещо, което OpenAI демонстрира, че техният чатбот може да направи.
Освен това има и една възможност на Gemini Live, която Google демонстрира на I/O конференцията, която няма да бъде налична при стартирането. Да, говорим за мултимодални входове. Ако не знаете какво е това, не се притеснявайте. Ето обобщение: С мултимодални входове, Gemini Live може да приема входове от камерата на телефона ви (както снимки, така и видеоклипове) в реално време и да отговаря на всякакви въпроси или да ви помага да идентифицирате обектите, които насочвате. Например, можете да го насочите към някакво DJ оборудване и да го помолите да идентифицира името на част или можете да го насочите към екрана си и да попитате какво прави определена част от кода.
Но мултимодалните възможности засега се забавят и Google само каза, че ще пристигнат по-късно тази година, без подробности. Интересното е, че усъвършенстваният гласов режим на ChatGPT-4o също се предполага, че има подобни възможности, но те също не са стартирани с ограниченото алфа разпространение.
Трябва да се отбележи, че Gemini Live е стъпка по пътя към реализирането на проекта Astra от Google.
Разговорът с чатбот понякога е много по-удобен от въвеждането на нещо, особено когато искате да обмислите нещо. А с Gemini Live разговорът може да бъде много по-безпроблемен. Или ако демонстрациите на живо от събитието Made by Google трябва да бъдат някаква индикация, достатъчно безпроблемно. (Чатботът очевидно е халюцинирал по време на демонстрацията на живо и има известно търкане при поставянето на функцията „прекъсване на Gemini в средата“ за тестване). Да видим как се справя в реалния свят, а? Пригответе се да тествате Gemini Live на вашите Pixel, Samsung или други устройства с Android през следващите седмици, считано от днес.
Вашият коментар