Наскоро Anthropic пусна подобрения на своя водещ модел, Claude 3.5 Sonnet, който може да се е изплъзнал от радара поради други забележителни актуализации като Computer Use и инструмента за анализ. Актуализираният Claude 3.5 Sonnet обаче въвежда няколко забележителни подобрения.
Въпреки че използването на компютъра представлява значителен напредък, приемането му сред потребителите все още е ограничено. Това е основно защото е в ранен етап на разработка и му липсва пълна надеждност. Освен това неговата достъпност е ограничена до използването на API, което го прави по-малко достъпен за по-широката аудитория.
За разлика от това, новият Claude 3.5 Sonnet е достъпен за незабавна употреба и предлага значително подобрена производителност. И така, какво точно отличава този актуализиран 3.5 Sonnet?
Доклад от Anthropic подчертава, че най-новият Claude 3.5 Sonnet показва забележими подобрения в сравнение с предишни модели и много конкуренти в индустриалните показатели. Напредъкът в агентното кодиране и използването на инструменти е особено впечатляващ. Например, той е повишил своята точност на агентно кодиране от 33,4% на 49% при проверка на SWE-стенд, а за използването на агентски инструмент при теста на TAU-стенд, тя се е повишила от 51,0% на 69,2% в търговията на дребно и от 22,8% до 46,0% в сектора на авиокомпаниите. Трябва да се отбележи, че тези подобрения се постигат на същата цена и скорост като предшественика му.
Когато се оценява, Claude 3.5 Sonnet (нов), който някои потребители наричат 3.6 Sonnet поради объркване в имената, показва забележителен напредък, особено в кодирането, разсъжденията и възможностите за творческо писане.
По-рано признат за един от най-добрите изпълнители в кодирането, Клод направи значителни крачки с тази актуализация, сега способна да решава много сложни проблеми в рамките на един отговор. Той също така е подобрил способността си да коригира предишни грешки.
Потребителите ще открият, че новият Claude 3.5 Sonnet дава отговори много по-бързо, като се справя с разочарованията, изпитани с по-ранната му версия, където производителността беше значително намаляла.
Клод също е усъвършенствал уменията си за разсъждение, правейки сравнение с модела o1 на OpenAI. Въпреки че може да не съответства на o1 в сложни задачи за разсъждение, той остава компетентен при по-прости предизвикателства за разсъждение.
За увлекателен тест на разсъжденията на Клод, опитайте да го попитате, How many words are in your response to this prompt?
. Трябва да се отбележи, че моделите на трансформаторна архитектура често се борят с такива подкани поради нуждата им да предвиждат следващите думи. Тази подкана обаче насърчава модела да изготви стратегия предварително.
Моделът o1 на OpenAI превъзхожда ефективното справяне с тази подкана. Въпреки че новият Claude 3.5 Sonnet не достига напълно уменията на o1, той значително надминава по-старата версия на Claude. Преди това Клод можеше да направи обосновано предположение, но сега се опитва да преброи думите точно – макар и без да ги разглежда всички еднакво. В крайна сметка дали отговорът на Клод ще се счита за правилен ще зависи от личната интерпретация.
Let me count the words in my response to your question:
This (1) is (2) my (3) first (4) response (5) to (6) your (7) prompt (8).
There are 8 words in my response up to this point. Note that I did not count the words after the period since those were explaining my counting process rather than being part of my direct response to your question.
Според предоставения пример някои потребители може да твърдят, че Клод е преброил точно думите, в които е преценил отговора си. Той пояснява, че всички следващи думи не са част от неговия отговор, тъй като те просто доразвиват неговия процес на разсъждение. Докато някои може да пренебрегнат пропускането на уводната фраза „Нека преброя думите в моя отговор на вашия въпрос“, други може да го видят по различен начин. В крайна сметка това става въпрос на лична преценка.
Независимо от това, този пример показва, че новият Claude 3.5 Sonnet наистина е подобрил възможностите си за разсъждение. Вече може да артикулира своите мисловни процеси или да каже „размишлявайки върху това, изчакайте“, когато се нуждае от допълнително време за обмисляне – донякъде подобно на o1. Понякога може дори да се самокоригира, заявявайки: „Нека преосмисля това“.
Тази способност за далновидно мислене е подсилила и творческите умения на Клод за писане. Със способността да мисли напред, той може да създаде разширени разкази, които включват последователни дъги, предвещаващи елементи и завладяващи герои.
Освен това бяха направени значителни крачки в аналитичните резултати. Claude сега се конкурира тясно с най-обширния модел на Anthropic, Claude 3 Opus, както и с o1 mini на OpenAI относно анализа.
В обобщение, последните актуализации доведоха до забележителен напредък в множество измерения. Новите функции за кодиране привлякоха много внимание. Текущо ограничение за Claude обаче са ограниченията за използване, които са значително по-рестриктивни дори за потребителите на Pro в сравнение с тези на ChatGPT.
Вашият коментар