Наскоро изпробвах новия модел 3.5 Sonnet на Claude, който е най-мощният AI модел от Anthropic досега и за който компанията твърди, че може да надмине конкуренти като ChatGPT на OpenAI. Това е смело твърдение, което Anthropic подкрепя с някои доста впечатляващи бенчмаркове.
Новият модел притежава и възможности за визуализация, което ви позволява да му предоставяте изображения и документи и да извличате информация от тях. И може да разбере по-добре емоции като хумора, докато е много по-бърз. Всички тези елементи правят Claude 3.5 основен конкурент на новия ChatGPT, захранван от GPT-40, който също е мултимодален AI модел.
Подобно на Sonnet, ChatGPT-40 може да използва входове, базирани на визия, в допълнение към тези, базирани на текст, за да предостави отговори. Той е еднакво добър в решаването на проблеми и притежава подобни способности за разговор. Тъй като и двата нови модела са толкова близки един до друг по отношение на възможности и производителност, въпросът, който е в съзнанието на всички, е кой от двата е по-добър? За да отговоря на този въпрос, реших да сравня двата модела в детайли.
Извличане на информация от документи
Инструментите за изкуствен интелект често се използват за извличане на информация от документи като PDF файлове и след това обобщаване; така че реших първо да проверя кой от двата модела може да направи това по-ефективно. За това подготвих PDF документ за покривни квадрати, който бях написал преди време, и го качих в ChatGPT и Claude.
След това им дадох подканата, summarize this document and provide me with the most important points discussed in it.
ето какво открих. Новият модел Claude беше много по-бърз от ChatGPT и започна да генерира своя отговор веднага след като изпратих заявката си. Той също следва подканата по-отблизо, изброявайки важните точки в номериран списък. Ако нямате време и просто искате да погледнете какво съдържа даден документ, това е, от което се нуждаете.
Въпреки това, въпреки че беше по-бавен от Клод, предпочетох отговора на ChatGPT в този случай. Той не само изброява най-важните точки в документа, но и ги разделя на различни раздели, като например Определение и важност, Изчисление и т.н.
Ако трябва да намерите конкретна информация относно определен аспект от темата, обсъждана в документ, начинът на ChatGPT за правене на нещата изглежда по-полезен. Не е необходимо да преминавате през всички точки и можете просто да погледнете необходимия раздел. Информацията се предоставя по начин, който е по-лесен за разглеждане и усвояване.
Тестване на зрителните способности
Тъй като един от ключовите акценти както на Claude 3.5, така и на ChatGPT-40 е способността им да използват визуално въвеждане и да предоставят информация въз основа на това, реших да тествам това след това, като ги помолих да следват ръкописни инструкции, след като ги транскрибират. Помолих AI моделите да напишат кратко стихотворение, подобно на „Мравката и щурецът“ на Езоп.
Въпреки че не го уточних писмено, исках резултатът да бъде вдъхновен от поемата, но с различни герои. Клод първо ме помоли да потвърдя моята ръкописна заявка и след това продължи с нея. Резултатът беше доста добър, много близък до оригиналната поема, но включваше същите герои. AI chatbot също ме попита дали искам различен подход или някакви модификации на стихотворението, след като приключи с писането на стихотворението.
ChatGPT не изискваше от мен да потвърждавам заявката си, но веднага продължи да я изпълнява. Стихотворението, което написа, също беше много впечатляващо и замени мравката и щуреца от оригиналното творение с пчела и пеперуда, нещо, което Клод не направи. Освен това намерих версията на ChatGPT за по-поетична.
Така че при транскрипцията има малка разлика в резултатите, но и двете могат да дешифрират и разбират много добре ръкописен и печатен текст, дори ако изображенията не са много ясни. Тези мощни зрителни способности също означават, че можете да използвате тези инструменти, за да събирате информация от графики и диаграми, което ги прави подходящи за математически задачи.
Описване на изображения: Тъй като и двата модела могат да извличат информация от изображения, трябваше да го изпробвам и аз. Предоставих на Клод и ChatGPT изображение на тропически остров и ги помолих да го опишат. Както можете да видите, Клод предоставя ярко описание на изображението, описвайки много ясно всеки елемент на преден и заден план, дори и тези, които аз самият не успях да забележа.
Изборът на Клод от фрази и думи, за да опише изображението, също се почувства по-въздействащ, отдавайки справедливост на изображението. Той върши чудесна работа, като описва цветовете, осветлението и предава цялостното усещане за спокойствие и спокойствие, генерирано от изображението.
Резултатите бяха по-сложни в случая с ChatGPT, който може да описва изображения, макар и не толкова добре, колкото този на Клод. Моделът на OpenAI е склонен да прави грешки, добавяйки елементи, които не присъстват, което показва, че все още може да халюцинира. Също така, първоначално той продължаваше да се опитва да опише изображението въз основа на заглавието му, вместо на това, което изобразява, като най-накрая го получи правилно след множество опити.
Дори тогава описанието, което получих от него, не можеше да устои на отговора на Клод. Това беше доста изненадващо, тъй като възможностите за зрение на GPT-40 бяха един от най-големите акценти, които OpenAI демонстрира при стартирането.
Генериране и редактиране на съдържание
След това се опитах да видя кой модел се справя по-добре при генерирането на съдържание. За да получа ясна представа за това как се представят, реших да генерирам съдържание, което изисква реални факти и данни, както и измислено съдържание, което ще разчита на креативността на AI модела.
Първо, помолих Claude и ChatGPT да ми предоставят подробна статия за различните скинове на Android, тъй като това е нещо, за което много хора искат да знаят, но е много субективна тема, като всеки има свой любим. Използвах подканата Can you write a detailed article on the different Android skins, such as OneUI, MIUI, ColorOS, etc.?
Като се има предвид колко време прекарваме с нашите смартфони, исках да разбера колко точни са моделите и колко информация могат да предоставят за всяка кожа.
Както обикновено, Клод беше по-бърз в отговора. Той предостави общ преглед, обясняващ какво представляват кожите за Android, което е хубаво, но след това просто продължи да изброява различните кожи с функциите, които предлагат в списък с водещи символи. Имайте предвид, че моделът предостави този резултат, въпреки че изрично посочих „подробна статия“ в подканата си.
За разлика от тях, ChatGPT създаде по-впечатляващо заглавие за статията и включи кратко въведение. След това той обясни всяка кожа в отделна секция, разделяйки всяка на Общ преглед, Основни характеристики, Плюсове и минуси.
Това не само предоставя по-изчерпателна информация, но ви позволява да знаете точно как различните кожи се сравняват една с друга. Накрая завърши статията с подходящо заключение. Въпреки че броят на кожите, които ChatGPT спомена, беше по-малък от изброените от Claude, тук качеството е по-важно от количеството.
Докато ChatGPT се представи по-добре от Claude в този случай, последният също може да генерира добро съдържание, както открих в предишното си тестване. Може да зависи от темата или начина, по който формулирате подканата си. Ето защо дадох на двата модела друга подкана, този път използвайки подканата. Write a humorous story about a penguin that wants to fly but ends up getting entangled into funny situations when it attempts to do so.
Освен това ми даде възможност да видя колко добре моделите разбират и могат да предадат хумор.
Този път резултатите бяха много близки един до друг, като и двата модела измислиха наистина забавни истории. И двете истории имаха общи елементи, като ирония и физическа комедия. В художествената литература личните предпочитания са мощен фактор и като цяло открих, че работата на Клод е малко по-добра, особено начина, по който си играеше с думи, за да генерира хумор.
Но както споменах преди, историята на ChatGPT също беше забавна за четене и беше малко по-дълга от тази на Клод. Краят му също беше по-здравословен. По този начин и Клод, и ChatGPT успяха да генерират добро измислено съдържание, като същевременно включват хумористични елементи според моята подкана.
Редактиране на съдържание: Генерирането на съдържание е само една част от процеса. За да разберете наистина какво може да направи един AI модел, когато става въпрос за съдържание, вие също трябва да тествате неговите възможности за редактиране на съдържание, което е, което продължих да правя. За тази цел предоставих текстова част за социалната търговия на Клод и ChatGPT и им дадох подкана,Can you expand this article while also proofreading and improving it?
Когато подобряваше статията, Клод започна с въведение, след това написа за еволюцията на социалната търговия и накрая го последва с други раздели, разширявайки всеки от тях, както намери за добре. Моделът също така използва номерирани списъци и точки, където счете за необходимо за подобряване на четливостта.
Отговорът на ChatGPT беше подобен на предишните, където раздели съдържанието на различни секции с различни подзаглавия. Той не използва списъци, а запазва информацията под формата на параграфи. Що се отнася до промените и подобренията, забелязах, че Клод направи по-драстични промени в статията от ChatGPT, но крайният резултат също беше много по-добър. В крайна сметка открих, че възможностите за редактиране на Sonnet са по-мощни и много по-подходящи за моя работен процес.
Възможност за кодиране
Нито едно сравнение на AI модели не е пълно без включването на техните способности за кодиране. Въпреки че Claude е специално разработен, за да помогне на програмистите да пишат по-добър код бързо и лесно, новият ChatGPT, базиран на GPT-40, също не е нещо, което да се пренебрегва, когато става въпрос за кодиране.
За да тествам способността им за генериране на код, помолих и Клод, и ChatGPT да Generate code for a simple game that can help beginners learn programming.
Докато и двамата написаха кода на Python, Клод завърши генерирането на код по-бързо, както се очакваше. Той показва целия код от дясната страна на екрана, докато обяснява елементи като функции и променливи отляво.
Това, което най-много ми хареса в отговора на Клод е, че включва и бутон, който ви позволява незабавно да отидете до кода, така че можете лесно да го проверите. Освен това чатботът ме информира за изискванията, необходими за изпълнение на кода, заедно с инструкции. Що се отнася до самия код, той беше доста лесен за разбиране и също така работеше перфектно, когато го тествах.
Стигайки до отговора на ChatGPT, той също успя да генерира прост, но функционален код, както бях поискал. Под кода чатботът предоставя стъпките, необходими за стартиране на играта, както и концепциите, които кодът покрива, което го прави лесен за разбиране от начинаещите. Като цяло резултатите бяха доста сходни и за двата модела в този случай, въпреки че Клод обясни повече елементи и имаше опция, чрез която можете да го помолите да обясни всяка част от кода в детайли.
Математически способности
И накрая, дадох на Клод и ChatGPT математически въпрос за решаване, за да видя колко добре са се справили и кой е по-бърз. Въпросът включваше алгебрични уравнения, но не беше особено предизвикателен. И двата модела започнаха с обяснение какво да правят в първата стъпка, въпреки че подходът им беше различен. Клод продължи да разширява уравнението и накрая ми каза, че пълното решаване на проблема изисква използването на графичен калкулатор или компютърна система за алгебра.
Въпреки това той посочи броя на потенциалните решения на проблема. За разлика от това, ChatGPT реши проблема в неговата цялост и ми даде всички възможни решения за него. Това показва, че що се отнася до математическите способности, ChatGPT-4o е пред Sonnet.
Окончателна присъда – Claude Sonnet 3.5 или ChatGPT-4o: Кой спечели?
Изборът между Claude 3.5 и ChatGPT-4o не е лесен, но в крайна сметка само един може да бъде победител и за мен това трябва да е новият модел Sonnet. Той не само е значително по-бърз от ChatGPT, но и предоставя по-точни отговори. Особено ми хареса колко добре може да описва изображения и да предприема действия, свързани с тях.
Клод също не халюцинира нито веднъж по време на моето време с него, което е още една точка в негова полза и отговорите му бяха като цяло по-близки до моите инструкции. Въпреки че не се представи както очаквах в един случай, когато исках подробно съдържание, използването му, за да получа информацията, която исках, беше като цяло по-лесно и изискваше по-малко усилия.
Като изпробвах както Claude 3.5 Sonnet, така и ChatGPT-40, открих, че и двата са изключително добри AI модели, които са много близки един до друг като производителност. Докато Sonnet изпълнява някои задачи по-добре, ChatGPT осигурява по-добри резултати в други. Трябва да разберете, че определянето кой е по-добър ще зависи от вашия индивидуален случай на употреба.
Освен това и двата безплатни модела са ограничени в това, което могат да правят. Така че, ако искате да използвате който и да е AI редовно, препоръчвам да получите платен абонамент за най-добри резултати.
Вашият коментар