Di recente, Anthropic ha implementato dei miglioramenti al suo modello principale, Claude 3.5 Sonnet, che potrebbero essere passati inosservati a causa di altri aggiornamenti degni di nota come Computer Use e Analysis tool. Tuttavia, l’aggiornamento di Claude 3.5 Sonnet introduce diversi miglioramenti degni di nota.
Sebbene Computer Use rappresenti un progresso significativo, la sua adozione tra gli utenti è ancora limitata. Ciò è dovuto principalmente al fatto che è nelle prime fasi di sviluppo e non è completamente affidabile. Inoltre, la sua accessibilità è limitata all’utilizzo dell’API, rendendolo meno accessibile al pubblico più ampio.
Al contrario, il nuovo Claude 3.5 Sonnet è disponibile per l’uso immediato e offre prestazioni notevolmente migliorate. Quindi, cosa distingue esattamente questo 3.5 Sonnet aggiornato?
Un report di Anthropic evidenzia che l’ultimo Claude 3.5 Sonnet ha mostrato notevoli miglioramenti rispetto ai modelli precedenti e a molti concorrenti nei benchmark di settore. I progressi nella codifica agentica e nell’uso degli strumenti sono particolarmente impressionanti. Ad esempio, ha aumentato la sua accuratezza nella codifica agentica dal 33,4% al 49% nella verifica SWE-bench e per l’uso degli strumenti agentici nel test TAU-bench, è salita dal 51,0% al 69,2% nel commercio al dettaglio e dal 22,8% al 46,0% nel settore delle compagnie aeree. In particolare, questi miglioramenti sono ottenuti allo stesso costo e alla stessa velocità del suo predecessore.
Nella valutazione, Claude 3.5 Sonnet (nuovo), che alcuni utenti chiamano 3.6 Sonnet a causa della confusione sul nome, mostra notevoli progressi, in particolare nelle capacità di codifica, ragionamento e scrittura creativa.
Già riconosciuto come uno dei migliori performer nella codifica, Claude ha fatto passi da gigante con questo aggiornamento, ora in grado di risolvere problemi molto complessi con una singola risposta. Ha anche migliorato la sua capacità di correggere errori precedenti.
Gli utenti scopriranno che il nuovo Claude 3.5 Sonnet fornisce risposte molto più rapide, risolvendo le frustrazioni riscontrate nella versione precedente, in cui le prestazioni erano notevolmente diminuite.
Claude ha anche affinato le sue capacità di ragionamento, tracciando un paragone con il modello o1 di OpenAI. Sebbene possa non eguagliare o1 in compiti di ragionamento intricati, rimane competente con sfide di ragionamento più semplici.
Per un test coinvolgente del ragionamento di Claude, prova a chiedergli, How many words are in your response to this prompt?
. In particolare, i modelli di architettura dei trasformatori spesso hanno difficoltà con tali prompt a causa della loro necessità di prevedere le parole successive. Tuttavia, questo prompt incoraggia il modello a elaborare strategie in anticipo.
Il modello o1 di OpenAI eccelle nel gestire efficacemente questo prompt. Sebbene il nuovo Claude 3.5 Sonnet non raggiunga del tutto la competenza di o1, supera significativamente la versione precedente di Claude. In precedenza, Claude avrebbe potuto fare un’ipotesi ragionata, ma ora tenta di contare le parole in modo accurato, sebbene senza considerarle tutte allo stesso modo. In definitiva, se la risposta di Claude sarà ritenuta corretta dipenderà dall’interpretazione personale.
Let me count the words in my response to your question:
This (1) is (2) my (3) first (4) response (5) to (6) your (7) prompt (8).
There are 8 words in my response up to this point. Note that I did not count the words after the period since those were explaining my counting process rather than being part of my direct response to your question.
Secondo l’istanza fornita, alcuni utenti potrebbero sostenere che Claude ha contato le parole in cui ha considerato la sua risposta in modo accurato. Chiarisce che le parole successive non fanno parte della sua risposta in quanto elaborano semplicemente il suo processo di ragionamento. Mentre alcuni potrebbero trascurare l’omissione della frase introduttiva, “Lasciami contare le parole nella mia risposta alla tua domanda”, altri potrebbero vederla diversamente. In definitiva, questa diventa una questione di giudizio personale.
Tuttavia, questo esempio dimostra che il nuovo Claude 3.5 Sonnet ha effettivamente migliorato le sue capacità di ragionamento. Ora può articolare i suoi processi di pensiero o dire “ruminandoci sopra, aspetta”, quando ha bisogno di più tempo per riflettere, in modo simile a o1. Occasionalmente, potrebbe persino autocorreggersi, affermando “Lasciami ripensarci”.
Questa capacità di pensare al futuro ha anche rafforzato le capacità di scrittura creativa di Claude. Con la capacità di pensare in anticipo, può creare narrazioni estese che presentano archi coerenti, elementi premonitori e personaggi accattivanti.
Inoltre, sono stati fatti passi da gigante nelle sue prestazioni analitiche. Claude ora compete da vicino con il modello più esteso di Anthropic, Claude 3 Opus, così come con o1 mini di OpenAI per quanto riguarda l’analisi.
In sintesi, gli ultimi aggiornamenti hanno prodotto notevoli progressi in più dimensioni. Le nuove funzionalità di codifica hanno attirato molta attenzione. Tuttavia, un limite attuale per Claude sono i limiti di utilizzo, che sono notevolmente più restrittivi anche per gli utenti Pro rispetto a quelli di ChatGPT.
Lascia un commento