Di recente, ho provato il nuovo modello Sonnet 3.5 di Claude, che è il modello AI più potente di Anthropic finora, e che l’azienda sostiene possa superare rivali come ChatGPT di OpenAI. Questa è un’affermazione audace, che Anthropic sta supportando con alcuni benchmark piuttosto impressionanti.
Il nuovo modello possiede anche capacità visive, che consentono di fornirgli immagini e documenti e di estrarne informazioni. E può comprendere meglio le emozioni come l’umorismo, pur essendo molto più veloce. Tutti questi elementi rendono Claude 3.5 un importante concorrente del nuovo ChatGPT basato su GPT-40, che è anche un modello AI multimodale.
Come Sonnet, ChatGPT-40 può usare input basati sulla vista oltre a quelli basati sul testo per fornire risposte. È ugualmente bravo nella risoluzione dei problemi e possiede simili capacità conversazionali. Poiché entrambi i nuovi modelli sono così simili tra loro in termini di capacità e prestazioni, la domanda che tutti si pongono è: quale dei due è migliore? Per rispondere, ho deciso di confrontare entrambi i modelli in dettaglio.
Estrazione di informazioni dai documenti
Gli strumenti di intelligenza artificiale sono spesso utilizzati per estrarre informazioni da documenti come file PDF e poi riassumerle; quindi, ho deciso di verificare prima quale dei due modelli potesse farlo in modo più efficace. Per questo, ho preparato un documento PDF sui quadrati di copertura che avevo scritto qualche tempo fa e l’ho caricato su ChatGPT e Claude.
Poi ho dato loro il prompt, summarize this document and provide me with the most important points discussed in it.
Ecco cosa ho scoperto. Il nuovo modello Claude era molto più veloce di ChatGPT e ha iniziato a generare la sua risposta subito dopo che ho inviato la mia richiesta. Ha anche seguito il prompt più da vicino, elencando i punti importanti in un elenco numerato. Se hai poco tempo e vuoi solo dare un’occhiata a cosa contiene un documento, questo è ciò di cui hai bisogno.
Tuttavia, nonostante sia più lento di Claude, in questo caso ho preferito la risposta di ChatGPT. Non solo elencava i punti più importanti del documento, ma li divideva anche in sezioni diverse, come Definizione e importanza, Calcolo, ecc.
Se hai bisogno di trovare informazioni specifiche su un certo aspetto dell’argomento trattato in un documento, il modo di fare di ChatGPT sembra essere più utile. Non devi esaminare tutti i punti e puoi semplicemente guardare la sezione necessaria. Le informazioni sono fornite in un modo che è più facile da esaminare e digerire.
Testare le capacità visive
Poiché uno dei punti salienti di Claude 3.5 e ChatGPT-40 è la loro capacità di utilizzare input visivi e fornire informazioni basate su di essi, ho deciso di testare anche questo chiedendo loro di seguire istruzioni scritte a mano dopo averle trascritte. Ho chiesto ai modelli di IA di scrivere una breve poesia simile a “La formica e il grillo” di Esopo.
Sebbene non l’abbia specificato per iscritto, volevo che l’output fosse ispirato alla poesia ma con personaggi diversi. Claude mi ha prima chiesto di confermare la mia richiesta scritta a mano e poi ha proceduto con essa. Il risultato è stato abbastanza buono, molto vicino alla poesia originale, ma presentava gli stessi personaggi. Il chatbot AI mi ha anche chiesto se desideravo un approccio diverso o eventuali modifiche alla poesia dopo aver finito di scriverla.
ChatGPT non mi ha chiesto di confermare la mia richiesta, ma ha proceduto immediatamente a completarla. Anche la poesia che ha scritto è stata molto impressionante, e ha sostituito la formica e il grillo della creazione originale con un’ape e una farfalla, cosa che Claude non ha fatto. Ho anche trovato la versione di ChatGPT più poetica.
Quindi, nella trascrizione, c’è una leggera differenza nei risultati, ma entrambi possono decifrare e comprendere molto bene il testo scritto a mano e stampato, anche se le immagini non sono molto chiare. Queste potenti capacità visive significano anche che puoi usare questi strumenti per ricavare informazioni da grafici e diagrammi, rendendoli adatti per compiti matematici.
Descrizione delle immagini: poiché entrambi i modelli possono anche estrarre informazioni dalle immagini, ho dovuto provarci anch’io. Ho fornito a Claude e ChatGPT un’immagine di un’isola tropicale e ho chiesto loro di descriverla. Come puoi vedere, Claude fornisce una descrizione vivida dell’immagine, descrivendo ogni elemento in primo piano e sullo sfondo in modo molto chiaro, anche quelli che io stesso non sono riuscito a notare.
Anche la scelta di frasi e parole di Claude per descrivere l’immagine è sembrata più d’impatto, rendendole giustizia. Fa un ottimo lavoro nel descrivere i colori, l’illuminazione e nel trasmettere il senso generale di serenità e tranquillità che l’immagine genera.
I risultati sono stati più complicati nel caso di ChatGPT, che può descrivere le immagini, anche se non così bene come quello di Claude. Il modello di OpenAI tende a commettere errori, aggiungendo elementi che non sono presenti, il che dimostra che può ancora avere allucinazioni. Inoltre, in origine, continuava a provare a descrivere l’immagine in base al suo titolo invece che a ciò che raffigurava, riuscendoci alla fine dopo vari tentativi.
Anche allora, la descrizione che ne ho ricavato non poteva reggere il confronto con la risposta di Claude. Ciò è stato piuttosto sorprendente, poiché le capacità visive di GPT-40 erano uno dei punti salienti più importanti che OpenAI ha mostrato al lancio.
Generazione e modifica dei contenuti
Poi, ho provato a vedere quale modello funzionava meglio nella generazione di contenuti. Per avere un’idea chiara di come si comportavano, ho deciso di generare contenuti che richiedessero fatti e dati reali, così come contenuti fittizi che si sarebbero basati sulla creatività del modello AI.
Per prima cosa, ho chiesto a Claude e ChatGPT di fornirmi un articolo dettagliato sulle diverse skin Android, poiché è qualcosa che molte persone vogliono sapere ma è un argomento molto soggettivo, con ogni individuo che ha la sua preferita. Ho usato il prompt Can you write a detailed article on the different Android skins, such as OneUI, MIUI, ColorOS, etc.?
Dato quanto tempo passiamo con i nostri smartphone, volevo scoprire quanto fossero accurati i modelli e quante informazioni potessero fornire su ogni skin.
Come al solito, Claude è stato più veloce nel fornire una risposta. Ha fornito una panoramica che spiega cosa sono le skin Android, il che è carino, ma poi ha semplicemente proceduto a elencare le diverse skin con le funzionalità che offrono in un elenco puntato. Tieni presente che il modello ha fornito questo risultato anche se ho specificamente dichiarato un “articolo dettagliato” nel mio prompt.
Al contrario, ChatGPT ha creato un titolo più impressionante per l’articolo e ha incluso una breve introduzione. In seguito, ha spiegato ogni skin in una sezione a sé stante, dividendo ciascuna in Panoramica, Caratteristiche principali, Pro e Contro.
Non solo fornisce informazioni più complete, ma ti fa anche sapere esattamente come le diverse skin si confrontano tra loro. Infine, ha concluso l’articolo con una conclusione appropriata. Mentre il numero di skin menzionate da ChatGPT era inferiore a quelle elencate da Claude, qui la qualità conta più della quantità.
Sebbene ChatGPT abbia funzionato meglio di Claude in questo caso, quest’ultimo può anche generare buoni contenuti, come ho scoperto nei miei test precedenti. Potrebbe dipendere dall’argomento o dal modo in cui formuli il tuo prompt. Ecco perché ho dato a entrambi i modelli un altro prompt, questa volta usando il prompt. Write a humorous story about a penguin that wants to fly but ends up getting entangled into funny situations when it attempts to do so.
Mi ha anche dato l’opportunità di vedere quanto bene i modelli comprendono e sanno trasmettere l’umorismo.
Questa volta, i risultati sono stati molto simili tra loro, con entrambi i modelli che hanno creato storie autenticamente esilaranti. Entrambe le storie avevano elementi comuni, come l’ironia e la comicità fisica. Nella narrativa, la preferenza personale è un fattore potente e, nel complesso, ho trovato la produzione di Claude leggermente migliore, specialmente il modo in cui ha giocato con le parole per generare umorismo.
Ma come ho detto prima, anche la storia di ChatGPT è stata divertente da leggere ed è stata leggermente più lunga di quella di Claude. Anche il finale è stato più sano. Quindi, sia Claude che ChatGPT sono stati in grado di generare buoni contenuti di finzione includendo elementi umoristici come da mio suggerimento.
Modifica dei contenuti: la generazione dei contenuti è solo una parte del processo. Per scoprire veramente cosa può fare un modello di IA quando si tratta di contenuti, è anche necessario testare le sue capacità di modifica dei contenuti, che è ciò che ho proceduto a fare. A questo scopo, ho fornito un pezzo di testo sul commercio sociale a Claude e ChatGPT e ho dato loro il prompt,Can you expand this article while also proofreading and improving it?
Nel migliorare l’articolo, Claude ha iniziato con un’introduzione, poi ha scritto sull’evoluzione del Social Commerce e infine ha proseguito con altre sezioni, espandendo ciascuna come riteneva opportuno. Il modello ha anche utilizzato elenchi numerati e punti elenco dove riteneva necessario migliorare la leggibilità.
La risposta di ChatGPT è stata simile alle precedenti, in cui ha diviso il contenuto in varie sezioni con sottotitoli diversi. Non ha utilizzato elenchi, ma ha mantenuto le informazioni sotto forma di paragrafi. Per quanto riguarda i cambiamenti e i miglioramenti, ho notato che Claude ha apportato cambiamenti più drastici all’articolo rispetto a ChatGPT, ma il risultato finale è stato anche molto migliore. In definitiva, ho trovato le capacità di editing di Sonnet più potenti e molto più adatte al mio flusso di lavoro.
Capacità di codifica
Nessun confronto tra modelli di IA è completo senza includere le loro capacità di codifica. Mentre Claude è stato sviluppato appositamente per aiutare i programmatori a scrivere codice migliore in modo rapido e semplice, il nuovo ChatGPT basato su GPT-40 non è qualcosa da disprezzare quando si tratta di codifica.
Per testare la loro capacità di generare codice, ho chiesto sia a Claude che a ChatGPT di Generate code for a simple game that can help beginners learn programming.
Mentre entrambi scrivevano il codice in Python, Claude ha completato la generazione del codice più velocemente, come previsto. Ha visualizzato l’intero codice sul lato destro dello schermo, mentre spiegava elementi come Funzioni e Variabili sulla sinistra.
Ciò che mi è piaciuto di più della risposta di Claude è che includeva anche un pulsante che ti consente di andare al codice all’istante, così puoi facilmente verificarlo. Inoltre, il chatbot mi ha informato dei requisiti necessari per eseguire il codice, completo di istruzioni. Per quanto riguarda il codice in sé, era abbastanza facile da capire e funzionava perfettamente quando l’ho testato.
Venendo alla risposta di ChatGPT, è stato anche in grado di generare un codice semplice ma funzionale, come avevo richiesto. Sotto il codice, il chatbot ha fornito i passaggi necessari per eseguire il gioco, nonché i concetti trattati dal codice, rendendolo facile da comprendere per i principianti. Nel complesso, i risultati sono stati piuttosto simili per entrambi i modelli in questo caso, anche se Claude ha spiegato più elementi e aveva un’opzione con cui potevi chiedergli di spiegare in dettaglio qualsiasi parte del codice.
Abilità matematiche
Infine, ho dato a Claude e ChatGPT un quesito di matematica da risolvere, per vedere quanto se la cavavano e chi dei due era più veloce. Il quesito riguardava equazioni algebriche, ma non era particolarmente impegnativo. Entrambi i modelli iniziavano spiegando cosa fare nel primo passaggio, anche se il loro approccio era diverso. Claude ha continuato ad ampliare l’equazione e alla fine mi ha detto che per risolvere completamente il problema era necessario usare una calcolatrice grafica o un sistema di algebra computerizzata.
Detto questo, ha dichiarato il numero di possibili soluzioni al problema. Al contrario, ChatGPT ha risolto il problema nella sua interezza e mi ha fornito tutte le possibili soluzioni. Ciò indica che per quanto riguarda le capacità matematiche, ChatGPT-4o è più avanti di Sonnet.
Verdetto finale – Claude Sonnet 3.5 o ChatGPT-4o: chi ha vinto?
Scegliere tra Claude 3.5 e ChatGPT-4o non è facile, ma alla fine solo uno può essere il vincitore, e per me deve essere il nuovo modello Sonnet. Non solo è significativamente più veloce di ChatGPT, ma fornisce anche risposte più accurate. Mi è piaciuto in particolar modo il modo in cui riusciva a descrivere le immagini e a intraprendere azioni relative a esse.
Claude inoltre non ha avuto allucinazioni neanche una volta durante il tempo che l’ho usato, il che è un altro punto a suo favore, e le sue risposte sono state complessivamente più vicine alle mie istruzioni. Anche se non ha funzionato come mi aspettavo in un caso in cui volevo contenuti dettagliati, usarlo per ottenere le informazioni che volevo è stato generalmente più facile e ha richiesto meno sforzo.
Provando sia Claude 3.5 Sonnet che ChatGPT-40, ho scoperto che entrambi sono modelli di IA eccezionalmente buoni, molto simili tra loro in termini di prestazioni. Mentre Sonnet esegue meglio alcune attività, ChatGPT fornisce risultati migliori in altre. Dovresti capire che determinare quale sia migliore dipenderà dal tuo caso d’uso individuale.
Inoltre, entrambi i modelli gratuiti sono limitati in ciò che possono fare. Quindi, se vuoi usare una delle due AI regolarmente, ti consiglio di sottoscrivere un abbonamento a pagamento per ottenere i risultati migliori.
Lascia un commento