L’introduzione da parte di OpenAI dei suoi modelli di ragionamento, o1 e o1-mini , segna un significativo progresso nel regno dell’intelligenza artificiale. Questi modelli mostrano capacità di ragionamento migliorate, stabilendo un nuovo standard in vari domini.
La capacità di o1 e o1-mini di affrontare efficacemente problemi complessi e prendere decisioni sfumate si traduce in risposte chiare e attuabili. Questo approccio innovativo posiziona questi modelli come strumenti preziosi in molti campi.
Che cos’è il modello o1-preview?
Il modello o1 , precedentemente noto come Strawberry , diverge significativamente dai tradizionali modelli GPT di OpenAI, poiché impiega algoritmi e set di dati di training distinti. Lanciato con la promessa di affrontare sfide complesse in aree come matematica, scienza e sviluppo software, o1 offre innumerevoli potenziali applicazioni. Ad esempio:
- I ricercatori in ambito sanitario possono sfruttarlo per annotare i dati di sequenziamento cellulare.
- I fisici potrebbero utilizzarlo per sviluppare formule matematiche complesse per l’ottica quantistica.
- Gli sviluppatori possono utilizzarlo per creare e gestire flussi di lavoro complessi.
In particolare, o1 ha dimostrato notevoli capacità di ragionamento, ottenendo un punteggio impressionante dell’83 % all’Olimpiade Internazionale della Matematica (IMO), in netto contrasto con GPT-4o , che ha ottenuto solo il 13% .
A complemento del modello o1, OpenAI ha anche svelato o1-mini , una versione più snella e conveniente ottimizzata per la codifica. Mentre o1 è più abile nel gestire attività estese, o1-mini eccelle nel completamento del codice. Tuttavia, per applicazioni più ampie che richiedono una conoscenza più approfondita, o1 rimane la scelta migliore.
Nonostante i suoi progressi, o1 ha delle limitazioni che ne ostacolano l’utilità rispetto a GPT-4o per compiti specifici. Non ha capacità di navigazione internet, strumenti di analisi dati e funzioni di caricamento immagini o file. Inoltre, non ha memoria o istruzioni personalizzate, né supporta l’utilizzo vocale.
Questa attenzione ai mercati di nicchia mi ha portato inizialmente a esitare nell’esplorare i modelli o1. Possono sembrare intimidatori per chi non ha familiarità con le loro applicazioni specifiche. Tuttavia, una scintilla di curiosità mi ha spinto a indagare quali vantaggi unici o1 potesse offrire a un pubblico più ampio.
Prime impressioni
Al primo incontro, o1 colpisce senza dubbio per le sue capacità. Tuttavia, ciò che spicca ancora di più delle soluzioni che fornisce è il suo processo di ragionamento. Gli utenti possono osservare come giunge alle sue conclusioni, migliorando la trasparenza.
Detto questo, le osservazioni di OpenAI sono vere: o1 eccelle in compiti impegnativi, ma questo non implica che sia superiore per tutti i tipi di richieste. Come ha affermato Sam Altman , o1 presenta notevoli limitazioni che diventano evidenti con un uso prolungato: “o1 è ancora imperfetto, ancora limitato e sembra ancora più impressionante al primo utilizzo di quanto non lo sia dopo aver trascorso più tempo con esso”. Questo sentimento ha trovato riscontro nella mia esperienza.
Pensiero logico
Per misurarne le prestazioni, ho iniziato i miei test con domande logiche semplici, ponendo una serie di enigmi a o1.
In risposta al primo indovinello, considerato semplice, o1 ha impiegato circa 22 secondi per fornire la risposta corretta. Al contrario, GPT-4o e GPT-4o-mini hanno fornito risposte accurate all’istante. Questa tendenza è persistita negli indovinelli successivi, indicando che mentre il tempo di elaborazione di o1 variava, l’accuratezza rimaneva alla pari con le sue controparti.
Poi ho sfidato sia o1 che GPT-4o con il seguente prompt:Here we have a book, 9 eggs, a laptop, a bottle, and a nail. Please tell me how to stack them onto each other in a stable manner.
Sebbene non particolarmente pratico, o1 ha fornito una disposizione logica:
Book (base)
9 Eggs (arranged in a 3x3 grid)
Laptop
Bottle
Nail
Al contrario, GPT-4o ha suggerito il seguente stack:
Book (base)
Laptop
Bottle
Eggs - To put them in a carton (which isn't available) or arrange them in a pyramid
Nail
Questa esplorazione ha dimostrato che, man mano che le domande aumentano in complessità, la capacità di o1 di ragionare sui problemi produce soluzioni più sfumate. Può fungere da prezioso partner di brainstorming per dilemmi logici della vita reale.
Aiuto e feedback per la scrittura
Al contrario, usare o1 per l’assistenza di base alla scrittura, come la stesura di e-mail o compiti, potrebbe portare a delusioni. Tende a essere più lento di GPT-4o, con output che non differiscono in modo significativo.
In un caso, o1 ha impiegato diversi minuti per elaborare una query, risultando infine in un errore. Tuttavia, il suo processo di ragionamento trasparente mi ha permesso di vedere che si era discostato da una soluzione efficace, optando per il silenzio invece di una risposta errata, il che suggerisce una riduzione dell’allucinazione.
Incoraggiato, ho chiesto un feedback sulla mia scrittura a o1. Le mie esperienze passate con ChatGPT hanno rivelato una tendenza a diluire la mia voce personale. Di conseguenza, mi sono avvicinato a o1 con cautela, sperando in un risultato diverso.
In definitiva, il feedback generato da o1 rispecchiava quello di GPT-4o. Sebbene le sue risposte fossero più lente e lunghe, ho scoperto che per ottenere un’analisi significativa in GPT-4o era sufficiente un semplice suggerimento aggiuntivo. Tuttavia, se le tue esigenze riguardano la scrittura di sceneggiature o la generazione di idee creative, dove GPT-4o a volte vacilla, o1 ha mostrato una migliore comprensione attraverso il suo esame approfondito dei suggerimenti.
Analisi, strategia e pianificazione
Oltre alle applicazioni STEM, le capacità di ragionamento di o1 brillano in aree quali strategia, pianificazione e ricerca. Il suo approccio metodico alla risoluzione dei problemi lo rende particolarmente abile in contesti che richiedono la considerazione di più variabili.
Ho utilizzato o1 per affrontare un problema di salute personale e la sua prospettiva sfumata ha offerto spunti che in precedenza avevo trascurato. Ciò ha dimostrato il potenziale di o1 per l’analisi multiforme, sia applicata a problemi di salute che a strategie di contenuto.
Inoltre, o1 può integrare il tuo processo di ricerca, consentendo l’esplorazione da diverse angolazioni con un minimo di sollecitazione richiesta.
o1 è adatto a te?
Dopo aver esplorato le capacità di o1, ci si potrebbe chiedere: è il modello adatto alle tue esigenze? Innanzitutto, considera le sue restrizioni di utilizzo; o1-preview consente solo 50 messaggi a settimana , mentre o1-mini limita gli utenti a 50 messaggi al giorno . Inoltre, i modelli o1 richiedono un abbonamento, mentre GPT-4o offre alcune opzioni di utilizzo gratuite.
Valutare l’impatto ambientale dell’uso di o1, noto per il suo elevato consumo di risorse, è fondamentale, soprattutto quando le differenze di prestazioni tra o1 e GPT-4o possono essere minime. Tuttavia, per attività che implicano logica complessa, analisi strategica o valutazioni multiformi, o1 potrebbe essere più vantaggioso.
In sintesi, è giunto il momento di passare a ChatGPT o1? Non necessariamente, almeno non universalmente. Sebbene o1 rappresenti un balzo sostanziale per le attività di ragionamento, i suoi limiti e la sua attenzione specifica lo rendono più adatto ai professionisti STEM o a coloro che cercano intuizioni strategiche complesse. Per l’utente quotidiano, GPT-4o mantiene il suo status di opzione più versatile. Tuttavia, per coloro che sono incuriositi dal futuro del ragionamento AI, o1-preview merita sicuramente di essere esaminato, anche se potrebbe non sostituire ancora il tuo modello preferito.
Lascia un commento