GPT-4.5 di OpenAI: la System card

Effettua la tua ricerca

More results...

Finanziamenti e agevolazioni

Agricoltura

Secondo quanto riportato nel documento tecnico di OpenAI, GPT-4.5 è stato progettato per essere più versatile e adatto a scopi generali rispetto ai precedenti modelli focalizzati sul ragionamento STEM. Il nuovo modello integra tecniche di supervisione innovative con metodi tradizionali come il fine-tuning supervisionato (SFT) e l’apprendimento per rinforzo dal feedback umano (RLHF). I test iniziali hanno evidenziato che l’interazione con GPT-4.5 risulta più naturale e fluida. La sua base di conoscenze più ampia, il miglior allineamento con le intenzioni dell’utente e una maggiore intelligenza emotiva lo rendono particolarmente adatto per attività come la scrittura, la programmazione e la risoluzione di problemi pratici, con una ridotta tendenza alle allucinazioni.

Indice degli argomenti:

Toggle

GPT-4.5: la System Card

OpenAI sottolinea che GPT-4.5 rappresenta un progresso significativo nella scalabilità dell’apprendimento non supervisionato, che migliora l’accuratezza del modello del mondo, riduce i tassi di allucinazione e potenzia il pensiero associativo. Per GPT-4.5 sono state sviluppate nuove tecniche di allineamento scalabili che consentono di addestrare modelli più grandi e potenti utilizzando dati derivati da modelli più piccoli. Queste tecniche hanno permesso di migliorare la capacità di GPT-4.5 di essere guidato, comprendere le sfumature e conversare in modo naturale.

Carta di credito con fido

Procedura celere

I tester interni hanno riferito che GPT-4.5 si dimostra caloroso, intuitivo e naturale, sapendo quando offrire consigli, stemperare la frustrazione o semplicemente ascoltare l’utente quando si trova ad affrontare richieste emotivamente cariche.

GPT-4.5 mostra inoltre una più forte intuizione estetica e creatività, eccellendo nell’aiutare gli utenti con la scrittura creativa e il design.

Valutazioni di sicurezza

OpenAI ha condotto valutazioni di sicurezza approfondite su GPT-4.5, concentrandosi su aspetti critici come la nocività, la robustezza contro i tentativi di elusione delle restrizioni (jailbreak), le allucinazioni e i bias. Secondo i dati riportati nel documento tecnico, GPT-4.5 ha dimostrato prestazioni paragonabili o migliori rispetto ai modelli precedenti in molte aree.

Nelle valutazioni sui contenuti non consentiti, GPT-4.5 ha ottenuto un punteggio del 99% per la metrica “not_unsafe” nella Standard Refusal Evaluation, in linea con GPT-4o.
Nelle valutazioni di robustezza contro i jailbreak, GPT-4.5 ha raggiunto un’accuratezza del 99% sui jailbreak di origine umana, superando leggermente GPT-4o.
Per quanto riguarda le allucinazioni, GPT-4.5 ha ottenuto un tasso di allucinazione del 19% nel test PersonQA, migliorando rispetto al 52% di GPT-4o.
Nelle valutazioni di equità e bias utilizzando il benchmark BBQ, GPT-4.5 ha mostrato prestazioni simili a GPT-4o, con un’accuratezza del 95% sulle domande ambigue.
OpenAI ha anche condotto valutazioni sulla gerarchia delle istruzioni per mitigare il rischio di iniezioni di prompt e altri attacchi che potrebbero sovrascrivere le istruzioni di sicurezza del modello. In queste valutazioni, GPT-4.5 ha generalmente superato GPT-4o, dimostrando una maggiore capacità di seguire le istruzioni di sicurezza prioritarie. Tuttavia, OpenAI sottolinea che queste valutazioni rappresentano probabilmente un limite inferiore delle capacità del modello, poiché ulteriori tecniche di scaffolding o elicitazione potrebbero aumentare sostanzialmente le prestazioni osservate.

L’azienda ha anche collaborato con enti esterni come Apollo Research e METR per valutazioni indipendenti, che hanno confermato i progressi in termini di sicurezza e capacità di GPT-4.5.

GPT-4.5 System Card — La valutazione di METR mira a stimare quali compiti possono essere completati in modo affidabile dagli agenti LLM. La nuova metodologia calcola un “punteggio di orizzonte temporale”, definito come la durata dei compiti che un agente LLM può completare con un’affidabilità del 50%. Per GPT-4.5, questo punteggio è di circa 30
minuti

Preparazione e mitigazione dei rischi: il framework di OpenAI

OpenAI ha implementato un quadro di preparazione completo per valutare e mitigare i potenziali rischi associati a GPT-4.5. Secondo il rapporto tecnico, il Safety Advisory Group di OpenAI ha classificato GPT-4.5 come rischio complessivo medio, con rischio medio per CBRN (chimico, biologico, radiologico e nucleare) e persuasione, e rischio basso per cybersicurezza e autonomia del modello.

Per mitigare questi rischi, OpenAI ha adottato una combinazione di tecniche pre-addestramento e post-addestramento. Queste includono il filtraggio di un insieme altamente mirato di dati sulla proliferazione CBRN, l’addestramento alla sicurezza per compiti di persuasione politica, un focus continuo sulla robustezza del modello per i rischi CBRN e di persuasione, e sforzi dedicati di monitoraggio e rilevamento.

OpenAI ha anche migliorato le sue capacità di rilevamento su larga scala, inclusi classificatori di moderazione dei contenuti con maggiore precisione e recall.

Per quanto riguarda la cybersicurezza, GPT-4.5 non ha mostrato progressi sufficienti nelle capacità di sfruttamento delle vulnerabilità nel mondo reale da indicare un rischio medio.

Finanziamenti personali e aziendali

Prestiti immediati

Nelle valutazioni CTF (Capture The Flag), GPT-4.5 ha completato il 53% delle sfide di livello liceale, il 16% di quelle universitarie e solo il 2% di quelle professionali.

Per quanto riguarda i rischi CBRN, GPT-4.5 ha dimostrato la capacità di assistere gli esperti nella pianificazione operativa per riprodurre una minaccia biologica nota, che soddisfa la soglia di rischio medio di OpenAI. Tuttavia, l’azienda sottolinea che questo rischio è limitato, dato che tali esperti possiedono già una significativa competenza nel dominio.

Nel campo della persuasione, GPT-4.5 ha mostrato prestazioni all’avanguardia nelle valutazioni contestuali, ottenendo il punteggio più alto (57%) nel ricevere pagamenti nell’evaluation MakeMePay.

OpenAI sta riconsiderando il suo approccio per valutare meglio i rischi di persuasione nel mondo reale, che vanno oltre la capacità di generare scrittura persuasiva e coinvolgono fattori come la personalizzazione dei contenuti, la distribuzione su larga scala e la presentazione alle persone nel tempo.

Prestazioni multilingue e capacità avanzate

Le prestazioni multilingue di GPT-4.5 rappresentano un significativo passo avanti rispetto ai modelli precedenti. OpenAI ha condotto una valutazione approfondita traducendo il set di test MMLU (Massive Multitask Language Understanding) in 14 lingue diverse utilizzando traduttori professionisti umani.

Questo approccio si differenzia da quello utilizzato per GPT-4, dove MMLU era stato tradotto automaticamente con Azure Translate. L’utilizzo di traduttori umani per questa valutazione aumenta la fiducia nell’accuratezza delle traduzioni, soprattutto per le lingue con risorse limitate come lo yoruba. I risultati mostrano che GPT-4.5 supera GPT-4o in questa valutazione multilingue.

Ad esempio, in arabo GPT-4.5 ha ottenuto un punteggio di 0,8598 rispetto allo 0,8311 di GPT-4o. In cinese semplificato, GPT-4.5 ha raggiunto 0,8695 contro lo 0,8418 di GPT-4o. Anche in lingue come l’hindi (0,8583 vs 0,8191), il giapponese (0,8693 vs 0,8349) e lo swahili (0,8199 vs 0,7786), GPT-4.5 ha dimostrato miglioramenti significativi. Questi risultati evidenziano la capacità di GPT-4.5 di comprendere e generare contenuti in modo più accurato e naturale in una vasta gamma di lingue, rendendolo uno strumento più versatile e inclusivo per applicazioni globali.

Contabilità

Buste paga

Oltre alle prestazioni multilingue, GPT-4.5 ha mostrato capacità avanzate in vari domini. Nelle valutazioni di ingegneria del software, come SWE-bench Verified, GPT-4.5 ha ottenuto un punteggio del 38%, superando GPT-4o del 2-7%.

Nel benchmark MLE-bench, che valuta la capacità di un agente di risolvere sfide Kaggle che coinvolgono la progettazione, la costruzione e l’addestramento di modelli di machine learning su GPU, GPT-4.5 ha ottenuto un punteggio dell’11%, alla pari con modelli come o1 e o3-mini. Queste prestazioni dimostrano la crescente capacità di GPT-4.5 di affrontare compiti complessi e tecnici, avvicinandosi sempre più alle capacità di un ingegnere del software o di un data scientist umano.

Impatto su cybersicurezza e creazione di minacce biologiche

L’impatto di GPT-4.5 sulla cybersicurezza e sulla potenziale creazione di minacce biologiche è stato oggetto di attente valutazioni da parte di OpenAI. Nel campo della cybersicurezza, GPT-4.5 non ha mostrato progressi sufficienti nelle capacità di sfruttamento delle vulnerabilità nel mondo reale da indicare un rischio medio.

Questi risultati suggeriscono che, sebbene il modello abbia fatto progressi, le sue capacità in questo ambito rimangono limitate rispetto a quelle di esperti umani di cybersicurezza. Per quanto riguarda la creazione di minacce biologiche, le valutazioni hanno rivelato che GPT-4.5 può assistere gli esperti nella pianificazione operativa per riprodurre una minaccia biologica nota, il che soddisfa la soglia di rischio medio stabilita da OpenAI. Tuttavia, l’azienda sottolinea che questo rischio è limitato, dato che tali esperti possiedono già una significativa competenza nel dominio.

Nelle valutazioni su questioni biorischio a lungo termine, GPT-4.5 (post-mitigazione) ha ottenuto un punteggio dello 0% su tutti i passaggi a causa dei rifiuti, dimostrando l’efficacia delle misure di sicurezza implementate. Nelle valutazioni di risoluzione dei problemi di virologia multimodale, GPT-4.5 ha ottenuto un punteggio del 56%, un miglioramento significativo del 15% rispetto a GPT-4o.

Nel benchmark BioLP, che valuta le prestazioni su 800 domande da 11 protocolli di laboratorio, GPT-4.5 ha ottenuto un punteggio del 29%, inferiore a o1, o3-mini e alla performance di base degli esperti (38,4%). Questi risultati evidenziano la complessità del bilanciamento tra il progresso delle capacità del modello e la mitigazione dei potenziali rischi.

Dilazione debiti

Saldo e stralcio

OpenAI sottolinea l’importanza di continuare a monitorare e valutare attentamente l’impatto di modelli avanzati come GPT-4.5 in questi ambiti sensibili, mantenendo un approccio proattivo alla sicurezza e all’etica dell’AI.

Prospettive future e implicazioni etiche dell’AI avanzata

Lo sviluppo e il rilascio di GPT-4.5 da parte di OpenAI solleva importanti questioni sulle prospettive future e le implicazioni etiche dell’intelligenza artificiale avanzata. Secondo il rapporto tecnico, OpenAI riconosce che, sebbene GPT-4.5 porti notevoli miglioramenti in termini di capacità e sicurezza, aumenta anche alcuni rischi. L’azienda sottolinea l’importanza di un approccio iterativo al deployment nel mondo reale come il miglior modo per coinvolgere gli stakeholder nella sicurezza dell’AI. Questo approccio riflette la filosofia di OpenAI di bilanciare l’innovazione con la responsabilità etica.

Un aspetto cruciale evidenziato nel rapporto è la necessità di una continua valutazione e mitigazione dei rischi. OpenAI ha implementato un quadro di preparazione completo che include valutazioni pre-deployment e post-deployment, dimostrando un impegno proattivo nell’affrontare le sfide etiche poste dall’AI avanzata. L’azienda sottolinea che le attuali valutazioni rappresentano probabilmente un limite inferiore delle capacità del modello, riconoscendo che ulteriori tecniche di scaffolding o elicitazione potrebbero aumentare sostanzialmente le prestazioni osservate. Questo suggerisce la necessità di una vigilanza continua e di un adattamento delle strategie di sicurezza man mano che i modelli diventano più avanzati.

Un altro aspetto importante riguarda le implicazioni dell’uso diffuso di modelli come GPT-4.5 in vari settori. Il rapporto menziona l’impatto potenziale su ambiti come la cybersicurezza, la creazione di minacce biologiche e la persuasione, sottolineando la necessità di un approccio multidisciplinare per affrontare queste sfide.

OpenAI riconosce che l’AI avanzata potrebbe avere implicazioni significative per la società, l’economia e la sicurezza globale, e sottolinea l’importanza della collaborazione tra sviluppatori di AI, policy maker e società civile per garantire uno sviluppo responsabile dell’IA.

Guardando al futuro, OpenAI suggerisce che modelli come GPT-4.5 potrebbero aprire nuove frontiere nella ricerca scientifica, nell’educazione e nella risoluzione di problemi complessi. Tuttavia, l’azienda sottolinea anche la necessità di considerare attentamente le implicazioni a lungo termine di tali avanzamenti, inclusi i potenziali impatti sul mercato del lavoro, sulla privacy e sull’equità sociale.

In conclusione, il rilascio di GPT-4.5 rappresenta un importante passo avanti nello sviluppo dell’AI, ma anche un momento critico per riflettere sulle responsabilità etiche e sociali che accompagnano tali progressi tecnologici.

Dilazioni debiti fiscali

Assistenza fiscale

Source link

***** l’articolo pubblicato è ritenuto affidabile e di qualità*****

Visita il sito e gli articoli pubblicati cliccando sul seguente link