Con la proliferazione dei modelli di intelligenza artificiale generativa, la capacità di misurarne oggettivamente le prestazioni è diventata un’operazione critica.
I benchmark, ovvero gli strumenti e i metodi utilizzati per testare e quantificare le performance dei modelli di IA, non sono semplici esercizi accademici; rappresentano la “base della fiducia” nelle applicazioni di intelligenza artificiale. Sono essenziali per comprendere l’efficacia, l’accuratezza e la creatività di questi sistemi, permettendo confronti equi tra modelli concorrenti e garantendo che le soluzioni implementate soddisfino gli standard aziendali, etici e di sicurezza.
Il problema è che con le intelligenze artificiali generative non ci sono risposte univoche deterministiche: i modelli generativi operano in uno spazio di possibilità molto più vasto. Vasto quanto l’infinita produttività del linguaggio che questi strumenti “usano”.
Mentre i modelli classici di machine learning vengono giudicati con metriche deterministiche come l’accuratezza o la precisione, esiste una “relazione many-to-many tra input e output accettabili”: chiedere di riassumere un articolo può produrre decine di riassunti diversi. Ma tutti possono essere ugualmente validi pur differendo nei dettagli.
Questa caratteristica non deterministica e la soggettività intrinseca della “correttezza” rendono le metriche tradizionali, basate sulla corrispondenza esatta delle stringhe, del tutto inadeguate.
Per esempio: un modello potrebbe generare una risposta fattualmente corretta usando un vocabolario completamente diverso dal testo di riferimento, ottenendo un punteggio impropriamente basso nonostante l’alta qualità dell’output.
Esiste poi un paradosso fondamentale al cuore della misurazione delle AI: l’atto stesso di pubblicare un benchmark per renderlo uno standard di settore garantisce che, prima o poi, verrà incluso nei futuri set di dati di addestramento.
Questo crea una situazione in cui i benchmark di maggior successo e più ampiamente adottati sono anche quelli più a rischio di diventare non più validi (saturati) nel tempo. Questo significa che il concetto di un “gold standard” statico e duraturo è fondamentalmente insostenibile nell’era dello scraping di dati su scala web. Il futuro della valutazione non può essere statico; deve essere per forza di cose adattativo.
Non basta: per misurare i modelli più avanzati occorrono esperti umani in grado di produrre test che le macchine non abbiano ancora visto, e di valutarli.
Questi problemi tecnici hanno profonde ripercussioni sulla percezione pubblica. Questioni come la contaminazione dei dati, la natura “black box” dei modelli e la generazione di “falsità imitative” non sono solo preoccupazioni accademiche; alimentano direttamente lo scetticismo e la reazione culturale negativa contro le intelligenze artificiali.
Fra i sostenitori della tesi secondo cui le AI generative sono solo pappagalli stocastici va molto difficile moda minimizzarle con errori (veri o presunti nel campo della logica o del conteggio di lettere o parole).
Quando un modello domina una leaderboard ma poi fallisce in modo spettacolare su quello che appare un semplice compito del mondo reale, si crea una discrepanza tra la capacità promessa e la performance percepita.
Questa discrepanza erode la fiducia delle persone non solo in quel prodotto, ma nella tecnologia nel suo complesso. Pertanto, migliorare l’integrità e la trasparenza dei benchmark non è solo un esercizio scientifico; è un’attività critica per costruire e mantenere la fiducia del pubblico nell’intera industria dell’IA. Non per fare un favore ai produttori ma per usare le intelligenze artificiali a beneficio di tutti.
Partendo dai pilastri metrici fondamentali, in questo pezzo cerco di offrire una tassonomia completa dei benchmark più rilevanti oggi, dai test classici di comprensione del linguaggio a quelli all’avanguardia per agenti autonomi e sistemi multimodali.
I pilastri della valutazione dei modelli generativi: oltre l’accuratezza
Indice dei contenuti
Per valutare le IA generative è indispensabile adottare un approccio multidimensionale. Nessuna singola metrica può catturare l’intero spettro delle capacità di un large language model (LLM). È necessaria una matrice di metriche, che consideri simultaneamente le dimensioni operative, qualitative ed etiche per ottenere un quadro completo e affidabile delle prestazioni di un modello.
Metriche fondamentali di qualità (output-centric)
queste metriche si concentrano sulla qualità intrinseca del testo o del contenuto generato dal modello.
- perplexity: la perplessità misura la capacità di un modello di prevedere pattern linguistici. In termini semplici, quantifica quanto un modello sia “sorpreso” da una sequenza di testo. Un punteggio di perplessità più basso indica migliori capacità predittive, suggerendo che il modello ha appreso in modo più efficace le sfumature e le strutture del linguaggio. Un valore di perplexity basso indica che il modello è in grado di prevedere bene la sequenza, mentre un valore alto suggerisce che il modello fa fatica a comprendere i dati e fa previsioni meno accurat
- coerenza (coherence) e fluidità (fluency): la coerenza valuta la progressione logica delle idee, la gestione fluida degli argomenti e la connessione tra le informazioni. Un testo coerente fluisce senza interruzioni o salti logici da un concetto all’altro. La fluidità, invece, misura la qualità grammaticale e la leggibilità del linguaggio naturale generato. La valutazione di queste qualità richiede spesso un approccio ibrido, che combina metriche automatizzate con la valutazione soggettiva umana per catturare le sfumature che gli algoritmi potrebbero non cogliere.
- rilevanza della risposta (answer relevancy) e rispetto del prompt (o allineamento al prompt, prompt alignment): la rilevanza della risposta valuta l’efficacia con cui l’output del modello risponde alla richiesta che riceve, assicurando che sia informativo e preciso. L’allineamento al prompt, strettamente correlato, misura la coerenza del modello nel seguire template e istruzioni predefinite.
- accuratezza fattuale e radicamento (grounding): in applicazioni che richiedono precisione fattuale, come nei sistemi di Retrieval-Augmented Generation (RAG), è essenziale misurare l’accuratezza degli output rispetto a fonti di verità verificate. Una metrica chiave in questo contesto è il “radicamento” (o grounding), che misura la coerenza della risposta generata rispetto al contesto recuperato da una base di conoscenza condivisa (knowledge base). Un alto punteggio di radicamento indica che il modello si attiene alle informazioni fornite, riducendo significativamente il rischio delle cosiddette “allucinazioni”, ovvero la generazione di informazioni fittizie o non supportate dai fatti.
Metriche di performance operativa (system-centric)
Queste metriche valutano l’efficienza e il costo del modello come sistema computazionale, fattori determinanti per la sua applicabilità nel mondo reale.
- latenza e tempo di risposta: la latenza è una misura del tempo necessario a un LLM per generare una risposta a un prompt ed è un fattore chiave nella percezione dell’efficienza da parte dell’utente. Si scompone in:
- time to first token (TTFT): Il tempo che intercorre tra l’invio del prompt e la ricezione del primo “pezzo” (token) di output. Un TTFT basso è importante per dare a chi usa l’LLM un’immediata sensazione di reattività.
- time per output token (TPOT): la velocità con cui vengono generati i token successivi al primo. Indica la fluidità della risposta.
- tempo totale di generazione: calcolato come TTFT+(TPOT×numero di token generati)
- throughput: misura la capacità del sistema, cioè quante richieste può elaborare o quanti token può produrre in un dato intervallo di tempo. Viene tipicamente misurato in richieste al secondo o token al secondo. Tecniche come il batching (raggruppare più input per elaborarli simultaneamente) sono spesso utilizzate per massimizzare il throughput.
- costo: Una dimensione puramente economica ma fondamentale. Il costo viene solitamente misurato in dollari (USD) per milione di token di input e per milione di token di output. Questo parametro varia enormemente tra i modelli ed è un fattore decisivo nella scelta di una soluzione per applicazioni su larga scala.
- performance di rete: Per i modelli accessibili tramite API (interfacce di programmazione), le prestazioni non dipendono solo dal modello stesso ma anche dall’infrastruttura di rete. Benchmark reali, come quelli condotti da Catchpoint, misurano metriche a livello di rete come il tempo di connessione (TCP), il tempo di handshake (SSL) e il tempo di attesa del server. Questi fattori possono avere un impatto notevole sull’esperienza-utente.
Metriche etiche e di sicurezza (trust-centric)
Queste metriche sono diventate non negoziabili per lo sviluppo responsabile delle intelligenze artificiali.
- equità (Fairness): si ritiene abbastanza universalmente fondamentale – ciascuno secondo il proprio punto di vista, ovviamente – garantire che i modelli non perpetuino bias dannosi. Metriche come la counterfactual fairness esaminano come cambiano gli output del modello al variare di attributi demografici sensibili (es. genere, etnia), mentre l’equal opportunity testing serve per misurare i tassi di veri positivi coerenti tra i diversi gruppi demografici.
- veridicità (truthfulness): questa metrica valuta la capacità di un modello di fornire informazioni veritiere, distinguendole da credenze errate ma comuni tra gli esseri umani. L’obiettivo di mantenere un alto livello di veridicità è evitare che il modello apprenda e poi diffonda “falsità imitative” semplicemente perché sono prevalenti nei dati di addestramento.
- sicurezza e tossicità: questa valutazione misura la propensione di un modello a generare contenuti dannosi, offensivi, non sicuri o tossici. È una componente essenziale per garantire che le applicazioni di IA possano essere implementate in modo sicuro, specialmente in contesti rivolti al pubblico.
L’analisi congiunta di queste metriche rivela un fondamentale compromesso, una sorta di “trilemma della valutazione”.
Esiste una tensione intrinseca tra performance (velocità e costo), qualità (accuratezza, coerenza) e sicurezza (equità, veridicità). Un modello ottimizzato per la velocità, con un TTFT bassissimo e un alto throughput, per esempio, potrebbe sacrificare la profondità del ragionamento, portando a una qualità inferiore dell’output o a risposte più tossiche. Al contrario, un modello estremamente accurato e allineato eticamente potrebbe risultare troppo lento o costoso per applicazioni in tempo reale.
L’analisi olistica di framework come l’HELM di Stanford ha confermato questa dinamica: ci sono modelli che eccellono in accuratezza e robustezza, altri che si distinguono per efficienza: sono scelte degli sviluppatori e dei produttori. La scelta di un LLM, quindi, non consiste nel trovare il “migliore” in assoluto – non avrebbe senso – ma esplorare questo trilemma per identificare il modello che offre il giusto equilibrio per le esigenze e i vincoli di un caso d’uso specifico.
La complessità di queste misurazioni dimostra che la valutazione di un LLM non è più solo un’analisi accademica. Le valutazioni vengono fatte prima del lancio di un modello dai produttori di LLM e poi, quando possibile, da ricercatori indipendenti. Il problema principale delle entità indipendenti è il fatto che molti modelli di punta sono delle black box, delle scatole nere di cui si sa poco e con cui si è costretti a fare reverse engineering.
La disciplina ingegneristica LLM-Ops si occupa proprio di costruire sistemi di IA generativa affidabili e pronti per essere usati da persone, organizzazioni, aziende.
Tassonomia dei benchmark per l’IA generativa nel 2025
Il panorama dei benchmark per l’IA è in uno stato di flusso costante. Man mano che i modelli migliorano, i benchmark più vecchi diventano “saturi”: significa che i modelli di punta raggiungono, se testati con quei benchmark, raggiungono punteggi perfetti o quasi, rendendo il test incapace di differenziare le loro capacità e dunque sostanzialmente inutile. Questo fenomeno, osservato prima con GLUE e più recentemente con MMLU, spinge la comunità di ricerca a creare test sempre più difficili, diversificati e specializzati. Le leaderboard più moderne, come quella di Vellum, escludono esplicitamente benchmark considerati “obsoleti” come MMLU, concentrandosi su test di nuova generazione che mettono veramente alla prova i limiti dei modelli attuali.
Comprensione del linguaggio (NLU) e ragionamento di base
Questi benchmark valutano le capacità fondamentali di un modello di comprendere e ragionare sul linguaggio naturale.
- GLUE (General Language Understanding Evaluation): È stata la suite di benchmark fondativa per la Natural Language Understanding (NLU). Include un insieme di nove compiti, come l’analisi del sentiment, l’inferenza testuale e la similarità semantica, che hanno standardizzato la valutazione dei primi modelli Transformer.
- SuperGLUE: Quando i modelli hanno iniziato a superare le prestazioni umane (non esperte) su GLUE, è stato introdotto SuperGLUE. Progettato per essere significativamente più difficile, ha introdotto task più complessi e formati più diversificati, come la risoluzione di co-referenze e il question answering, per testare una generalizzazione più profonda.
- HellaSwag & WinoGrande: questi benchmark si concentrano specificamente sul ragionamento di senso comune. HellaSwag testa la capacità di un modello di completare una frase scegliendo la conclusione più plausibile tra quattro opzioni. WinoGrande valuta la risoluzione dell’ambiguità dei pronomi in contesti che richiedono una comprensione del mondo reale.
Conoscenza multidisciplinare e ragionamento complesso
Con il miglioramento delle capacità di base, l’attenzione si è spostata sulla valutazione di conoscenze profonde e abilità di ragionamento complesse, simili a quelle umane.
- MMLU (Massive Multitask Language Understanding): Per anni, il MMLU è stato il gold standard per misurare l’ampiezza delle conoscenze di un modello. È un benchmark completo che valuta la conoscenza e la capacità di problem-solving attraverso 57 materie diverse, che spaziano dalla matematica elementare alla storia degli Stati Uniti, dall’informatica al diritto, con domande a scelta multipla di difficoltà crescente. La sua forza risiede nel testare la capacità di un modello di generalizzare la conoscenza attraverso domini non correlati fra loro.
Dopo la saturazione di MMLU, sono stati sviluppati nuovi benchmark:
- GPQA (Graduate-Level Google-Proof Q&A): un benchmark estremamente complesso che valuta la qualità e l’affidabilità del ragionamento a livello di studi universitari avanzati in biologia, fisica e chimica. Le sue domande sono volutamente progettate per essere difficili o impossibili da risolvere con una semplice ricerca su Google, costringendo i modelli a un vero e proprio ragionamento piuttosto che a un recupero di informazioni. Sono 448 domande a risposta multipla, scritte da esperti in vari campi.
- AIME (American Invitational Mathematics Examination): Un benchmark basato su una competizione di matematica per liceali di alto livello, utilizzato per testare le capacità avanzate di problem-solving matematico dei modelli.
- Humanity’s Last Exam: presentato come uno dei benchmark più difficili in assoluto, copre molteplici domini ed è concepito come una misura dell’intelligenza generale e della capacità di risolvere problemi estremamente complessi.
Generazione di testo, riassunto e traduzione
Questi benchmark valutano la qualità dell’output generato in task specifici.
- Metriche Classiche:
- BLEU (Bilingual Evaluation Understudy): Ampiamente utilizzato per la traduzione automatica, BLEU confronta l’output di una macchina con traduzioni umane di riferimento, misurando la sovrapposizione di n-grammi (sequenze di parole).
- ROUGE (Recall-Oriented Understudy for Gisting Evaluation): Simile a BLEU, ma orientato al recall, è lo standard per la valutazione dei riassunti automatici. Confronta un riassunto generato da una macchina con uno o più riassunti di riferimento scritti da esseri umani.
- Metriche Semanticamente Avanzate:
- METEOR & BERTScore: Riconoscendo i limiti della semplice sovrapposizione di stringhe, metriche più moderne come METEOR e BERTScore incorporano la similarità semantica. BERTScore, in particolare, utilizza le rappresentazioni vettoriali di modelli pre-addestrati (come BERT) per valutare quanto il significato dell’output generato sia vicino a quello del riferimento, superando i limiti lessicali di BLEU e ROUGE.
Veridicità e affidabilità
La capacità di un modello di essere veritiero è diventata una preoccupazione centrale.
- TruthfulQA: Questo benchmark è stato progettato specificamente per misurare la tendenza dei modelli a generare “falsità imitative”, ovvero risposte che sembrano plausibili ma sono errate, spesso perché imitano idee sbagliate comuni trovate su Internet. Il dataset è composto da 817 domande “avversarie” in 38 categorie sensibili come salute, diritto e finanza. Una delle scoperte più significative e controintuitive emerse da TruthfulQA è che i modelli più grandi e apparentemente più capaci possono talvolta essere
meno veritieri. Questo perché la loro maggiore capacità di imitare i pattern del linguaggio umano li rende anche più abili a replicare le informazioni errate ma persuasive presenti nei loro vasti dati di addestramento.
Generazione e modifica di codice
La valutazione delle capacità di programmazione dei modelli è un’area in rapida evoluzione.
- HumanEval: È il benchmark fondativo per la generazione di codice. Consiste in 164 problemi di programmazione in Python, scritti a mano, che testano la correttezza funzionale del codice generato a partire da una descrizione in linguaggio naturale (docstring). La sua metrica principale, pass@k, calcola la probabilità che almeno una delle k soluzioni generate per un problema superi tutti i test unitari. Nonostante la sua importanza, HumanEval ha dei limiti noti, come la “fuga del benchmark” (la potenziale presenza dei problemi nei dati di addestramento) e il fatto che valuta solo la correttezza, non la qualità, la leggibilità o l’efficienza del codice. Sono state sviluppate anche versioni multilingua come mHumanEval.
- SWE-bench (Software Engineering Benchmark): Rappresenta la nuova generazione di benchmark per la programmazione “agentica”. Invece di risolvere problemi isolati, SWE-bench valuta la capacità di un LLM di risolvere problemi reali (issues) presi da repository GitHub di progetti open-source popolari. Ciò richiede al modello di comprendere basi di codice ampie e complesse, pianificare le modifiche necessarie ed eseguirle correttamente, un compito molto più vicino al lavoro di uno sviluppatore software reale.
- Aider Leaderboard: Questa è una leaderboard specializzata che si concentra non solo sulla generazione di codice, ma sulla capacità di un LLM di modificare codice esistente in modo interattivo, utilizzando formati di editing specifici. Include un benchmark “poliglotta” molto impegnativo che copre 6 linguaggi di programmazione e un benchmark di “refactoring” che testa la capacità di ristrutturare metodi complessi in classi di grandi dimensioni.
Capacità multimodali (vision-language)
Con l’avvento di modelli in grado di elaborare sia testo che immagini, sono emersi benchmark specifici per queste capacità.
- MMMU (Massive Multi-discipline Multimodal Understanding and Reasoning): Questo benchmark è progettato per testare i modelli multimodali su compiti che richiedono un livello di conoscenza e ragionamento da “AGI esperta” a livello universitario. Contiene 11.500 domande multimodali tratte da esami universitari e libri di testo, coprendo 6 discipline e 30 materie. La sua caratteristica distintiva è l’inclusione di 30 tipi di immagini altamente eterogenee (grafici, diagrammi, tabelle, spartiti musicali, strutture chimiche) che sono parte integrante della domanda e richiedono una profonda conoscenza del dominio per essere interpretate correttamente. I risultati mostrano che anche i modelli più avanzati come GPT-4V faticano a raggiungere alte prestazioni, indicando un ampio margine di miglioramento in questo campo.
- Altri Benchmark Multimodali: Esistono anche altri benchmark come MultiBench, MM-BigBench e MME, che si concentrano sulla valutazione dell’apprendimento di rappresentazioni multimodali e sulla comprensione di contenuti che combinano diverse modalità.
Generazione video (text-to-video)
L’emergente campo della generazione di video da testo ha portato alla creazione di benchmark dedicati.
- VBench & T2VBench: Sono due dei benchmark più completi per la valutazione dei modelli Text-to-Video (T2V). VBench scompone la “qualità video” in 16 dimensioni specifiche, come la fluidità del movimento, lo sfarfallio temporale e la coerenza del soggetto. T2VBench, invece, si concentra in modo specifico sulla valutazione della dimensione temporale, analizzando la capacità del modello di gestire sequenze di eventi, transizioni di telecamera e cambiamenti di velocità.
- Altri Framework: Altri framework emergenti includono EvalCrafter, che utilizza una combinazione di metriche oggettive e studi soggettivi con utenti; DEVIL, che si concentra sulla valutazione delle “dinamiche” del contenuto video; e T2V-CompBench, che valuta la capacità compositiva dei modelli (la loro abilità di combinare correttamente oggetti, attributi e azioni). Esistono anche leaderboard basate sulla preferenza umana, come la Artificial Analysis Video Arena.
La rapida obsolescenza di benchmark generalisti come MMLU non sta solo portando a test più difficili, ma anche a una profonda specializzazione. Il campo sta passando dalla domanda “il modello capisce il linguaggio?” (GLUE) a domande molto più specifiche e complesse: “sa ragionare come uno studente di dottorato?” (GPQA), “sa risolvere un bug reale in un progetto software?” (SWE-Bench), “sa superare un esame universitario multimodale?” (MMMU). Questa traiettoria suggerisce che il concetto di un singolo “punteggio AGI” sta diventando meno significativo, sostituito da un portafoglio di punteggi che riflettono “intelligenze” specializzate e contestuali.
Parallelamente, la definizione stessa di “comprensione” si sta evolvendo. La traiettoria da HumanEval a SWE-bench e Aider è emblematica di questo cambiamento. HumanEval testa la capacità di generare una funzione corretta e autocontenuta (un compito statico). SWE-bench e Aider, invece, testano la capacità di interagire con un ambiente esistente e complesso (una base di codice), comprendere il contesto, pianificare una serie di modifiche ed eseguirle (un compito dinamico e agentico). Questa evoluzione dalla generazione alla modifica riflette un cambiamento più ampio nel modo in cui l’IA viene concepita e utilizzata: non più solo come creatori di contenuti, ma come collaboratori e agenti autonomi in grado di agire e modificare il nostro mondo digitale esistente.
| Nome Benchmark | Capacità Primaria Testata | Formato del Task | Metrica(e) Chiave | Rilevanza/Stato (Agosto 2025) |
| SuperGLUE | Comprensione del linguaggio (NLU) | Classificazione di frasi/coppie, QA | Punteggio medio aggregato | Fondativo ma parzialmente saturato |
| MMLU | Conoscenza multidisciplinare | Scelta multipla | Accuratezza | Saturato/Obsoleto per i modelli SOTA |
| GPQA | Ragionamento scientifico esperto | Domande e risposte (a prova di Google) | Accuratezza | Stato dell’arte per il ragionamento profondo |
| Humanity’s Last Exam | Intelligenza generale, problem-solving | Vario, estremamente difficile | Punteggio aggregato | Stato dell’arte per la valutazione complessiva |
| TruthfulQA | Veridicità, evitare falsità imitative | Domande e risposte (avversarie) | % Risposte veritiere e informative | Critico per la sicurezza e l’affidabilità |
| HumanEval | Generazione di codice (funzionale) | Scrittura di funzioni Python | pass@k | Fondativo ma saturato per i modelli SOTA |
| SWE-Bench | Programmazione agentica, modifica codice | Risoluzione di issue GitHub reali | % Issue risolte | Stato dell’arte per il coding agentico |
| Aider Polyglot | Modifica di codice (multilingua) | Esercizi di editing del codice | % Completati correttamente | Specializzato per la valutazione dell’editing |
| MMMU | Ragionamento multimodale esperto | Scelta multipla (testo + immagini) | Accuratezza | Stato dell’arte per la multimodalità |
| VBench | Qualità della generazione video | Generazione video da testo | Punteggio decomposto (16 dimensioni) | Standard emergente per T2V |
| BFCL | Uso di strumenti (Function Calling) | Chiamata di API/funzioni | Accuratezza della chiamata | Critico per la valutazione degli agenti |
Tendenze emergenti: la valutazione degli agenti IA
La tendenza più significativa nel 2025 è il passaggio dalla valutazione di LLM statici, che rispondono a un singolo input, alla valutazione di agenti basati su LLM. Questi agenti sono sistemi più complessi che operano in cicli di interazione multi-step con un ambiente. Sono in grado di pianificare, ragionare, utilizzare strumenti esterni e mantenere una memoria per portare a termine compiti complessi. Questa evoluzione richiede metodologie di valutazione radicalmente nuove, che vanno oltre i classici task text-to-text.
Pianificazione e ragionamento multi-step
Questa è la capacità fondamentale di un agente di scomporre un problema complesso in sotto-task più piccoli e gestibili, creando un percorso di esecuzione strategico per raggiungere la soluzione. I benchmark in quest’area, come PlanBench e FlowBench, sono progettati per distinguere tra la pianificazione tattica (a breve termine) e quella strategica (a lungo termine), rivelando che, mentre i modelli attuali sono abili nella prima, faticano ancora con la pianificazione a lungo orizzonte.
Uso di strumenti (function calling)
L’uso di strumenti è ciò che permette a un agente di superare i limiti della sua conoscenza interna e di interagire con il mondo esterno. Questo include l’esecuzione di calcoli, l’accesso a informazioni in tempo reale tramite API o l’interazione con altri software.
- ToolBench & BFCL (Berkeley Function-Calling Leaderboard): Questi sono i benchmark di riferimento per misurare la capacità di un agente di utilizzare strumenti. Valutano l’intero processo: data un’istruzione dell’utente, l’agente deve selezionare lo strumento corretto da una lista, mappare correttamente i parametri necessari alla funzione e, infine, generare una risposta basata sull’output dello strumento. Le versioni più recenti di BFCL hanno introdotto scenari più complessi che richiedono chiamate di funzioni multiple e sequenziali, riflettendo meglio i casi d’uso del mondo reale.
Auto-riflessione e memoria
Queste sono capacità emergenti che distinguono gli agenti più avanzati.
- Auto-Riflessione (Self-Reflection): Questa è la capacità di un agente di analizzare le proprie azioni e i propri risultati, ricevere feedback (dall’ambiente o da un supervisore) e correggere i propri errori durante un’interazione multi-step. È una forma di debugging e apprendimento autonomo. Benchmark dedicati come Reflection-Bench e LLF-Bench sono stati sviluppati per misurare questa abilità cognitiva, scomponendola in componenti come la percezione di nuove informazioni, l’aggiornamento delle credenze e il ragionamento controfattuale.
- Memoria: Per compiti che si estendono nel tempo, la memoria è cruciale. La valutazione in quest’area testa la capacità di un agente di mantenere e recuperare informazioni pertinenti attraverso contesti lunghi e interazioni multiple, garantendo coerenza e apprendimento continuo. Benchmark come StreamBench e LTMbenchmark (Long-Term Memory benchmark) sono progettati per questo scopo, spesso attraverso conversazioni estese con frequenti cambi di contesto.
La valutazione degli agenti sta progressivamente sfumando i confini tra l’intelligenza artificiale e l’ingegneria del software. Non si tratta più solo di valutare la correttezza del testo di output, ma la correttezza del comportamento dell’agente nel suo complesso. Questo implica testare la gestione dello stato, la gestione degli errori, l’integrazione con le API e la coerenza logica attraverso una sequenza di azioni. Le capacità agentiche come la pianificazione, l’uso di strumenti e la memoria sono concetti familiari all’ingegneria del software. Di conseguenza, i team che costruiscono e valutano questi sistemi necessitano di un set di competenze ibrido, che combini l’esperienza nel machine learning con le metodologie rigorose del quality assurance (QA) del software.
Comprendere quali benchmark utilizzare è solo il primo passo. Gli sviluppatori e i ricercatori necessitano di strumenti robusti per implementarli in modo efficiente e riproducibile..
Lascia un commento