Manifest of Blasphemy: Cosa fa l’intelligenza artificiale in guerra

“La guerra è il dominio dell’incertezza: tre quarti delle cose su cui si basa l’azione bellica giacciono nella nebbia di un’incertezza più o meno grande”. A due secoli di distanza dal trattato di strategia militare Della guerra di Von Clausewitz, potremmo dire che, oggi, uno dei principali obiettivi dell’impiego dei sistemi d’intelligenza artificiale in ambito bellico è proprio quello di dissipare quanto più possibile la celeberrima “nebbia della guerra” teorizzata nell’Ottocento dal generale prussiano.

Navigare e pattugliare territori estesi mediante droni a guida autonoma, riconoscere e classificare rapidamente gli obiettivi che compaiono in video e immagini, ottenere un’analisi predittiva delle minacce, stimare i potenziali danni collaterali, rilevare anomalie. Tutti gli impieghi militari dell’intelligenza artificiale hanno principalmente due scopi: ridurre l’incertezza – raccogliendo, filtrando e interpretando enormi quantità di dati provenienti da sensori, satelliti, droni e sistemi di intelligence – e aumentare la velocità decisionale, valutando le opzioni operative in tempi ridotti, stimando rischi e conseguenze, coordinando le unità e reagendo quasi in tempo reale agli sviluppi del conflitto.

Il paradosso è che questi algoritmi predittivi – che aggregano migliaia di dati di intelligence raccolti da centinaia di fonti diverse – in molti casi rischiano di infittire, invece che diradare, la nebbia della guerra, perché producono una tale quantità di informazioni da rendere la loro interpretazione e gestione particolarmente complessa. Ed è qui che entrano in gioco i modelli linguistici di OpenAI, Anthropic, xAI e, in Europa, Mistral, il cui compito è aiutare a dissipare la coltre di nebbia provocata dall’enorme mole di dati prodotti dai sistemi predittivi.

Il ruolo cruciale dell’IA predittiva

Che cosa fa infatti un chatbot pressoché identico a quelli che usiamo nella vita quotidiana quando è utilizzato in ambito bellico? Prima di tutto, bisogna chiarire alcuni aspetti importanti. Come mostrato anche da un paper della NATO Science and Technology Organization, si tende infatti a fare confusione tra gli impieghi degli algoritmi predittivi (che analizzano dati per individuare schemi, classificare eventi e stimare probabilità future) e quelli invece generativi (capaci di generare probabilisticamente testo, immagini, video o altro).

I large language model non possono riconoscere automaticamente i bersagli, non guidano i missili o i droni, non raccolgono informazioni, non analizzano direttamente i dati dei sensori e non eseguono autonomamente azioni nel mondo reale. La capacità fondamentale di ChatGPT e dei suoi compagni è infatti (provare a) comprendere, elaborare e generare il linguaggio umano sulla base del dataset testuale su cui sono stati addestrati.

Sul campo di battaglia, il grosso del lavoro sporco lo svolgono quindi i sistemi basati su algoritmi predittivi. Due dei casi più (tristemente) noti sono quelli relativi alle piattaforme di intelligenza artificiale massicciamente impiegate dall’esercito israeliano durante l’invasione di Gaza: The Gospel e Lavender.

The Gospel analizza direttamente i dati raccolti tramite intelligence e sorveglianza per identificare obiettivi infrastrutturali – edifici, tunnel, depositi – che vengono poi colpiti dall’esercito. Secondo l’ex capo dell’IDF Aviv Kochavi, questo sistema è in grado di individuare fino a 100 bersagli al giorno: “Per dare una prospettiva”, ha spiegato Kochavi, “in passato ottenevamo 50 obiettivi all’anno”.

Lavender è invece un sistema statistico che assegna a ogni individuo presente nella Striscia di Gaza un punteggio relativo alla probabilità di appartenenza a gruppi armati, elaborando dati provenienti anche in questo caso da intelligence e sorveglianza, oltre a segnali comportamentali e indicatori demografici. Secondo le inchieste del magazine israeliano +972, nel corso del conflitto Lavender ha identificato – con un margine di errore accettato del 10% – circa 37mila palestinesi come potenziali bersagli.

Per quanto invece riguarda gli Stati Uniti (e la NATO), il più diffuso sistema di supporto decisionale (DSS, decision support system) è il Maven Smart System. Sviluppato a partire dal 2017 da Palantir – subentrata dopo il passo indietro di Google, che al tempo aveva rinunciato in seguito alle proteste dei dipendenti – in collaborazione con Amazon (che fornisce in appoggio la piattaforma cloud AWS), una prima versione di Maven è stata impiegata nel 2021 durante il ritiro statunitense dall’Afghanistan. Successivamente è stato utilizzato in supporto a Israele durante l’invasione di Gaza ed è fino a oggi stato impiegato anche per gli attacchi contro l’Iran.

A differenza di The Gospel, Maven non è solo un sistema di AI assisted targeting, ma una piattaforma di comando e controllo che offre anche “consapevolezza situazionale in tempo reale” – ovvero una rappresentazione di ciò che accade sul terreno, comprese posizioni delle forze amiche e nemiche, asset disponibili e minacce attive – e supporto alla pianificazione operativa: dalla generazione e valutazione delle azioni potenziali alla stesura di elementi utili per gli ordini operativi. Secondo gli stessi funzionari della NATO, che hanno siglato nel 2025 un contratto con Palantir per il suo utilizzo, Maven fornisce ai comandanti delle “abilità in stile videogioco” di supervisionare ciò che avviene sul campo di battaglia.

Che cosa fanno i modelli linguistici

E allora i large language model? Prima di vedere i loro usi più avanzati e il modo in cui Claude prima e ChatGPT poi (dopo lo scontro tra Anthropic e il Pentagono) stanno venendo integrati in Maven e in altri sistemi bellici, partiamo dagli impieghi più semplici. In modo non dissimile dai suoi utilizzi civili – ma sfruttando delle versioni appositamente ottimizzate – i modelli linguistici vengono impiegati dagli eserciti per riassumere i manuali operativi, i rapporti delle missioni, i briefing dell’intelligence e altro ancora. Viceversa, possono essere utilizzati anche per generare, a partire dalle indicazioni dei soldati, rapporti, traduzioni, trascrizioni e documentazione di vario tipo.

Durante le esercitazioni, questi sistemi possono anche contribuire alla generazione di scenari bellici; mentre nell’ambito della medicina militare, gli LLM vengono utilizzati per sintetizzare cartelle cliniche e storia medica dei pazienti, consentendo ai medici di campo un accesso rapido alle informazioni essenziali. Possono inoltre essere usati – in maniera simile al “civile” Claude for Healthcare – come strumenti di supporto decisionale, in grado di confrontare opzioni terapeutiche e assistere i medici nelle loro valutazioni.

Nei casi più avanzati, bisogna invece immaginare l’impiego bellico di Claude o ChatGPT come una “interfaccia di conversazione” integrata, per esempio, in Maven Smart System, che permette agli utenti di interpretare più facilmente le informazioni provenienti dalle piattaforme di supporto decisionale. Messa così, può sembrare una cosa da poco. In realtà – come scrive James O’Donnell sulla MIT Tech Review – “è difficile sopravvalutare tutto ciò: l’intelligenza artificiale già da tempo svolge compiti di analisi per i militari, estraendo informazioni utili da un oceano di dati”. Oltre a permettere di navigarli sfruttando il linguaggio naturale e ricevendo risposte immediatamente comprensibili, “l’uso dell’AI generativa permette di ottenere consigli su quale azione intraprendere sul campo, una funzione che sta venendo testata sul serio per la prima volta in Iran”.

Il large language model viene quindi integrato nelle piattaforme predittive per rendere più facilmente comprensibile la complessità delle informazioni da essi ricavate: “Una possibile applicazione potrebbe consistere nell’assistere i comandanti militari nel prendere la decisione giusta alla velocità richiesta, supportando lo staff nello sviluppo, nella valutazione e nella raccomandazione delle opzioni operative disponibili (Courses of Action, COA)”, si legge sulla rivista del Joint Air Power Competence Centre (un centro di ricerca della NATO). “Gli LLM potrebbero inoltre aiutare l’operatore umano nell’analisi e nella valutazione dei dati in tempo reale, accorciando così il ciclo operativo e fornendo un vantaggio decisivo sul campo di battaglia”.

Per fare un (teorico) esempio concreto, possiamo immaginare il seguente scenario: durante un conflitto, i sistemi predittivi rilevano un’anomalia termica in un complesso industriale nemico, i sensori intercettano un picco di comunicazioni crittografate nella stessa area e un drone cattura immagini di veicoli classificati come lanciatori missilistici mobili. Il modello linguistico integrato nella piattaforma di comando incrocia questi dati, provenienti da tre sistemi diversi, con i rapporti di intelligence ricevuti nelle settimane precedenti. In questo modo, individua che lo stesso sito era già stato segnalato come possibile deposito e che il pattern delle comunicazioni somiglia a quelli osservati prima di lanci precedenti. In pochi minuti – anziché nelle ore che servirebbero a un team di analisti – genera un briefing sintetico con tre possibili azioni: attacco, sorveglianza intensificata, richiesta di conferma. Il comandante lo legge, interroga il sistema su ulteriori aspetti specifici e decide il da farsi.

In sintesi, Maven unisce i dati provenienti da satelliti, droni, report di intelligence e segnali radar. Claude o ChatGPT, integrati nella stessa piattaforma, analizzano questi dati, li rendono consultabili in linguaggio naturale e possono fornire suggerimenti sull’azione da intraprendere o la forza da impiegare. Nel corso degli attacchi in Iran, scrive il Washington Post, “Maven ha suggerito centinaia di obiettivi, fornito coordinate di localizzazione precise e dato priorità a questi obiettivi in base alla loro importanza. L’integrazione tra Maven e Claude ha creato uno strumento che sta accelerando il ritmo della campagna, riducendo la capacità dell’Iran di contrattaccare e trasformando una pianificazione delle operazioni che richiedeva settimane in operazioni in tempo reale”. Uno studio della Georgetown University ha invece analizzato i modi in cui il 18° Airborne Corps dell’esercito statunitense utilizza Maven e Claude, concludendo, tra le altre cose, che consente di fare con una squadra di 20 persone ciò che prima ne avrebbe richieste duemila.

Nel 2024 è stata poi siglata una collaborazione tra Anduril – startup che produce armi autonome e semiautonome, come il drone Altius-600M, l’aereo da guerra autonomo Fury e il sottomarino da battaglia Dive-LD – e OpenAI. Come si legge ancora sulla MIT Tech Review, “Anduril addestra da tempo i propri modelli di intelligenza artificiale per analizzare riprese video e dati dei sensori al fine di identificare le minacce. Ciò su cui si concentra meno sono invece i sistemi di AI conversazionale che consentono ai soldati di interrogare direttamente questi sistemi o ricevere indicazioni in linguaggio naturale. Ed è in questo spazio che i modelli di OpenAI potrebbero inserirsi”.

Qualcosa si muove anche in Europa, dove la francese Mistral AI ha siglato alla fine del 2025 un accordo quadro triennale con il ministero delle Forze Armate di Parigi per integrare i propri modelli linguistici nelle operazioni di esercito, marina e aviazione, oltre che in enti strategici come il commissariato per l’energia atomica e il centro di ricerca aerospaziale ONERA. Gli impieghi previsti sono simili a quelli statunitensi: analisi documentale, traduzione, redazione di briefing, supporto decisionale. In questo caso, Mistral sfrutta esclusivamente l’infrastruttura informatica francese, al riparo dai potenziali sguardi indiscreti del cloud statunitense.

Le criticità dell’IA in guerra

In sintesi, i modelli linguistici impiegati in ambito militare sono complementari ai modelli predittivi e spesso integrati nelle stesse piattaforme, permettendo, tra le altre cose, di analizzare con maggiore facilità e rapidità la grande mole di dati raccolta ed elaborata dai sistemi di supporto decisionale.

Che cosa succede, però, quando l’obiettivo principale per il quale si sfruttano questi sistemi di “supporto decisionale” – in cui quindi l’ultima parola spetta agli esseri umani – è aumentare al massimo la velocità con cui si opta per una particolare strategia o si reagisce a uno scenario inatteso? “Avevo a disposizione 20 secondi per ciascun bersaglio, valutandone dozzine ogni giorno”, ha raccontato al Guardian un soldato israeliano che utilizzava Lavender. “Non avevo nessun valore aggiunto come essere umano, se non il fatto di apporre il timbro di approvazione”.

Nel momento in cui la velocità diventa l’imperativo fondamentale, l’essere umano è quasi d’intralcio alla macchina, che quindi da sistema di supporto decisionale rischia di diventare il “sistema decisionale”, mentre i soldati e gli ufficiali si limitano a certificare la loro approvazione alle decisioni prese dalla macchina. Una situazione che è ulteriormente esacerbata dall’integrazione dei modelli linguistici: “Mentre l’interfaccia di Maven costringe gli utenti a ispezionare e interpretare direttamente i dati presenti sulla mappa, i risultati forniti dai modelli generativi sono più semplici da ottenere ma più difficili da verificare”, scrive ancora James O’Donnell.

“Il cambio di paradigma cruciale è che l’IA permette all’esercito statunitense di individuare bersagli alla velocità della macchina invece che a quella umana”, ha spiegato, parlando con il Washington Post, Paule Scharre, vicepresidente del Center for a New American Security. “Il lato negativo è che l’intelligenza artificiale sbaglia e abbiamo bisogno di esseri umani per controllare i suoi output, soprattutto quando ci sono in ballo delle vite”.

Il controllo umano è però tanto indispensabile quanto problematico. Prima di tutto perché, inevitabilmente, riduce la velocità, ma anche perché la capacità degli esseri umani di supervisionare, correggere o ignorare le decisioni della macchina è regolarmente sovrastimata. Le ragioni sono varie e in parte già note: uno studio pubblicato di recente dalla Wharton School definisce “resa cognitiva” il fenomeno per cui gli utenti dei modelli linguistici tendono a dedicare sempre meno tempo alla verifica dei risultati. È una sorta di versione ancora più insidiosa del noto “automation bias”, secondo cui le persone si fidano del giudizio della macchina a causa della patina di oggettività che circonda (erroneamente) questi strumenti statistici e del modo in cui le loro capacità vengono magnificate senza essere adeguatamente problematizzate.

Un altro elemento che sta emergendo è quello del de-skilling causato dalla necessità di prendere decisioni sempre più rapide, che spinge a delegare un numero crescente di responsabilità decisionali alla macchina: “Stiamo riducendo le nostre stesse abilità”, ha spiegato Elke Schwarz, docente del dipartimento di Studi bellici dell’Università di Londra. “I comandanti stanno diventando sempre meno abili a identificare ciò di cui sono responsabili in un campo di battaglia”.

Tutto ciò è ulteriormente complicato dalla tendenza di questi sistemi – ormai accertata e anche ammessa dagli stessi sviluppatori – a dare ragione agli utenti con troppa facilità (fenomeno chiamato AI Sycophancy). Per certi versi, è il contrario dell’automation bias: se nel primo caso sono gli umani che si fidano troppo della macchina, in questo caso sono le macchine che tendono a confermare ciò che gli umani vogliono sentirsi dire, con il rischio che, sul campo di battaglia, i soldati sfruttino questi sistemi, magari inconsapevolmente, per ottenere una conferma di decisioni già prese, indipendentemente dalla loro bontà.

C’è poi il noto e ineliminabile problema delle allucinazioni (quando un sistema di intelligenza artificiale presenta come se fosse certa un’informazione invece sbagliata o completamente inventata), che potrebbero annidarsi in ogni sintesi di report, documento generato a partire dai dati o traduzione. Criticità che diventa ancora più allarmante se combinata alla tendenza dei modelli generativi, recentemente osservata, a prediligere nelle simulazioni l’escalation bellica rispetto a soluzioni più caute.

E questo senza nemmeno aver aperto il fondamentale capitolo dell’etica, della responsabilità (e tracciabilità) decisionale e della trasparenza, soprattutto considerando che – come riporta l’Independent – l’esercito statunitense non tiene traccia del ruolo giocato dall’IA nei singoli attacchi. “Uno stato ha la responsabilità di sapere se l’intelligenza artificiale è stata impiegata in uno qualsiasi dei suoi attacchi”, ha affermato Jessica Dorsey, professoressa di diritto internazionale dell’Università di Utrecht. “I comandanti dovrebbero avere accesso alle informazioni di intelligence su cui si basano i loro attacchi”.

Da questo punto di vista, un recente e tragico episodio avvenuto agli inizi dei bombardamenti sull’Iran riassume perfettamente quanto ciò possa essere problematico. Un numero schiacciante di prove indica che gli Stati Uniti siano responsabili dell’attacco alla scuola di Minab, in Iran, in cui hanno perso la vita 175 persone, la maggior parte delle quali studentesse. Attacco che potrebbe essere stato condotto a causa di dati di intelligence obsoleti, risalenti a quando il sito faceva effettivamente parte di una base navale adiacente delle Guardie Rivoluzionarie iraniane.

Considerando che Maven ha generato oltre mille opzioni di attacco solo nelle prime 24 ore, viene da porsi una domanda: e se l’errore fosse stato causato da una decisione sbagliata dell’intelligenza artificiale (come tra l’altro sospettato), magari a causa di un “pacchetto di bersagli” obsoleto ma che l’IA ha riciclato presentandolo in maniera convincente? Oppure se, più semplicemente, la quantità di bersagli individuati in un tempo rapidissimo non avesse dato ai militari il tempo necessario a verificare che fossero quelli giusti?

L’intelligenza artificiale potrebbe non essere responsabile di questa strage, ma di sicuro sta rendendo più complesso risalire la catena delle responsabilità. Tutti questi rischi e queste criticità vengono sollevate da anni dalle organizzazioni che chiedono di vietare – o almeno regolamentare rigidamente, a livello internazionale – l’impiego dell’intelligenza artificiale in ambito bellico. Quel treno, ormai, sembra però essere passato.

Fonte

Presentazione

11/05/2026

Cosa fa l’intelligenza artificiale in guerra

Nessun commento:

Posta un commento