“La guerra è il dominio dell’incertezza: tre quarti delle cose su cui si basa
l’azione bellica giacciono nella nebbia di un’incertezza più o meno grande”. A
due secoli di distanza dal
trattato di strategia militare Della guerra
di Von Clausewitz, potremmo dire che, oggi, uno dei principali obiettivi
dell’impiego dei sistemi d’intelligenza artificiale in ambito bellico è proprio
quello di dissipare quanto più possibile la celeberrima “nebbia della guerra”
teorizzata nell’Ottocento dal generale prussiano.
Navigare e
pattugliare territori estesi mediante droni a guida autonoma, riconoscere e
classificare rapidamente gli obiettivi che compaiono in video e immagini,
ottenere un’analisi predittiva delle minacce, stimare i potenziali danni
collaterali, rilevare anomalie. Tutti gli impieghi militari dell’intelligenza
artificiale hanno principalmente due scopi: ridurre l’incertezza – raccogliendo,
filtrando e interpretando enormi quantità di dati provenienti da sensori,
satelliti, droni e sistemi di intelligence – e aumentare la velocità
decisionale, valutando le opzioni operative in tempi ridotti, stimando rischi e
conseguenze, coordinando le unità e reagendo quasi in tempo reale agli sviluppi
del conflitto.
Il paradosso è che questi algoritmi predittivi – che
aggregano migliaia di dati di intelligence raccolti da centinaia di fonti
diverse – in molti casi rischiano di infittire, invece che diradare, la nebbia
della guerra, perché producono una tale quantità di informazioni da rendere la
loro interpretazione e gestione particolarmente complessa. Ed è qui che entrano
in gioco i modelli linguistici di OpenAI, Anthropic, xAI e, in Europa, Mistral,
il cui compito è aiutare a dissipare la coltre di nebbia provocata dall’enorme
mole di dati prodotti dai sistemi predittivi.
Il ruolo cruciale dell’IA predittiva
Che cosa fa infatti un chatbot pressoché identico a quelli
che usiamo nella vita quotidiana quando è utilizzato in ambito bellico? Prima di
tutto, bisogna chiarire alcuni aspetti importanti. Come mostrato anche
da un paper
della NATO Science and Technology Organization, si tende infatti a fare
confusione tra gli impieghi degli algoritmi predittivi (che analizzano dati per
individuare schemi, classificare eventi e stimare probabilità future) e quelli
invece generativi (capaci di generare probabilisticamente testo, immagini, video
o altro).
I large language model non possono riconoscere
automaticamente i bersagli, non guidano i missili o i droni, non raccolgono
informazioni, non analizzano direttamente i dati dei sensori e non eseguono
autonomamente azioni nel mondo reale. La capacità fondamentale di ChatGPT e dei
suoi compagni è infatti (provare a) comprendere, elaborare e generare il
linguaggio umano sulla base del dataset testuale su cui sono stati
addestrati.
Sul campo di battaglia, il grosso del lavoro sporco lo
svolgono quindi i sistemi basati su algoritmi predittivi. Due dei casi più
(tristemente) noti sono quelli relativi alle piattaforme di intelligenza
artificiale massicciamente impiegate dall’esercito israeliano durante
l’invasione di Gaza:
The Gospel
e
Lavender.
The Gospel analizza direttamente i dati raccolti tramite
intelligence e sorveglianza per identificare obiettivi infrastrutturali –
edifici, tunnel, depositi – che vengono poi colpiti dall’esercito. Secondo l’ex
capo dell’IDF Aviv Kochavi, questo sistema
è in grado di individuare
fino a 100 bersagli al giorno: “Per dare una prospettiva”, ha spiegato Kochavi,
“in passato ottenevamo 50 obiettivi all’anno”.
Lavender è invece un
sistema statistico che assegna a ogni individuo presente nella Striscia di Gaza
un punteggio relativo alla probabilità di appartenenza a gruppi armati,
elaborando dati provenienti anche in questo caso da intelligence e sorveglianza,
oltre a segnali comportamentali e indicatori demografici. Secondo
le inchieste
del magazine israeliano +972, nel corso del conflitto Lavender ha identificato –
con un margine di errore accettato del 10% – circa 37mila palestinesi come
potenziali bersagli.
Per quanto invece riguarda gli Stati Uniti (e la
NATO), il più diffuso sistema di supporto decisionale (DSS, decision support
system) è il Maven Smart System. Sviluppato a partire dal 2017 da Palantir –
subentrata dopo il passo indietro di Google, che al tempo aveva rinunciato in
seguito alle proteste dei dipendenti – in collaborazione con Amazon (che
fornisce in appoggio la piattaforma cloud AWS), una prima versione di Maven è
stata impiegata nel 2021 durante il ritiro statunitense dall’Afghanistan.
Successivamente è stato utilizzato in supporto a Israele durante l’invasione di
Gaza ed è fino a oggi stato impiegato anche per gli attacchi contro l’Iran.
A
differenza di The Gospel, Maven non è solo un sistema di AI assisted targeting,
ma una piattaforma di comando e controllo che offre anche “consapevolezza
situazionale in tempo reale” – ovvero una rappresentazione di ciò che accade sul
terreno, comprese posizioni delle forze amiche e nemiche, asset disponibili e
minacce attive – e supporto alla pianificazione operativa: dalla generazione e
valutazione delle azioni potenziali alla stesura di elementi utili per gli
ordini operativi. Secondo gli stessi funzionari della NATO, che hanno siglato
nel 2025 un contratto con Palantir per il suo utilizzo,
Maven fornisce ai comandanti
delle “abilità in stile videogioco” di supervisionare ciò che avviene sul campo
di battaglia.
Che cosa fanno i modelli linguistici
E allora i
large language model? Prima di vedere i loro usi più avanzati e il modo in cui
Claude prima e ChatGPT poi (dopo lo scontro tra Anthropic e il Pentagono) stanno venendo integrati in Maven e in altri sistemi bellici, partiamo dagli
impieghi più semplici. In modo non dissimile dai suoi utilizzi civili – ma
sfruttando delle versioni appositamente ottimizzate – i modelli linguistici
vengono impiegati dagli eserciti per riassumere i manuali operativi, i rapporti
delle missioni, i briefing dell’intelligence e altro ancora. Viceversa, possono
essere utilizzati anche per generare, a partire dalle indicazioni dei soldati,
rapporti, traduzioni, trascrizioni e documentazione di vario tipo.
Durante
le esercitazioni, questi sistemi possono anche contribuire alla generazione di
scenari bellici; mentre nell’ambito della medicina militare, gli LLM vengono
utilizzati per sintetizzare cartelle cliniche e storia medica dei pazienti,
consentendo ai medici di campo un accesso rapido alle informazioni essenziali.
Possono inoltre essere usati – in maniera simile al “civile”
Claude for Healthcare –
come strumenti di supporto decisionale, in grado di confrontare opzioni
terapeutiche e assistere i medici nelle loro valutazioni.
Nei casi
più avanzati, bisogna invece immaginare l’impiego bellico di Claude o ChatGPT
come una “interfaccia di conversazione” integrata, per esempio, in Maven Smart
System, che permette agli utenti di interpretare più facilmente le informazioni
provenienti dalle piattaforme di supporto decisionale. Messa così, può sembrare
una cosa da poco. In realtà – come
scrive
James O’Donnell sulla MIT Tech Review – “è difficile sopravvalutare tutto ciò:
l’intelligenza artificiale già da tempo svolge compiti di analisi per i
militari, estraendo informazioni utili da un oceano di dati”. Oltre a permettere
di navigarli sfruttando il linguaggio naturale e ricevendo risposte
immediatamente comprensibili, “l’uso dell’AI generativa permette di ottenere
consigli su quale azione intraprendere sul campo, una funzione che sta venendo
testata sul serio per la prima volta in Iran”.
Il large language
model viene quindi integrato nelle piattaforme predittive per rendere più
facilmente comprensibile la complessità delle informazioni da essi ricavate:
“Una possibile applicazione potrebbe consistere nell’assistere i comandanti
militari nel prendere la decisione giusta alla velocità richiesta, supportando
lo staff nello sviluppo, nella valutazione e nella raccomandazione delle opzioni
operative disponibili (Courses of Action, COA)”, si
legge
sulla rivista del Joint Air Power Competence Centre (un centro di ricerca della
NATO). “Gli LLM potrebbero inoltre aiutare l’operatore umano nell’analisi e
nella valutazione dei dati in tempo reale, accorciando così il ciclo operativo e
fornendo un vantaggio decisivo sul campo di battaglia”.
Per fare un
(teorico) esempio concreto, possiamo immaginare il seguente scenario: durante un
conflitto, i sistemi predittivi rilevano un’anomalia termica in un complesso
industriale nemico, i sensori intercettano un picco di comunicazioni
crittografate nella stessa area e un drone cattura immagini di veicoli
classificati come lanciatori missilistici mobili. Il modello linguistico
integrato nella piattaforma di comando incrocia questi dati, provenienti da tre
sistemi diversi, con i rapporti di intelligence ricevuti nelle settimane
precedenti. In questo modo, individua che lo stesso sito era già stato segnalato
come possibile deposito e che il pattern delle comunicazioni somiglia a quelli
osservati prima di lanci precedenti. In pochi minuti – anziché nelle ore che
servirebbero a un team di analisti – genera un briefing sintetico con tre
possibili azioni: attacco, sorveglianza intensificata, richiesta di conferma. Il
comandante lo legge, interroga il sistema su ulteriori aspetti specifici e
decide il da farsi.
In sintesi, Maven unisce i dati provenienti da
satelliti, droni, report di intelligence e segnali radar. Claude o ChatGPT,
integrati nella stessa piattaforma, analizzano questi dati, li rendono
consultabili in linguaggio naturale e possono fornire suggerimenti sull’azione
da intraprendere o la forza da impiegare. Nel corso degli attacchi in Iran,
scrive
il Washington Post, “Maven ha suggerito centinaia di obiettivi, fornito
coordinate di localizzazione precise e dato priorità a questi obiettivi in base
alla loro importanza. L’integrazione tra Maven e Claude ha creato uno strumento
che sta accelerando il ritmo della campagna, riducendo la capacità dell’Iran di
contrattaccare e trasformando una pianificazione delle operazioni che richiedeva
settimane in operazioni in tempo reale”. Uno
studio
della Georgetown University ha invece analizzato i modi in cui il 18° Airborne
Corps dell’esercito statunitense utilizza Maven e Claude, concludendo, tra le
altre cose, che consente di fare con una squadra di 20 persone ciò che prima ne
avrebbe richieste duemila.
Nel 2024 è stata poi siglata una
collaborazione tra Anduril – startup che produce armi autonome e semiautonome,
come il drone Altius-600M, l’aereo da guerra autonomo Fury e il sottomarino da
battaglia Dive-LD – e OpenAI. Come si legge ancora sulla MIT Tech Review,
“Anduril addestra da tempo i propri modelli di intelligenza artificiale per
analizzare riprese video e dati dei sensori al fine di identificare le minacce.
Ciò su cui si concentra meno sono invece i sistemi di AI conversazionale che
consentono ai soldati di interrogare direttamente questi sistemi o ricevere
indicazioni in linguaggio naturale. Ed è in questo spazio che i modelli di
OpenAI potrebbero inserirsi”.
Qualcosa si muove anche in Europa, dove
la francese Mistral AI ha siglato alla fine del 2025 un accordo quadro triennale
con il ministero delle Forze Armate di Parigi per integrare i propri modelli
linguistici nelle operazioni di esercito, marina e aviazione, oltre che in enti
strategici come il commissariato per l’energia atomica e il centro di ricerca
aerospaziale ONERA. Gli impieghi previsti sono simili a quelli statunitensi:
analisi documentale, traduzione, redazione di briefing, supporto decisionale. In
questo caso, Mistral sfrutta esclusivamente l’infrastruttura informatica
francese, al riparo
dai potenziali sguardi indiscreti
del cloud statunitense.
Le criticità dell’IA in guerra
In
sintesi, i modelli linguistici impiegati in ambito militare sono complementari
ai modelli predittivi e spesso integrati nelle stesse piattaforme, permettendo,
tra le altre cose, di analizzare con maggiore facilità e rapidità la grande mole
di dati raccolta ed elaborata dai sistemi di supporto decisionale.
Che
cosa succede, però, quando l’obiettivo principale per il quale si sfruttano
questi sistemi di “supporto decisionale” – in cui quindi l’ultima parola spetta
agli esseri umani – è aumentare al massimo la velocità con cui si opta per una
particolare strategia o si reagisce a uno scenario inatteso? “Avevo a
disposizione 20 secondi per ciascun bersaglio, valutandone dozzine ogni giorno”,
ha
raccontato
al Guardian un soldato israeliano che utilizzava Lavender. “Non avevo nessun
valore aggiunto come essere umano, se non il fatto di apporre il timbro di
approvazione”.
Nel momento in cui la velocità diventa l’imperativo
fondamentale, l’essere umano è quasi d’intralcio alla macchina, che quindi da
sistema di supporto decisionale rischia di diventare il “sistema decisionale”,
mentre i soldati e gli ufficiali si limitano a certificare la loro approvazione
alle decisioni prese dalla macchina. Una situazione che è ulteriormente
esacerbata dall’integrazione dei modelli linguistici: “Mentre l’interfaccia di
Maven costringe gli utenti a ispezionare e interpretare direttamente i dati
presenti sulla mappa, i risultati forniti dai modelli generativi sono più
semplici da ottenere ma più difficili da verificare”,
scrive
ancora James O’Donnell.
“Il cambio di paradigma cruciale è che l’IA permette all’esercito statunitense di individuare bersagli alla velocità della
macchina invece che a quella umana”, ha spiegato,
parlando
con il Washington Post, Paule Scharre, vicepresidente del Center for a New
American Security. “Il lato negativo è che l’intelligenza artificiale sbaglia e
abbiamo bisogno di esseri umani per controllare i suoi output, soprattutto
quando ci sono in ballo delle vite”.
Il controllo umano è però tanto
indispensabile quanto problematico. Prima di tutto perché, inevitabilmente,
riduce la velocità, ma anche perché la capacità degli esseri umani di
supervisionare, correggere o ignorare le decisioni della macchina è regolarmente
sovrastimata. Le ragioni sono varie e in parte già note: uno
studio pubblicato di recente
dalla Wharton School definisce “resa cognitiva” il fenomeno per cui gli utenti
dei modelli linguistici tendono a dedicare sempre meno tempo alla verifica dei
risultati. È una sorta di versione ancora più insidiosa del noto “automation
bias”, secondo cui le persone si fidano del giudizio della macchina a causa
della patina di oggettività che circonda (erroneamente) questi strumenti statistici e del modo in cui le loro capacità vengono
magnificate senza essere adeguatamente problematizzate.
Un altro
elemento che sta emergendo è quello del de-skilling causato dalla necessità di
prendere decisioni sempre più rapide, che spinge a delegare un numero crescente
di responsabilità decisionali alla macchina: “Stiamo riducendo le nostre stesse
abilità”, ha spiegato Elke Schwarz, docente del dipartimento di Studi bellici
dell’Università di Londra. “I comandanti stanno diventando sempre meno abili a
identificare ciò di cui sono responsabili in un campo di battaglia”.
Tutto
ciò è ulteriormente complicato dalla tendenza di questi sistemi – ormai
accertata e anche ammessa dagli stessi sviluppatori – a dare ragione agli utenti
con troppa facilità (fenomeno chiamato
AI Sycophancy). Per certi versi, è il contrario dell’automation bias: se nel primo caso sono
gli umani che si fidano troppo della macchina, in questo caso sono le macchine
che tendono a confermare ciò che gli umani vogliono sentirsi dire, con il
rischio che, sul campo di battaglia, i soldati sfruttino questi sistemi, magari
inconsapevolmente, per ottenere una conferma di decisioni già prese,
indipendentemente dalla loro bontà.
C’è poi il noto e ineliminabile
problema delle allucinazioni (quando un sistema di intelligenza artificiale
presenta come se fosse certa un’informazione invece sbagliata o completamente
inventata), che potrebbero annidarsi in ogni sintesi di report, documento
generato a partire dai dati o traduzione. Criticità che diventa ancora più
allarmante se combinata alla tendenza dei modelli generativi,
recentemente osservata, a prediligere nelle simulazioni l’escalation bellica rispetto a soluzioni più
caute.
E questo senza nemmeno aver aperto il fondamentale capitolo
dell’etica, della responsabilità (e tracciabilità) decisionale e della
trasparenza, soprattutto considerando che – come
riporta
l’Independent – l’esercito statunitense non tiene traccia del ruolo giocato
dall’IA nei singoli attacchi. “Uno stato ha la responsabilità di sapere se
l’intelligenza artificiale è stata impiegata in uno qualsiasi dei suoi
attacchi”, ha affermato Jessica Dorsey, professoressa di diritto internazionale
dell’Università di Utrecht. “I comandanti dovrebbero avere accesso alle
informazioni di intelligence su cui si basano i loro attacchi”.
Da
questo punto di vista, un recente e tragico episodio avvenuto agli inizi dei
bombardamenti sull’Iran riassume perfettamente quanto ciò possa essere
problematico. Un
numero schiacciante di prove
indica che gli Stati Uniti siano responsabili dell’attacco alla scuola di Minab,
in Iran, in cui hanno perso la vita 175 persone, la maggior parte delle quali
studentesse. Attacco che potrebbe essere stato condotto a causa di dati di
intelligence obsoleti, risalenti a quando il sito faceva effettivamente parte di
una base navale adiacente delle Guardie Rivoluzionarie iraniane.
Considerando
che Maven ha generato oltre mille opzioni di attacco solo nelle prime 24 ore,
viene da porsi una domanda: e se l’errore fosse stato causato da una decisione
sbagliata dell’intelligenza artificiale (come tra l’altro
sospettato), magari
a causa di un “pacchetto di bersagli” obsoleto
ma che l’IA ha riciclato presentandolo in maniera convincente? Oppure se, più
semplicemente, la quantità di bersagli individuati in un tempo rapidissimo non
avesse dato ai militari il tempo necessario a verificare che fossero quelli
giusti?
L’intelligenza artificiale potrebbe non essere responsabile
di questa strage, ma di sicuro sta rendendo più complesso risalire la catena
delle responsabilità. Tutti questi rischi e queste criticità vengono sollevate
da anni dalle organizzazioni che
chiedono di vietare – o almeno
regolamentare rigidamente, a livello internazionale – l’impiego
dell’intelligenza artificiale in ambito bellico. Quel treno, ormai, sembra però
essere passato.
Fonte
Nessun commento:
Posta un commento