Cos’è BabelTele e come la compressione del prompt cambia la comunicazione tra LLM

Cerca:

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
BabelTele - Il codice segreto degli LLM

BabelTele: quando i modelli si scrivono messaggi che noi non sappiamo leggere

Large Language Models Do Not Always Need Readable Language

Un gruppo di ricerca cinese ha chiesto a diversi LLM di comprimere testo per un altro LLM, senza vincoli di leggibilità umana. Il risultato è una scrittura quasi indecifrabile per noi, e che i modelli capiscono meglio di un riassunto normale.

arXiv:2606.19857
Zhu, Peng, Wang, Ke, Zhang, Zhang — 2026
23 pagine · 10 figure

Ci siamo fatti un’illusione fin dal primo giorno in cui abbiamo iniziato a dialogare con un modello linguistico: che per capirci si debba usare la nostra lingua. Quando configuriamo una pipeline di lavoro in cui un’intelligenza artificiale deve passare un’informazione a un’altra, continuiamo a scrivere frasi intere, a curare la sintassi e a inserire una punteggiatura da manuale.

Lo facciamo per abitudine, quasi per un riflesso antropomorfico.

Ma cosa succede se togliamo questo vincolo?

Un recente studio dimostra che, se lasciati liberi di parlarsi senza l’obbligo di farsi capire da noi, i modelli scelgono di abbandonare il linguaggio naturale. Creano un dialetto sintetico, un codice che per l’occhio umano è puro rumore, ma che per la macchina è incredibilmente più efficiente, denso ed esatto.

Pubblicità

01. Il problema che si nasconde nelle finestre di contesto

Il linguaggio naturale è pieno di ridondanza utile agli umani: sintassi completa, marcatori discorsivi, coerenza narrativa. Tutto questo ci aiuta a seguire un testo, a ricordarlo, a disambiguarlo, ma riduce la densità semantica. Da un punto di vista informazionale, è esattamente il tipo di overhead che un canale di comunicazione efficiente dovrebbe minimizzare, e diventa un problema concreto quando si parla di sistemi agentici a lungo termine: memoria che si accumula, agenti che si scambiano messaggi, documenti che superano la finestra di contesto disponibile.

I metodi di compressione del prompt esistenti, selezione di token informativi, riassunti astrattivi, riscrittura del contenuto recuperato, restano quasi sempre dentro i confini del linguaggio naturale leggibile. Gli autori si chiedono: se il destinatario non è un essere umano ma un altro LLM, è davvero necessario rispettare quel vincolo?

L’ombra di Claude Shannon: un nuovo equilibrio matematico

Dal punto di vista della Teoria dell’Informazione, BabelTele non fa altro che smascherare un compromesso storico con cui conviviamo da sempre. Già nel 1948, Claude Shannon dimostrò che in ogni canale di comunicazione il messaggio trasmesso è composto da due elementi: una quota di informazione pura e una di ridondanza. La ridondanza non è uno spreco inutile, ma un meccanismo di sicurezza necessario per tollerare il “rumore” di fondo e garantire che il destinatario decodifichi correttamente l’intento originale.

Il linguaggio naturale umano è, per necessità biologiche e cognitive, profondamente ridondante. Ci serve per sopperire a distrazioni, ambiguità o a una sintassi frammentata. Ma BabelTele applica un cambio di paradigma radicale: spinge i modelli verso un punto di equilibrio matematico completamente diverso. Rimuove la ridondanza progettata per la fallibilità umana e massimizza l’entropia informativa per ogni singolo token, sfruttando il fatto che un “lettore” artificiale possiede una capacità di decodifica e una tolleranza al rumore strutturalmente superiori alle nostre.

02. Cos’è BabelTele

Gli autori sono espliciti: BabelTele non è un protocollo fisso né un formato da imparare. È una famiglia di rappresentazioni testuali che emerge quando si chiede a un LLM, via prompt, di comprimere un testo per un lettore che è “altrettanto intelligente” (un altro modello) rilassando il vincolo della leggibilità umana. Niente fine-tuning, niente token speciali, niente accesso agli stati interni del modello: tutto avviene tramite API black-box, con un prompt ben costruito.

Il prompt di compressione si basa su tre principi:

  • Selezione lessicale omnilingue – il modello può ignorare i confini di una singola lingua e scegliere, parola per parola, l’unità linguistica a densità informativa più alta — pescando da inglese, cinese, radici latine, composti tedeschi, kanji giapponesi.
  • Collasso simbolico – congiunzioni, sfumature emotive e periodi lunghi vengono sostituiti con simboli matematici, operatori logici, emoji e punteggiatura.
  • Densità semantica recuperabile – il testo compresso deve restare interpretabile da un LLM capace, senza bisogno di un codebook esterno.
Forse potrebbe interessarti anche:  Vibe Coding: Cos'è, Come Funziona e Come Cambia lo Sviluppo Software

Esempio illustrativo:

Linguaggio naturale Stile BabelTele
“Il governo locale ha approvato un aumento del budget per la manutenzione stradale, ma solo per le strade costruite prima del 1990, escludendo esplicitamente le zone industriali.” Gov→budget↑ strade. if(anno<1990)✓ else✗. Zone industr=excl.

Esempio costruito per chiarire il principio; non riproduce gli esempi originali del paper.

03. Illeggibile per noi, perfettamente chiaro per loro

Qui arriva il dato più scomodo del paper. Misurato con l’indice di leggibilità Dale-Chall, BabelTele ottiene un punteggio di 16,70, contro valori molto più bassi per testo originale e riassunti,  con un’incidenza di parole “difficili” dell’80,19%. Anche la perplessità calcolata su modelli base (Llama-3-8B, le famiglie Qwen, DeepSeek, GLM) sale di un ordine di grandezza: per Llama-3-8B si passa da una perplessità di 9,63 sul testo originale a 176,60 su BabelTele.

In altre parole: non è un riassunto compatto, è un testo che si allontana sostanzialmente dalla distribuzione statistica del linguaggio naturale.

Per i lettori umani, la leggibilità collassa. Per Gemini 3.1 Pro, l’accuratezza nelle risposte aumenta.

I ricercatori hanno fatto leggere lo stesso materiale,  testo originale e versione BabelTele, sia a studenti universitari (tramite questionari retribuiti) sia a Gemini 3.1 Pro, chiedendo di rispondere a domande a scelta multipla. Gli umani, di fronte a BabelTele, scendono dal 56,10% al 35,80% di accuratezza. Gemini 3.1 Pro, sullo stesso materiale, sale dal 90% al 96,70%. Non è semplicemente che il modello “tollera” la compressione: la usa meglio del testo originale.

Dati chiave

  • 16,70 – punteggio Dale-Chall di BabelTele (più alto = meno leggibile)
  • +1.733% – aumento di perplessità su Llama-3-8B rispetto al testo originale
  • 35,80% – accuratezza umana su BabelTele (dal 56,10% del testo originale)
  • 96,70% – accuratezza di Gemini 3.1 Pro su BabelTele (dal 90% del testo originale)

04. Quanto si comprime davvero, e a quale costo

Sui benchmark QuALITY (comprensione di documenti lunghi) e MeetingBank (trascrizioni di riunioni), BabelTele viene confrontato con riassunti in linguaggio naturale e con LLMLingua-2, un metodo di compressione estrattiva allo stato dell’arte. Il risultato più solido è che BabelTele traccia una frontiera accuratezza-compressione più favorevole: quando la compressione si fa aggressiva, riassunto e LLMLingua-2 perdono accuratezza più rapidamente, mentre BabelTele tiene meglio, soprattutto su MeetingBank, dove resta vicino alle prestazioni originali anche con riduzioni di token molto forti.

C’è però un costo nascosto: una compressione più forte spesso induce il modello lettore a generare più token di ragionamento (chain-of-thought) per ricostruire l’informazione mancante. Il dato interessante è che BabelTele non introduce un sovraccarico peggiore di quello di riassunto o LLMLingua-2, in certi casi è persino inferiore. Gli autori lo leggono come una sorta di scambio spazio-tempo: i token risparmiati in ingresso vengono parzialmente “ripagati” in token di ragionamento in uscita, e scegliere un livello di compressione moderato permette di guadagnare su entrambi i fronti.

La vera posta in gioco: l’economia dei token

Oltre all’eleganza teorica e all’evoluzione delle architetture, c’è un motore estremamente pragmatico che spinge la ricerca verso sistemi come BabelTele: i costi infrastrutturali. Nel mercato dell’intelligenza artificiale, il token è l’unità di misura fondamentale non solo del linguaggio, ma del valore economico e del tempo di calcolo.

Rinunciare al lusso della leggibilità umana innesca un effetto a catena sui bilanci e sulle prestazioni industriali. Comprimere il testo in formati ad alta densità semantica si traduce in tre vantaggi competitivi immediati:

  • Meno token = Meno costi: L’accesso ai grandi modelli linguistici (API) si paga a volume. Ridurre la lunghezza dei prompt del 40% o persino del 75% nelle comunicazioni inter-macchina massive significa abbattere drasticamente la spesa operativa (OpEx) per le aziende che gestiscono milioni di iterazioni quotidiane.

  • Meno token = Più contesto disponibile: La finestra di contesto è la memoria a breve termine dell’IA, ed è uno spazio finito e costoso. Se le istruzioni e le conversazioni pregresse vengono condensate in una frazione del loro volume originale, si libera spazio prezioso per analizzare interi libri, vasti repository di codice o log di sistema complessi, aggirando il problema dei troncamenti.

  • Meno token = Più agenti contemporanei: Ridurre il payload dei messaggi abbassa la latenza e aumenta il throughput (la capacità di smaltimento del sistema). Questo sblocco prestazionale è ciò che rende tecnicamente sostenibili le architetture multi-agente: permette di far operare simultaneamente veri e propri “sciami” di IA che si scambiano informazioni in tempo reale, operazioni che oggi collasserebbero sotto il peso computazionale del linguaggio naturale.

Forse potrebbe interessarti anche:  Guida ai Transformers (Parte 1): Cos'è e Come Funziona l'Attention Mechanism

In sintesi, la compressione del prompt non è solo un affascinante esperimento linguistico: è la leva industriale necessaria per scalare le applicazioni IA di prossima generazione.

👉La fine della tassa premium sull’AI: perché il mercato sceglie i modelli cinesi open-weight

👉L’Inverno dei Token: Perché nel 2026 le Aziende Stanno Tagliando i Budget dell’IA Generativa

05. Un cifrario universale? Non proprio

La domanda più interessante per chi lavora con sistemi multi-modello è la trasferibilità: un testo compresso da un modello può essere letto da un altro? Testando la portabilità incrociata su LongBench v2 e QuALITY tra Gemini, GPT-5.4, Qwen, Kimi, DeepSeek, Doubao e Claude, emerge un quadro a metà strada: la comprensione cross-model funziona, ma non è uniforme. Gemini 3.1 Pro è il compressore più aggressivo, oltre il 95% di riduzione, mentre GPT-5.4 resta più conservativo, intorno al 75%. Testi compressi da GPT-5.4 e Claude risultano ampiamente portabili verso altri modelli lettori; quelli compressi da Qwen o Kimi mostrano cali di accuratezza più marcati.

Un altro test, condotto fissando il compressore (Gemini 3.1 Pro) e variando solo la dimensione del modello lettore all’interno della famiglia Qwen, mostra che il calo di accuratezza su BabelTele non si riduce in modo monotono con la scala del modello: un modello più grande non è automaticamente più bravo a “decifrare” BabelTele. La capacità di comprenderlo sembra legata a una robustezza specifica del modello, non solo alla sua taglia.

In sintesi

BabelTele non è un codice universale condiviso da tutti i modelli, ma nemmeno uno slang privato di un singolo modello. È una via di mezzo sistematica: i compressori più “capaci” producono forme simboliche che molti modelli, pur diversi tra loro, riescono comunque a interpretare senza alcun addestramento dedicato.

06. Dove potrebbe servire

Il paper non si ferma alla diagnostica e testa BabelTele in tre scenari applicativi concreti:

  1. Comunicazione multi-agente – tra due istanze dello stesso modello, BabelTele riduce i token scambiati del 38,96% mantenendo il 96,6% del punteggio originale del task. Tra modelli diversi (Gemini e GPT-5.4), la riduzione sale al 44,21% con il 99,7% del punteggio: la coppia eterogenea funziona persino meglio.
  2. Memoria degli agenti (benchmark LoCoMo) – rispetto a un riassunto standard, BabelTele conserva più dettagli utili a parità quasi di token, con un calo di accuratezza minimo rispetto al testo non compresso.
  3. Documenti più lunghi della finestra di contesto – quando il testo non entra comunque nel contesto del modello, comprimere con BabelTele batte il semplice troncamento: su un sottoinsieme di codice e documentazione lunga di LongBench v2, Qwen3.6-Max passa dal 55,17% al 62,07% di accuratezza, GLM-5.1 dal 62,07% al 72,41%.

Il prompt come risorsa ingegneristica

Fino a oggi abbiamo trattato il prompt design quasi come una branca della linguistica applicata o della comunicazione persuasiva: sceglievamo le parole giuste per “convincere” il modello a darci la risposta migliore. Questo studio sposta violentemente il baricentro.

Per chi progetta architetture software moderne , il prompt smette di essere prosa e diventa una risorsa ingegneristica da ottimizzare, esattamente come la gestione della memoria RAM o la larghezza di banda di una rete.

Quando si sviluppano pipeline agentiche complesse, flussi di automazione documentale o sistemi di memoria a lungo termine per archiviare e analizzare dati aziendali, la ridondanza della lingua umana è un costo. BabelTele dimostra che l’efficienza di un’infrastruttura si ottiene nel momento in cui la macchina viene lasciata libera di abbandonare l’interfaccia umana non appena l’uomo esce dalla stanza. Scrivere un prompt per un altro modello diventa un esercizio di compressione dati puro, dove il testo viene trattato come una stringa densa di vettori e operatori logici.

Forse potrebbe interessarti anche:  Chain of Hallucination (CoH): l’evoluzione delle allucinazioni nei modelli linguistici generativi

07. Limiti, rischi e perché vale la pena seguirlo

Gli stessi autori sono cauti: lo studio copre un insieme selezionato di benchmark e famiglie di modelli, e resta uno studio empirico, caratterizza il fenomeno senza spiegarne davvero il meccanismo sottostante. C’è anche un avvertimento pratico da non sottovalutare: trasformare un testo in una rappresentazione compatta e non standard può alterarne il comportamento in modi imprevisti, il che lo rende rischioso da applicare a cuor leggero in domini critici dal punto di vista della sicurezza.

Detto questo, il punto concettuale resta solido e, credo, utile a chiunque progetti pipeline con LLM: leggibilità umana, tipicità del linguaggio naturale e capacità del modello di recuperare il significato sono cose diverse, e si possono in parte separare. Ogni token che scriviamo pensando “deve essere chiaro per un umano” quando in realtà nessun umano lo leggerà mai è, in un certo senso, un token sprecato, e in un mondo dove il costo per token e la velocità di un’architettura agentica contano sempre di più, è una domanda che vale la pena tenersi in tasca.

La separazione della “filiera del significato” e il ruolo dell’AI Whisperer

L’adozione di dialetti sintetici inter-modello introduce una riflessione visionaria sul ruolo dei futuri supervisori dei flussi di intelligenza artificiale. Se i modelli iniziano a comunicare internamente tramite cifrari autonomi ed emergenti, assistiamo alla definitiva rottura della filiera del significato.

L’essere umano mantiene il controllo esclusivo sui confini del sistema:

  • A monte: Decide l’obiettivo e fornisce le linee guida iniziali (Input).

  • A valle: Verifica la correttezza del risultato e lo valida (Output).

Il paradosso è evidente: per rendere le risposte dei modelli più accurate, veloci ed economiche, accettiamo consapevolmente di rendere il loro processo di transito del tutto impenetrabile.

In questo scenario, la figura del supervisore o dell’AI Whisperer cambia pelle. Non sarà più un correttore di testi o un traduttore di intenzioni, ma un controllore doganale che operatesulla frontiera di un ecosistema inter-macchina. Dovrà accettare il fatto che, tra la domanda e la risposta, le intelligenze artificiali scambieranno informazioni usando uno slang privato, matematicamente inattaccabile per loro, ma totalmente opaco per la nostra specie.

In una frase

BabelTele è il modo in cui i modelli scrivono quando non devono più preoccuparsi di noi.

Scheda di verifica del paper

  • Titolo: Large Language Models Do Not Always Need Readable Language
  • Autori: J. Zhu, H. Peng, J. Wang, L. Ke, C. Zhang, L. Zhang
  • Affiliazioni: Shanghai Jiao Tong Univ., Univ. of Sydney, Hefei Univ. of Tech., Xi’an Jiaotong Univ., Nanjing Univ.
  • Pubblicato: 18 giugno 2026 (arXiv, cs.CL / cs.AI)
  • Identificativo: arXiv:2606.19857
  • Licenza: CC BY 4.0
  • Dataset usati: QuALITY, LongBench v2, MeetingBank, LoCoMo, DeepResearch Bench
  • Modelli testati: Gemini 3.1 Pro, GPT-5.4, Claude Sonnet 4.6, famiglie Qwen/Qwen2/Qwen3, DeepSeek-V4, Kimi K2.5/K2.6, GLM-5.1, Doubao-Seed-2.0, Llama 3
  • Link: arxiv.org/abs/2606.19857

Lettura critica di un preprint, in attesa di revisione paritaria.

Continua a leggere sul network:

Pubblicità