Multi‑Armed Bandit: Epsilon‑Greedy vs Thompson Sampling

Notiamo che stai usando un AdBlocker.

Gli annunci pubblicitari ci aiutano a mantenere questo sito gratuito e accessibile a tutti. Ti saremmo davvero grati se volessi disattivare AdBlocker per il nostro sito: niente pubblicità invasive, promesso! Grazie per il tuo supporto ❤️Our team work realy hard to produce quality content on this website and we noticed you have ad-blocking enabled.

differenza tra Epsilon‑Greedy e Thompson Sampling spiegata semplice

Multi-Armed Bandit: Come YouTube, TikTok e Spotify Scelgono Cosa Mostrarti

Hai presente quando apri TikTok “solo per cinque minuti” e ti ritrovi a scorrere lo schermo un’ora dopo?

O quando Spotify indovina la traccia perfetta per il tuo umore, anche se non hai mai ascoltato quell’artista prima?

Non è telepatia e non è un caso.

Dietro queste dinamiche lavora un algoritmo invisibile che risolve in tempo reale un dubbio che assilla da sempre psicologi, economisti e, oggi, i data scientist delle più grandi piattaforme digitali: conviene andare sul sicuro o rischiare per trovare qualcosa di meglio?

Questo eterno conflitto si chiama exploration-exploitation dilemma (il dilemma tra esplorazione e sfruttamento).

La risposta matematica a questo problema si nasconde dietro una famiglia di modelli predittivi chiamati Multi-Armed Bandit.

Parliamo dei veri motori della Decision Intelligence, capaci di decidere, in una frazione di secondo, cosa catturerà la tua attenzione nei prossimi dieci minuti. In questo articolo esploreremo come funzionano, perché le vecchie logiche di analisi dei dati sono diventate obsolete e come ricreare il loro meccanismo decisionale in Python.

Il Problema dell’Esplorazione e dello Sfruttamento

Immagina di entrare in un casinò. Davanti a te ci sono quattro slot machine. Storicamente, queste macchine a leva venivano chiamate “banditi con un braccio solo”, da qui il curioso nome Multi-Armed Bandit (bandito a più braccia). Non conosci le probabilità di vincita di nessuna di esse. Dopo aver inserito qualche moneta e fatto i primissimi tentativi, noti uno schema:

Slot A: paga molto raramente.
Slot B: sembra promettente, elargendo piccole vincite frequenti.
Slot C: ha dato risultati imprevedibili e incerti.
Slot D: non hai ancora avuto modo di provarla.

A questo punto il tuo cervello deve prendere una decisione.

Puoi continuare a giocare esclusivamente con la Slot B, massimizzando il tuo ritorno economico immediato in base a ciò che sai già (Sfruttamento o Exploitation). Oppure, puoi investire tempo e monete per testare la Slot D o raccogliere più dati sulla Slot C, sperando che a lungo termine si rivelino opzioni molto più redditizie (Esplorazione o Exploration).

Questo è l’esatto problema affrontato dai moderni sistemi di raccomandazione. Ogni video, canzone o prodotto presente su una piattaforma rappresenta una slot machine.

Ogni volta che fai un click, lasci un like o guardi un contenuto fino alla fine, il sistema incassa la sua “vincita”, che in gergo tecnico viene definita reward (ricompensa).

Perché l’A/B Testing Non Basta Più

Fino a pochi anni fa, lo standard assoluto per capire cosa piacesse al pubblico era l’A/B Testing. Si dividevano gli utenti in due gruppi, si mostrava a ciascuno una variante diversa e, dopo un periodo di raccolta dati, si analizzavano i numeri per eleggere il vincitore. Questo metodo funziona egregiamente per elementi statici, come decidere il colore di un pulsante su un sito web aziendale.

Ma cosa succede in un ecosistema digitale vivo e frenetico?

I volumi sono giganteschi: arrivano milioni di utenti unici ogni giorno.
La freschezza è tutto: vengono caricati migliaia di nuovi contenuti al minuto.
I trend sono effimeri: ciò che è virale al mattino potrebbe essere noioso la sera.

Aspettare settimane per completare un test statistico non è sostenibile. Nel frattempo, avresti sprecato l’opportunità di mostrare il contenuto perfetto a milioni di persone. Serve un sistema capace di imparare continuamente sul campo, ottimizzando i risultati mentre raccoglie le informazioni.

Forse potrebbe interessarti anche: Come analizzare i trend di mercato tech con Python e Google Trends: Guida Strategica

I Giganti del Web e le Scelte in Tempo Reale

Ogni azienda tech utilizza queste logiche adattandole al proprio modello di business, ma tutte condividono la necessità di non annoiare mai l’utente.

YouTube e la Corsa all’Attenzione

Quando YouTube deve riempire i primi slot della tua homepage, affronta un rischio enorme. Se ti proponesse unicamente video dei creator che già segui assiduamente, chiuderebbe le tue abitudini in una bolla. Prima o poi, ti stancheresti. Se invece ti mostrasse solo video di perfetti sconosciuti, l’esperienza utente crollerebbe e chiuderesti l’applicazione. L’algoritmo crea un mix: sfrutta le sue certezze (i tuoi canali preferiti) per tenerti incollato allo schermo, ma riserva sempre uno o due spazi esplorativi per sondare il terreno con un argomento nuovo.

TikTok: L’Ecosistema Ideale

Nessun ambiente digitale esalta i Multi-Armed Bandit quanto TikTok. Il suo formato immersivo a schermo intero è un laboratorio ininterrotto. Ogni video genera metriche comportamentali repentine: i millisecondi impiegati per decidere di fare swipe, i like, le condivisioni. L’algoritmo riceve una mole di feedback spaventosa in pochissimo tempo, permettendogli di correggere il tiro in tempo reale e costruire un feed “Per Te” con una precisione che rasenta l’inquietudine.

Netflix e le Miniature Dinamiche

È facile pensare che Netflix utilizzi i Bandit solo per scegliere quale serie suggerirti. In realtà, il livello di personalizzazione scende molto più nel dettaglio. L’algoritmo deve decidere quale miniatura mostrarti per lo stesso titolo. Se ami le commedie romantiche e c’è un film d’azione che contiene una lieve sottotrama amorosa, il sistema potrebbe testare una copertina che enfatizza l’attore romantico anziché le esplosioni. Ogni grafica è un “braccio” del bandito che lotta per ottenere il tuo click.

Spotify e la Mappatura Musicale

Supponiamo che la tua libreria sia composta per il 90% da brani rock anni ’70. Spotify potrebbe comodamente adagiarsi su questa informazione e suggerirti solo i grandi classici. Invece, la piattaforma introduce regolarmente tracce indie o synth-pop nelle tue radio automatiche. Sacrifica deliberatamente la certezza del tuo ascolto per scoprire se le frontiere dei tuoi gusti sono più ampie di quanto i tuoi dati storici suggeriscano.

La Soluzione Base: L’Algoritmo Epsilon-Greedy

Per comprendere realmente questi meccanismi, dobbiamo scendere a livello di codice. Simuliamo in Python uno scenario con quattro video candidati (A, B, C, D). Ognuno ha un tasso di click reale (CTR) nascosto: 5%, 8%, 12% e 15%. Il nostro sistema parte completamente al buio.

La strategia [math]\epsilon[/math]-Greedy (Epsilon-Greedy) è l’approccio più semplice ed è governata da una logica ferrea:

Per la stragrande maggioranza del tempo (es. il 90%), l’algoritmo è avido (greedy) e seleziona il video che ha generato la media di click più alta fino a quel momento.
Per una piccola frazione di tempo (il parametro [math]\epsilon[/math], impostato al 10%), l’algoritmo smette di guardare i dati e pesca un video completamente a caso, garantendo l’esplorazione.

import numpy as np

# Valori reali e nascosti che l'algoritmo deve scoprire
true_ctr = [0.05, 0.08, 0.12, 0.15]
n_arms = len(true_ctr)

# Memoria di visualizzazioni e click
counts = np.zeros(n_arms)
rewards = np.zeros(n_arms)

epsilon = 0.1
total_reward = 0

for t in range(10000):
    
    # Decidiamo se esplorare o sfruttare
    if np.random.rand() < epsilon:
        arm = np.random.randint(n_arms) # Scelta totalmente casuale
    else:
        # Calcoliamo il CTR stimato (il 1e-5 evita divisioni per zero iniziali)
        estimates = rewards / (counts + 1e-5)
        arm = np.argmax(estimates) # Scegliamo il campione migliore
        
    # Simuliamo il comportamento stocastico dell'utente
    reward = np.random.rand() < true_ctr[arm]
    
    # Aggiorniamo le metriche
    counts[arm] += 1
    rewards[arm] += reward
    total_reward += reward

print(f"Click totali generati: {total_reward}")

Al termine di 10.000 visualizzazioni, questo algoritmo totalizza mediamente circa 1.418 click. Se eliminassimo la fase di esplorazione portando [math]\epsilon[/math] a zero, un video mediocre potrebbe ricevere per puro caso un paio di click nelle prime iterazioni, ingannando l’algoritmo che continuerebbe a riproporlo all’infinito. La dose di casualità è fondamentale per sventare questa trappola.

Forse potrebbe interessarti anche: Pareto e Matrice di Ansoff: Analisi Probabilistica dei Ricavi e Gestione del Rischio (Guida Pratica con Esercizi)

Il Costo dell’Incertezza: Il Concetto di Regret

Come facciamo a sapere se 1.418 click siano un successo o un fallimento? In Data Science, le prestazioni si misurano confrontando l’algoritmo con uno scenario ideale perfetto.

Immagina l’esistenza di un “Oracolo” che conosce il CTR nascosto di tutti i video dal primo istante. L’Oracolo mostrerebbe all’utente sempre e solo il video D (con il 15% di probabilità). Su 10.000 iterazioni, l’Oracolo otterrebbe mediamente 1.500 click.

Il divario matematico tra lo scenario ideale e le nostre prestazioni reali si chiama Regret (rimpianto).

[math]\text{Regret} = \text{Reward}_{\text{Oracolo}} – \text{Reward}_{\text{Algoritmo}}[/math]

Nel caso dell'[math]\epsilon[/math]-Greedy appena analizzato, il calcolo è diretto: [math]1500 – 1418 = 82[/math]. Quei 82 click “persi” sono letteralmente la tassa che l’algoritmo ha dovuto pagare per imparare dai propri errori testando i video peggiori.

L’Evoluzione Bayesiana: Thompson Sampling

L'[math]\epsilon[/math]-Greedy è solido, ma soffre di una pesante inefficienza: esplora “alla cieca”. Anche dopo 9.000 iterazioni, quando ha ormai capito perfettamente che il video A è un disastro, continuerà stoicamente a proporlo per via di quel rigido 10% di casualità imposta a priori.

Per risolvere questo problema, le architetture moderne si affidano al Thompson Sampling. Questa logica abbandona le scelte casuali e abbraccia l’incertezza statistica: al posto di chiedersi “Qual è il video con il punteggio più alto?”, l’algoritmo si chiede “Quanto sono sicuro che le stime attuali siano affidabili?”.

Per farlo, sfrutta la statistica Bayesiana assegnando a ogni video una distribuzione di probabilità (distribuzione Beta). Man mano che si accumulano successi e fallimenti, la curva di probabilità di un video si stringe, tramutando l’incertezza iniziale in una solida certezza.

import numpy as np

true_ctr = [0.05, 0.08, 0.12, 0.15]

# Inizializziamo successi e fallimenti a 1 (Distribuzione Uniforme iniziale)
successes = np.ones(4)
failures = np.ones(4)

total_reward = 0

for t in range(10000):
    
    # Estraiamo un valore di fiducia per ogni video basato sui dati storici
    samples = np.random.beta(successes, failures)
    
    # Scegliamo il video che in questo turno ha generato il campione più alto
    arm = np.argmax(samples)
    
    # Interazione simulata
    reward = np.random.rand() < true_ctr[arm]
    total_reward += reward

    # Aggiorniamo le nostre credenze Bayesiane (modificando la forma della curva)
    if reward:
        successes[arm] += 1
    else:
        failures[arm] += 1

print(f"Click totali generati: {total_reward}")

Mandando in esecuzione questo codice, i click totali salgono stabilmente attorno a 1.487.

Se ricalcoliamo il Regret ([math]1500 – 1487 = 13[/math]), notiamo un crollo verticale degli errori. Abbiamo abbattuto i click persi da 82 a soli 13. Il Thompson Sampling esplora in modo intelligente: testa attivamente i video di cui sa poco, ma abbandona le piste fredde alla velocità della luce, concentrando il traffico dove c’è reale potenziale.

Oltre il Codice: Il Valore Economico della Decision Intelligence

Analizzare questi due script in parallelo non è un mero virtuosismo informatico, ma svela i veri motori dell’economia algoritmica attuale:

La simulazione della biologia umana: L’istruzione np.random.rand() < true_ctr[arm] è il sottile ponte tra informatica e psicologia. Il sistema non opera su banche dati inerti preesistenti, ma agisce all’interno di un ambiente vivo, lanciando un’esca digitale e registrando l’imprevedibile reazione organica dell’utente.
La superiorità della fluidità: Passare dalla spigolosità di una soglia fissa all’eleganza dinamica della distribuzione Beta mostra il vero significato di intelligenza. L’algoritmo smette di agire in base a regole programmate dall’uomo per iniziare ad adattare il proprio perimetro d’azione misurando autonomamente i propri margini di ignoranza.
La monetizzazione immediata: Nel tessuto aziendale, il Regret non è un indicatore di performance astratto. Quei click di differenza sono conversioni perse, carrelli abbandonati o abbonamenti disdetti. Mentre i tradizionali approcci analitici bruciano ampie fette di budget mostrando design inefficaci per periodi prolungati pur di estrarne un dato certo, il Bandit argina le perdite in tempo reale, generando profitti mentre l’esperimento stesso è in via di svolgimento.

Forse potrebbe interessarti anche: MoR: L'Innovazione DeepMind per LLM Intelligenti e Sostenibili | Meno Costi, Più Potenza AI

Dal Modello Base ai Contextual Bandits

Per quanto sofisticati, gli algoritmi mostrati qui sopra ragionano in un vuoto pneumatico. Nel mondo reale, quando la tua app di streaming inizia a caricarsi, l’infrastruttura non osserva passivamente il tasso di click globale dei suoi titoli. Li incrocia con il contesto unico che ti circonda.

Nascono così i Contextual Bandits. In questa evoluzione, le probabilità di successo dei “bracci” vengono riparametrate continuamente sulla base delle tue specificità: le coordinate del tuo indirizzo IP, la tua cronologia recente di navigazione, il dispositivo che hai in mano e perfino le condizioni meteorologiche della tua area geografica. Si tratta del punto di congiunzione finale tra la pura esplorazione probabilistica e la capacità chirurgica delle reti neurali profonde di inquadrare la situazione ambientale.

Conclusione

La prossima volta che ti imbatterai in un suggerimento insolito sul tuo feed, un approfondimento tecnico mai cercato prima, un podcast fuori dalle tue corde o un prodotto curioso su un e-commerce,saprai che dietro non c’è alcun malfunzionamento.

In quel preciso istante, sei diventato un nodo vitale in un colossale, incessante calcolo probabilistico. L’algoritmo ha appena deciso di tirare una nuova leva, rinunciando alla rassicurante sicurezza dei tuoi click storici, con un unico scopo: imparare qualcosa in più su ciò che attirerà la tua attenzione domani.