Il mistero della “mossa 37” (Move 37)

Giocare per la sicurezza
28/01/2025
L’altro futuro: la Rivoluzione artificiale
10/02/2025
Show all

Il mistero della “mossa 37” (Move 37)

Credit: AlphaGo Movie https://www.imdb.com/it/title/tt6700846/?ref_=ttpl_pl_tt

a cura di  Redazione, diGenova OdV

Andrey Karpathy membro fondatore di OpenAI, si è immerso nel mistero dietro Move 37 , ovvero quando un’intelligenza artificiale “scopre azioni nuove, sorprendenti e segretamente geniali anche per gli esseri umani esperti”, e ha esplorato il motivo per cui il fenomeno sta diventando più comune.

Ecco il testo del suo POST su X:

“Move 37 è la parola del giorno: è quando un’IA, addestrata tramite il processo di apprendimento per tentativi ed errori del rinforzo, scopre azioni che sono nuove, sorprendenti e segretamente brillanti persino per gli umani esperti.

È un fenomeno emergente magico, solo leggermente snervante, realizzabile solo tramite apprendimento per rinforzo su larga scala. Non ci si può arrivare con l’imitazione esperta.

Ma perché Move 37?
E’ il riferimento a quando AlphaGo ha giocato la mossa 37 nella partita 2 contro Lee Sedol, una mossa strana che si stimava avesse solo 1 possibilità su 10.000 di essere giocata da un umano, ma che è stata creativa e brillante a posteriori, portando a una vittoria in quella partita.

Abbiamo visto la mossa 37 in un ambiente chiuso, simile a un gioco come Go, ma con l’ultima serie di modelli LLM “pensanti” (ad esempio OpenAI-o1, DeepSeek-R1, Gemini 2.0 Flash Thinking), stiamo assistendo ai primissimi barlumi di cose simili nei domini del mondo aperto.

I modelli scoprono, nel tentativo di risolvere molti problemi diversi di matematica/codice/ecc., strategie che assomigliano al monologo interiore degli esseri umani, che sono molto difficili (/impossibili) da programmare direttamente nei modelli.

Io le chiamo “strategie cognitive”, cose come affrontare un problema da diverse angolazioni, provare idee diverse, trovare analogie, tornare indietro, riesaminare, ecc. Per quanto strano possa sembrare, è plausibile che gli LLM possano scoprire modi migliori di pensare, di risolvere problemi, di collegare idee tra discipline diverse, e farlo in un modo che troveremo sorprendente, sconcertante, ma creativo e brillante a posteriori.

Potrebbe anche diventare molto più strano: è plausibile (anche probabile, se fatto bene) che l’ottimizzazione inventi il ​​suo linguaggio che è imperscrutabile per noi, ma che è più efficiente o efficace nella risoluzione dei problemi. La stranezza dell’apprendimento per rinforzo è in linea di principio illimitata.

Non credo che abbiamo ancora visto equivalenti di Move 37. Non so come sarà. Penso che sia ancora piuttosto presto e che ci sia molto lavoro da fare, sia in ambito ingegneristico che di ricerca.

Ma la tecnologia sembra sulla buona strada per trovarli.”

Per approfondire:

Ecco il link all’analisi e ai commenti sulla mossa 37 durante il Google Deep Mind Challenge del 2016, Lee Sedol vs AlphaGo.

https://youtube.com/watch?v=HT-UZkiOLv8

Il Google Deep Mind Challenge del 2016 è considerato una delle pietre miliari del perorso che ha portato alla nascita della Intelligenza Artificiale Generativa. Di seguito un breve resoconto dell’evento preparato da Perplexity:

“Il Google DeepMind Challenge Match, noto anche come AlphaGo contro Lee Se-dol, si è svolto dal 9 al 15 marzo 2016 a Seul, Corea del Sud. Questo evento ha segnato un importante traguardo nella storia dell’intelligenza artificiale, poiché AlphaGo, un programma sviluppato da Google DeepMind, ha sfidato e battuto il campione mondiale di Go, Lee Se-dol, in una serie di cinque partite.

Dettagli dell’Incontro

  • Formato: L’incontro consisteva in cinque partite giocate senza handicap.
  • Risultato: AlphaGo ha vinto 4 partite su 5; Lee Se-dol è riuscito a vincere solo la quarta partita, scoprendo una debolezza nel gioco di AlphaGo.
  • Premi: AlphaGo ha vinto un premio di un milione di dollari, che Google ha deciso di devolvere in beneficenza. Lee Se-dol ha ricevuto 170.000 dollari per la sua partecipazione e per la vittoria in una partita.

Impatto e Riconoscimenti

L’incontro ha attirato l’attenzione globale, con centinaia di milioni di spettatori che hanno seguito le partite. Ha suscitato un rinnovato interesse per il gioco del Go e ha portato a riflessioni significative sulle capacità dell’intelligenza artificiale. Dopo la competizione, AlphaGo è stato insignito del titolo onorifico di 9 dan dalla Federazione coreana di Go, riconoscendo il suo straordinario livello di competenza.

Tecnologie Utilizzate

AlphaGo ha utilizzato tecniche avanzate di apprendimento automatico e reti neurali per migliorare il suo gioco. A differenza dei precedenti programmi di intelligenza artificiale, AlphaGo non si basava su regole predefinite ma imparava attraverso l’analisi di milioni di partite. Questa innovazione ha aperto nuove strade per l’IA in vari campi, inclusi il riconoscimento dei pattern e l’apprendimento automatico.

Confronto con Altri Eventi Storici

L’incontro è stato paragonato alla storica partita tra Deep Blue e Garry Kasparov nel 1997, segnando un punto di svolta simbolico in cui i computer hanno dimostrato capacità superiori rispetto agli esseri umani in attività complesse come il gioco del Go.”

 

APPROFONDIMENTI