Perché i modelli di intelligenza artificiale a volte hanno "allucinazioni" (forniscono informazioni false)? Come si può risolvere questo problema? In questa risposta, assumerò che AI = LLM, poiché è così che la maggior parte delle persone la pensa nel 2025. Per comprendere il problema dell'allucinazione LLM, dobbiamo iniziare con il funzionamento degli LLM, in particolare le reti neurali su cui sono costruiti. Cominciamo con una specie di puzzle matematico che molti di noi giocavano alle elementari: si inizia con un numero, si applica un'operazione matematica, si ottiene un nuovo numero e si ripete. Ora immagina di non conoscere effettivamente le operazioni per i passaggi intermedi. Dovresti aggiungere? Moltiplicare? Fare qualcosa di più complesso? Tutto ciò che hai è un elenco di ingressi e le uscite desiderate. Forse un 3 iniziale dovrebbe trasformarsi in un 17. Forse un 7 dovrebbe diventare -2.5. L'obiettivo è capire quali dovrebbero essere le operazioni intermedie. Ora scala questo in modo massiccio: ogni passo ora ha molti input, che a loro volta influenzano molti output. Anche le operazioni sono più complicate, elaborando numerosi valori contemporaneamente. Ma il principio guida rimane lo stesso: trovare le operazioni che trasformano gli input negli output desiderati. Per calci e risate, chiamiamo i passaggi intermedi "neuroni" e l'intera struttura una "rete neurale". In poche parole, è così che vengono addestrate le reti neurali. Proviamo diverse operazioni in tutti questi neuroni, confrontiamo il risultato con l'output desiderato, quindi regoliamo i parametri fino a quando il risultato non è abbastanza buono. Fallo miliardi di volte, con miliardi di input, miliardi di neuroni e centinaia di miliardi di parametri, e ti ritroverai con un sistema in grado di trasformare gli input di testo in output coerenti. (A proposito, tutto quel testo è rappresentato numericamente!) Una volta addestrata, la rete di solito può generare una risposta abbastanza ragionevole a nuovi input. Ma dove entrano in gioco le allucinazioni? Ingrandiamo un neurone all'interno di questa vasta rete. Ha più input. Durante l'addestramento, il primo input potrebbe essere sempre stato compreso tra 0 e 100; il secondo tra 15,5 e 15,8; il terzo, tra 1 milione e 2 milioni; E così via. Il neurone è messo a punto per gestire questi intervalli. Ma ora, durante l'uso nel mondo reale, il secondo input gli dà improvvisamente un 25. Che succede? Il neurone applica la stessa operazione che ha appreso durante l'addestramento, ma estrapola e ottiene un risultato che è anche fuori dal suo intervallo di addestramento. Quindi invia il risultato al livello successivo e così via. Il processo continua attraverso la rete. Questo è in realtà un tratto piuttosto interessante in quanto consente la generalizzazione, qualcosa che prima era solo un'abilità umana. Il più delle volte, l'effetto finale è impercettibile. Spesso, i risultati intermedi hanno ancora senso e l'output finale potrebbe essere inaspettato, ma comunque valido o addirittura creativo. Altre volte, produce un errore minore, come una parola errata. Ma a volte, il risultato è completamente sbagliato: un fatto, un numero o un evento inventato, un'allucinazione. Questioni chiave: La rete non è in grado di distinguere tra deviazioni innocue e deviazioni critiche. Per ogni singolo neurone, gli input sono solo numeri: non c'è una comprensione incorporata di ciò che significano. Ma le deviazioni sono inevitabili, a meno che non vogliamo che il modello risponda "non so" al 99,9% delle domande. Le allucinazioni sono una caratteristica intrinseca degli attuali LLM. Le allucinazioni non sono causate da dati di addestramento di bassa qualità. Si potrebbe addestrare una rete esclusivamente sulle enciclopedie più accurate e avrebbe comunque le allucinazioni. Perché? Perché il problema sta nel modo in cui la rete generalizza dal suo addestramento, non in ciò che legge. Gli sviluppatori di LLM applicano varie tecniche per ridurre le allucinazioni. Il più ovvio? DATI MOAR!! 1! Alimentando la rete con più dati, la si espone a più possibili combinazioni di input, aiutando i neuroni a generalizzare meglio. Ma a meno che i tuoi dati di addestramento non includano tutte le possibili domande che chiunque potrebbe porre, ci saranno sempre nuove combinazioni e, quindi, allucinazioni.
Iscriviti a:
Commenti sul post (Atom)
Mediaset non è stata solo televisione, ma una leva di potere capace di trasformare la visibilità in fiducia, le aziende in marchi e il lavoro invisibile dietro le quinte in un’influenza che ha segnato un’epoca.
Mediaset: il grande potere televisivo che ha plasmato l’immaginario collettivo e il mercato Per decenni Mediaset non è stata soltanto una ...
-
Manuale per il Benessere Mentale: Aumentare la Salute con le Passeggiate, la Natura e la Fisica Quantistica Introduzione L'importanz...
-
I dazi possono essere una lama a doppio taglio per l'Italia. Nel breve termine, potrebbero offrire alcuni vantaggi, come la protezion...
-
Genny Coppola – Make-up Artist Napoletano Trucco sposa ed eventi tra tecnica, creatività ed emozione ✨ Chi sono Mi chiamo Genny Coppol...
Nessun commento:
Posta un commento