I nuovi motori AI di Google possono ingrandire e migliorare, proprio come nei film
Sai come, nei film, quando c’è un’immagine sul computer e il detective in piedi accanto a The Guy In The Chair dice "puoi ingrandire e migliorare quella targa?" Quella tecnologia ora è reale, grazie alla nuovissima intelligenza artificiale di Google motori.
Il processo per fare ciò è estremamente complesso e difficile da padroneggiare, poiché si basano su modelli di diffusione (e alcuni calcoli matematici seriamente avanzati) e lavorano per aggiungere dettagli a un’immagine che originariamente non c’era. Questo viene fatto in base a congetture utilizzando immagini simili ed è una tecnica che Google ha soprannominato sintesi naturale dell’immagine e, in questo caso, super risoluzione dell’immagine.
Ovviamente, inizi con un’immagine piccola e pixelata (come le immagini sul lato sinistro di ciascuna delle immagini sopra) e finisci con un’immagine a risoluzione molto più alta che non solo sembra più nitida ma appare reale all’occhio umano, anche se non corrisponde esattamente al 100% all’originale. Per portare a termine il lavoro, Google ha utilizzato due nuovi strumenti di intelligenza artificiale: Super-Resolution via Repeated Refinement (SR3) e Cascaded Diffusion Models (CDM).
Il primo, SR3, aggiunge rumore a un’immagine (sembra simile all’elettricità statica o alla neve che vedi su uno schermo TV quando il segnale è debole), quindi inverte il processo. Utilizza un ampio database di immagini e una serie di calcoli di probabilità per mappare l’aspetto di una versione a bassa risoluzione dell’immagine, che il ricercatore di Google Chitwan Saharia approfondisce qui.
"I modelli di diffusione funzionano corrompendo i dati di addestramento aggiungendo progressivamente il rumore gaussiano, cancellando lentamente i dettagli nei dati fino a quando non diventano puro rumore e quindi addestrando una rete neurale per invertire questo processo di corruzione", ha spiegato Saharia.
Il secondo strumento, CDM, utilizza "condutture" attraverso cui è possibile indirizzare i vari modelli di diffusione (incluso SR3) per produrre gli aggiornamenti ad alta risoluzione. Questo strumento crea immagini più grandi dei modelli di miglioramento utilizzando simulazioni accuratamente calcolate basate su probabilità avanzate, su cui Google ha pubblicato un documento di ricerca.
Il risultato finale? Quando la ricerca ha presentato le immagini finalizzate alle persone in un test, hanno scelto che i volti generati fossero scambiati per volti reali all’incirca la metà delle volte. Anche se un tasso del 50% potrebbe non sembrare un successo, è in linea con ciò che potremmo aspettarci da un algoritmo perfetto. Google afferma che questo metodo produce risultati migliori rispetto ad altre opzioni di miglioramento dell’immagine, comprese le reti contraddittorie generative che utilizzano reti neurali concorrenti per perfezionare un’immagine.
Google afferma che intende fare di più con questi motori di intelligenza artificiale e le relative tecnologie, al di là dell’ambito dell’upscaling delle immagini, come altre aree della modellazione delle probabilità. E mentre questa tecnologia "ingrandisci e migliora" renderà facile fare cose come vecchie foto di alto livello, ha sicuramente anche un potenziale innegabile, come, beh, ingrandire e migliorare una foto o una targa o qualsiasi altra cosa.
tramite Science Alert