Googlen uudet tekoälymoottorit voivat zoomata ja parantaa, aivan kuten elokuvissa

Viimeisin päivitys huhti 3, 2022

Tiedätkö kuinka elokuvissa, kun tietokoneessa on kuva ja The Guy In The Chairin vieressä seisova etsivä sanoo: "Voitko zoomata ja parantaa rekisterikilveä?" Tämä tekniikka on nyt totta Googlen uusimman tekoälyn ansiosta. moottorit.

Prosessi tämän tekemiseksi on erittäin monimutkainen ja vaikea hallita, koska ne perustuvat diffuusiomalleihin (ja joihinkin vakavasti edistyneeseen matematiikkaan) ja pyrkivät lisäämään kuvaan yksityiskohtia, joita ei alun perin ollut olemassa. Tämä tehdään arvaamalla käyttämällä samanlaisia kuvia, ja se on tekniikka, jonka Google kutsui luonnolliseksi kuvasynteesiksi ja tässä tapauksessa kuvan superresoluutioksi.

Ilmeisesti aloitat pienellä ja pikselöidyllä kuvalla (kuten kunkin yllä olevan kuvasarjan vasemmalla puolella olevat kuvat) ja päädyt paljon korkeamman resoluution kuvaan, joka ei vain näytä terävämmältä, vaan näyttää todelliselta ihmissilmälle, jopa jos se ei vastaa 100 % tarkasti alkuperäistä. Työn suorittamiseksi Google käytti kahta uutta tekoälytyökalua: Super-Resolution kautta Repeated Refinement (SR3) ja Cascaded Diffusion Models (Cascaded Diffusion Models, CDM).

Ensimmäinen, SR3, lisää kohinaa kuvaan (tämä näyttää samalta kuin staattinen tai lumi, jonka näet television ruudulla, kun signaali on heikko), ja kääntää sitten prosessin päinvastaiseksi. Se käyttää suurta kuvatietokantaa ja sarjaa todennäköisyyslaskelmia kartoittaakseen, miltä kuvan matalaresoluutioinen versio näyttää. Googlen tutkija Chitwan Saharia perehtyy tähän tarkemmin.

Google

"Diffuusiomallit toimivat korruptoimalla opetusdataa lisäämällä asteittain Gaussin kohinaa, pyyhkimällä hitaasti yksityiskohtia tiedosta, kunnes niistä tulee puhdasta kohinaa, ja sitten kouluttamalla hermoverkkoa kääntämään tämän korruptioprosessin", Saharia selitti .

Toinen työkalu, CDM, käyttää "putkia", joiden läpi voidaan ohjata eri diffuusiomalleja (mukaan lukien SR3) korkearesoluutioisten päivitysten tuottamiseksi. Tämä työkalu tekee parannusmalleista suurempia kuvia käyttämällä tarkasti laskettuja, kehittyneisiin todennäköisyyksiin perustuvia simulaatioita, joista Google julkaisi tutkimuspaperin.

Lopputulos? Kun tutkimus esitteli valmiita kuvia ihmisille testissä, he valitsivat, että luodut kasvot erehtyivät oikeiksi kasvoiksi noin puolet ajasta. Vaikka 50 %:n korko ei ehkä kuulostakaan onnistuneelta, se on sen mukainen, mitä voimme odottaa täydelliseltä algoritmilta. Google sanoo, että tämä menetelmä tuottaa parempia tuloksia kuin muut kuvanparannusvaihtoehdot, mukaan lukien generatiiviset vastustavat verkot, jotka käyttävät kilpailevia hermoverkkoja kuvan tarkentamiseen.

Google sanoo aikovansa tehdä enemmän näiden tekoälymoottoreiden ja niihin liittyvien teknologioiden kanssa kuvan parannuskehityksen lisäksi, kuten muillakin todennäköisyysmallinnuksen osa-alueilla. Ja vaikka tällä "zoomaa ja parannella" -tekniikalla on helppo tehdä asioita, kuten korkeatasoisia vanhoja valokuvia, siinä on kiistatta myös potentiaalia, kuten no, kuvan tai rekisterikilven tai minkä tahansa muun lähentäminen ja parantaminen.

Science Alert -palvelun kautta

: www.reviewgeek.com