Google’i uued AI-mootorid saavad suumida ja täiustada, nagu filmides

Viimati uuendatud mai 2, 2022

Teate, kuidas filmides, kui arvutis on pilt ja The Guy In The Chairi kõrval seisev detektiiv ütleb: "Kas saate numbrimärki sisse suumida ja täiustada ?" Tänu Google’i uusimale tehisintellektile on see tehnoloogia nüüd tõeline. mootorid.

Protsess selle tegemiseks on äärmiselt keeruline ja raskesti juhitav, kuna need põhinevad difusioonimudelitel (ja mõnel tõsiselt arenenud matemaatikal) ning töötavad selle nimel, et lisada pildile detaile, mida algselt seal polnud. Seda tehakse arvamise teel, kasutades sarnaseid pilte ja see on tehnika, mille Google nimetas loomulikuks kujutise sünteesiks ja antud juhul pildi üliresolutsiooniks.

Ilmselgelt alustate väikese ja piksliga kujutisega (nagu iga ülaltoodud pildikomplekti vasakul küljel olevad pildid) ja lõpetate palju suurema eraldusvõimega pildiga, mis mitte ainult ei tundu teravam, vaid tundub ka inimsilmale reaalne. kui see ei vasta originaalile 100% täpselt. Töö tegemiseks kasutas Google kahte uut tehisintellekti tööriista: Super-Resolution via Repeated Refinement (SR3) ja Cascaded Diffusion Models (CDM).

Esimene, SR3, lisab pildile müra (see näeb välja sarnane staatilisele või lumele, mida näete teleriekraanil, kui signaal on nõrk), seejärel pöörab protsessi vastupidiseks. See kasutab suurt piltide andmebaasi ja mitmeid tõenäosusarvutusi, et kaardistada, milline näeb välja pildi madala eraldusvõimega versioon, mida Google’i uurija Chitwan Saharia siin põhjalikumalt käsitleb .

Google

"Hajutusmudelid rikuvad koolitusandmeid, lisades järk-järgult Gaussi müra, pühkides aeglaselt andmetest üksikasju, kuni need muutuvad puhtaks müraks, ja treenides seejärel närvivõrku, et see korruptsiooniprotsess ümber pöörata," selgitas Saharia.

Teine tööriist, CDM, kasutab "torujuhtmeid", mille kaudu saab suure eraldusvõimega uuenduste tegemiseks juhtida erinevaid difusioonimudeleid (sh SR3). See tööriist teeb täiustamismudelitest suuremaid pilte, kasutades hoolikalt arvutatud simulatsioone, mis põhinevad täiustatud tõenäosustel, mille kohta Google avaldas uurimistöö.

Lõpptulemus? Kui uurimustöö esitles lõplikke pilte inimestele testis, valisid nad ligikaudu poole ajast, et loodud nägusid peeti päris nägudeks. Kuigi 50% määr ei pruugi tunduda edukas, on see kooskõlas sellega, mida võiksime täiusliku algoritmi puhul oodata. Google ütleb, et see meetod annab paremaid tulemusi kui muud pildiparandusvõimalused, sealhulgas generatiivsed vastandlikud võrgud, mis kasutavad pildi täpsustamiseks konkureerivaid närvivõrke .

Google ütleb, et kavatseb nende AI-mootorite ja nendega seotud tehnoloogiatega rohkem ära teha, lisaks pildi suurendamise ulatusele, nagu ka tõenäosuse modelleerimise muudes valdkondades. Ja kuigi see "suumi ja täiusta" tehnoloogia muudab selliste asjade tegemise lihtsaks nagu kõrgetasemelised vanad fotod, on sellel kahtlemata ka potentsiaali, nagu näiteks foto või numbrimärgi või millegi muu suurendamine ja suurendamine.

Science Alert kaudu

: www.reviewgeek.com