Nowe silniki AI Google mogą powiększać i ulepszać, tak jak w filmach

Ostatnia aktualizacja maj 2, 2022

Wiesz, jak w filmach jest obraz na komputerze, a detektyw stojący obok The Guy In The Chair mówi „czy możesz powiększyć i ulepszyć tę tablicę rejestracyjną?" Ta technologia jest teraz prawdziwa, dzięki najnowszej sztucznej inteligencji Google silniki.

Proces, który tego wymaga, jest niezwykle złożony i trudny do opanowania, ponieważ opierają się na modelach dyfuzji (i bardzo zaawansowanej matematyce) i pracują nad dodawaniem szczegółów do obrazu, których pierwotnie tam nie było. Odbywa się to poprzez zgadywanie przy użyciu podobnych obrazów i jest to technika, którą Google nazwał naturalną syntezą obrazu, a w tym przypadku superrozdzielczością obrazu.

Oczywiście zaczynasz od małego i rozpikselowanego obrazu (takiego jak obrazy po lewej stronie każdego z powyższych zestawów obrazów), a kończysz na obrazie o znacznie wyższej rozdzielczości, który nie tylko wygląda ostrzej, ale wydaje się realny nawet dla ludzkiego oka. jeśli nie jest to 100% dokładne dopasowanie do oryginału. Aby wykonać zadanie, Google wykorzystał dwa nowe narzędzia sztucznej inteligencji: Super-Resolution via Repeated Refinement (SR3) i Cascaded Diffusion Models (CDM).

Pierwszy, SR3, dodaje szum do obrazu (wygląda to podobnie do szumu lub śniegu na ekranie telewizora, gdy sygnał jest słaby), a następnie odwraca proces. Wykorzystuje dużą bazę danych obrazów i serię obliczeń prawdopodobieństwa, aby zmapować, jak wygląda wersja obrazu w niskiej rozdzielczości, co szczegółowo omawia tutaj badacz Google Chitwan Saharia .

Google

„Modele dyfuzji działają poprzez uszkadzanie danych uczących poprzez stopniowe dodawanie szumu Gaussa, powolne usuwanie szczegółów danych, aż staną się czystym szumem, a następnie uczenie sieci neuronowej, aby odwrócić ten proces uszkodzenia” – wyjaśnił Saharia.

Drugie narzędzie, CDM, wykorzystuje „rurociągi”, przez które można kierować różne modele dyfuzji (w tym SR3) w celu produkcji ulepszeń o wysokiej rozdzielczości. To narzędzie tworzy większe obrazy modeli ulepszeń za pomocą starannie obliczonych symulacji opartych na zaawansowanych prawdopodobieństwach, na temat których Google opublikował artykuł badawczy.

Efekt końcowy? Kiedy badania prezentowały sfinalizowane obrazy ludziom w teście, wybrali wygenerowane twarze, które zostały pomylone z prawdziwymi twarzami mniej więcej w połowie przypadków. Chociaż stawka 50% może nie wydawać się skuteczna, jest to zgodne z tym, czego moglibyśmy oczekiwać od doskonałego algorytmu. Google twierdzi, że ta metoda daje lepsze wyniki niż inne opcje poprawy obrazu, w tym generatywne sieci przeciwników, które wykorzystują konkurencyjne sieci neuronowe do udoskonalenia obrazu.

Google twierdzi, że zamierza zrobić więcej z tymi silnikami AI i powiązanymi z nimi technologiami, poza zakresem skalowania obrazu, podobnie jak inne obszary modelowania prawdopodobieństwa. I chociaż ta technologia „powiększania i ulepszania” ułatwi robienie rzeczy, takich jak przeskalowanie starych zdjęć, z pewnością ma ona również niezaprzeczalny potencjał, taki jak, cóż, powiększanie i ulepszanie zdjęcia lub tablicy rejestracyjnej lub cokolwiek innego.

przez Science Alert

Źródło nagrywania: www.reviewgeek.com