Нові механізми штучного інтелекту від Google можуть масштабувати та покращувати, як у фільмах
Ви знаєте, як у фільмах, коли на комп’ютері з’являється зображення, а детектив, який стоїть поруч із «Хлопцем у кріслі», каже: «Чи можете ви збільшити та покращити номерний знак?» Ця технологія тепер реальна завдяки новітньому ШІ від Google. двигуни.
Процес, щоб зробити це, надзвичайно складний і важкий для освоєння, оскільки вони засновані на моделях дифузії (і деяких серйозно просунутих математиках) і працюють над додаванням деталей до зображення, яких спочатку не було. Це робиться шляхом припущень із використанням подібних зображень і є технікою, яку Google охрестив природним синтезом зображень, а в даному випадку — супер роздільною здатністю.
Очевидно, ви починаєте з невеликого піксельного зображення (наприклад, зображення з лівого боку кожного з зображень, наведених вище) і закінчуєте зображенням із набагато вищою роздільною здатністю, яке не тільки виглядає чіткіше, але й здається реальним людському оку, навіть якщо він не збігається на 100% з оригіналом. Щоб виконати роботу, Google використав два нових інструменти штучного інтелекту: супер-роздільна здатність через повторне уточнення (SR3) і каскадні моделі дифузії (CDM).
Перший, SR3, додає шум до зображення (це схоже на статику або сніг, який ви бачите на екрані телевізора, коли сигнал слабкий), а потім повертає процес. Він використовує велику базу даних зображень і серію розрахунків ймовірності, щоб визначити, як виглядає версія зображення з низькою роздільною здатністю, яку дослідник Google Чітван Сахарія детальніше розглядає тут.
«Дифузійні моделі працюють, порушуючи навчальні дані, поступово додаючи гаусівський шум, повільно видаляючи деталі в даних, поки вони не перетворюються на чистий шум, а потім навчають нейронну мережу, щоб повернути цей процес пошкодження», — пояснив Сахарія.
Другий інструмент, CDM, використовує «конвеєри», через які можуть бути спрямовані різні моделі дифузії (включаючи SR3) для створення оновлень із високою роздільною здатністю. Цей інструмент створює більші зображення моделей покращення, використовуючи ретельно розраховані симуляції на основі розширених ймовірностей, про які Google опублікував дослідницьку роботу.
Кінцевий результат? Коли дослідження представили завершені зображення людям у тесті, вони вибрали, що створені обличчя були помилково приймаються за справжні обличчя приблизно в половині часу. Хоча показник 50% може здатися не вдалим, він відповідає тому, що ми могли очікувати від ідеального алгоритму. Google каже, що цей метод дає кращі результати, ніж інші варіанти покращення зображення, включаючи генеративні змагальні мережі, які використовують конкуруючі нейронні мережі для покращення зображення.
Google каже, що має намір зробити більше з цими механізмами штучного інтелекту та пов’язаними з ними технологіями, за межами масштабування зображення, як і в інших областях ймовірнісного моделювання. І хоча ця технологія «масштабування та покращення» дозволить легко робити такі речі, як високоякісні старі фотографії, вона, безсумнівно, також має потенційний потенціал, наприклад, збільшення та покращення фотографії чи номерного знака чи чогось іншого.
через Science Alert