Розробник ігор Genie від Google – це те, що відбувається, коли ШІ дивиться 30 тисяч годин відеоігор

Розробник ігор Genie від Google – це те, що відбувається, коли ШІ дивиться 30 тисяч годин відеоігор 1 HI-TECH

Додаткове читання

Пояснення без жаргонів про те, як працюють великі мовні моделі штучного інтелекту. На даний момент кожен, хто дотримується генеративного штучного інтелекту, звик до інструментів, які можуть генерувати пасивний споживаний вміст у формі тексту, зображень, відео та аудіо. Нещодавно оприлюднена модель Genie від Google DeepMind (для «GENerative Interactive Environment») робить щось зовсім інше, перетворюючи зображення в «інтерактивне, ігрове середовище, яке можна легко створювати, увійти в нього та досліджувати».

Сторінка анонсу Genie від DeepMind показує безліч зразків GIF-файлів простих ігор у стилі платформи, згенерованих із статичних початкових зображень (дитячих замальовок, реальних фотографій тощо) або навіть текстових підказок, переданих через ImageGen2. Незважаючи на те, що ці привабливі GIF-файли приховують деякі основні поточні обмеження, які обговорюються в повній дослідницькій статті, дослідники штучного інтелекту все ще в захваті від того, як узагальнене «основне моделювання світу» Genie може допомогти вдосконалити машинне навчання в майбутньому.

Під капотом

Хоча результати Genie на перший погляд виглядають схожими на те, що може вийти з базового движка 2D-ігор, модель насправді не малює спрайти та не кодує ігровий платформер так само, як це може зробити розробник ігор-людей. Натомість система розглядає своє початкове зображення (або зображення) як кадри відео та генерує найкраще припущення про те, як має виглядати весь наступний кадр (або кадри) за певного введення.

Щоб створити цю модель, Genie почала з 200 000 годин загальнодоступних інтернет-ігор відео, які були відфільтровані до 30 000 годин стандартизованого відео з «сотень 2D-ігор». Потім окремі кадри з цих відео токенізували в модель з 200 мільйонами параметрів, з якою міг легко працювати алгоритм машинного навчання.

Читайте ще:  Raspberry Pi 5 на 2 ГБ за 50 доларів має нижчу ціну та налаштований дешевший процесор

Оголошення

Звідси система згенерувала «модель прихованої дії», щоб передбачити, які інтерактивні «дії» (тобто натискання кнопок) можуть реально й послідовно генерувати тип кадрових змін, які спостерігаються в усіх цих маркерах. Система обмежує потенційні входи до «прихованого простору дії» з восьми можливих входів (наприклад, чотири напрямки d-pad плюс діагоналі), намагаючись «дозволити людині відтворювати» (що має сенс, оскільки відео, на яких вона навчалася, були всі доступні людині).

Після встановлення моделі прихованої дії Genie створює «динамічну модель», яка може приймати будь-яку кількість довільних кадрів і прихованих дій і генерувати обґрунтоване припущення щодо того, як має виглядати наступний кадр за будь-яких потенційних вхідних даних. Ця остаточна модель має 10,7 мільярдів параметрів, навчених на 942 мільярдах токенів, хоча результати Genie показують, що навіть більші моделі дадуть кращі результати.

Попередня робота зі створення подібних інтерактивних моделей за допомогою генеративного штучного інтелекту покладалася на використання «міток наземних істинних дій» або текстових описів навчальних даних, щоб допомогти керувати їхніми алгоритмами машинного навчання. Genie відрізняється від цієї роботи своєю здатністю «тренуватися без дій або текстових анотацій», виводячи приховані дії за відео, використовуючи лише ті години токенізованих відеокадрів.

“Можливість узагальнювати такі вхідні дані, що значно [поза розподілом], підкреслює надійність нашого підходу та цінність навчання на великомасштабних даних, що було б неможливо здійснити за реальних дій, як вхід”, – написала команда Genie у своїй дослідницькій статті.

Сторінка: 1 2 Далі &rar;

V. Petrov
Оцініть автора
Watch And Tell
Додати коментар