Исследователи Google создали программу, читающую по губам

92

0

Исследователи из DeepMind - подразделения Google, занимающегося искусственным интеллектом и Оксфордского университета использовали искусственный интеллект, чтобы создать наиболее точное программное обеспечение по чтению по губам. Используя тысячи часов ТВ кадров из BBC, ученые обучили нейронную сеть читать видеокадры с точностью до 46,8 процента. Это может показаться не таким впечатляющим успехом на первых порах - особенно по сравнению с показателями точности искусственного интеллекта при расшифровке аудио. Но на испытании сам человек показал точность более чем в три раза ниже - испытуемый прочитал по губам только 12,4 процентов.

Исследование похоже на технологию, которую в начале ноября опубликовали ученые Оксфордского университета. Использую новую технологию, ученые смогли создать программу для чтения губ под названием LipNet, который достиг 93,4 процентов точности в тестах, по сравнению с 52,3 процентами человеческой точности.

Тем не менее, LipNet был протестирован только на специально записанных кадрах, в которых были использованы добровольцы, говорящие шаблонные фразы. Для сравнения, программное обеспечение DeepMind, известный как “Watch, Listen, Attend, and Spell” , был протестирован на гораздо более сложных кадрах, где требовалось расшифровывать обычную не подготовленную специально речь из политических шоу BBC.


googledeepmindlipreading770x218.jpg


Для тренировки программы “Watch, Listen, Attend, and Spell” были использованы более 5000 часов видео из телевизионных шоу.

Исследователи DeepMind говорят о том, что программа может иметь множество применений, в том числе помогать людям с нарушениями слуха понимать разговоры. Он также может быть использован для озвучивания немых фильмов или позволить управлять цифровыми помощниками, такими как Siri или Alexa. Представьте, что вы могли бы использовать Siri в общественных местах, давая ей команды тихим шепотом в камеру.

Но когда большинство людей узнают, что программа научилась читать по губам, их первой мыслью становится то, что она может быть использована для слежки. Исследователи говорят, что есть еще большая разница в чтении по губам на основе четкого изображения в ТВ-шоу и плохо отснятым и низкого качества видео с камер наблюдения. Но даже вы можете сказать исследователям, что многие подобные пробелы закрываются искусственным интеллектом.

Похожие посты

Регистрация прошла успешно