Люди старшего поколения помнят, как популярна была в 1960-х годах тема искусственного интеллекта. Тогда казалось, что программа, которая работает как мозг человека, будет создана в ближайшее время, а за ней и человекоподобные роботы. Шли годы, десятилетия, а искусственный интеллект никак не удавалось приблизить к человеческому. Тема потеряла актуальность, сошла с первых полос газет, даже фантасты стали обходить ее стороной. Общество постепенно разуверилось, что роботы захватят мир. А зря. Революция в этой сфере, как это обычно бывает с технологиями, свершилась тихой сапой. В чем состоит ее суть, нам рассказал один из участников «ГрафиКон-2015» Антон Конушин, специалист по распознаванию образов, преподаватель факультета ВМК МГУ имени М.В. Ломоносова и бакалавриата «Прикладная математика и информатика» НИУ ВШЭ.
Антон заведует лабораторией компьютерной графики и мультимедиа. Среди ее основных задач — распознавание лиц по видео, создание архива видеоизображений, распознавание дорожных знаков на изображениях, создание методов компьютерной графики для анализа изображения. Для решения этих задач ученые используют нейросети — особые программы, имитирующие работу нервных клеток мозга. Искусственные нейросети способны сами обучаться, в этом их преимущество перед другими программами. На заре развития нейросетей проблемы с их обучением казались принципиальными. Никто не знал, как это делать эффективно. Одиночный нейрон, то есть программа (функция), выполняющая один какой-то процесс, мог решить только что-то очень простое. В 1980-х годах появился метод обучения более сложно устроенных нейронных сетей, многослойных, с помощью которого удалось решать задачи распознавания символов. И снова ученые быстро столкнулись с ограничениями метода, заниматься им перестали, и только отдельные люди продолжали усовершенствовать теорию нейронных сетей, вносить маленькие, казалось бы, незаметные изменения. Эти рядовые усовершенствования в итоге привели к качественному скачку в развитии искусственного интеллекта. Когда появились мощные компьютеры с графическими ускорителями, предоставившие ученым почти безграничные вычислительные мощности, а также интернет с большими объемами данных, то о нейросетях вспомнили вновь. Оказалось, что искусственные нейросети очень хорошо справляются со многими задачами, превосходят все другие подходы и в том числе, возможности человека. Последние годы нейросети переживают настоящий бум, их применяют все к новым и новым задачам.
Поиск лиц и знаков
Один из самых свежих примеров — построение текстовых описаний изображений. В программу закладывали ряд картинок с описаниями, которые делали люди. Она самостоятельно исследовала эти данные, выявляла принцип, по которым следует создавать описание, сама обучалась, и затем в нее загружали новый массив изображений. Нейросеть уже знала, как работать с этими данными, и начинала делать описания к картинкам, состоящим из нескольких предложений типа «человек идет на фоне здания, он одет в костюм и рубашку». Раньше это невозможно было сделать, а сейчас, пожалуйста. Большие успехи искусственный интеллект показывает и в задаче распознавания лиц. Ученые экспериментировали с коллекциями из 50 тысяч пар изображений, и машина распознавала их более точно, чем человек. Это очень впечатляет.
В лаборатории Антона Конушина занимаются более практической задачей — поиском конкретных объектов на изображениях, а именно, дорожных знаков. Это требуется для карт в автомобильных навигационных системах. Дороги у нас часто перестраивают, дорожные знаки обновляют или устанавливают новые, соответственно, нужно постоянно обновлять эту информацию, чтобы навигаторы точно рассчитывали маршрут. До недавнего времени по дорогам ездили специальные автомобили с операторами, снимали видео, потом отсматривали его, отмечали знаки и наносили на карту. Сейчас эту работу автоматизируют с помощью приложения для смартфонов. Водители используют приложение как видеорегистратор, который сразу загружает видео в интернет. Нейросеть его обрабатывает, отыскивает дорожные знаки и наносит на карту. Программа настолько хорошо справляется, что задача поиска дорожных знаков в ближайшие годы будет решена.
Нас всех распознают
По всей видимости, в ближайшие 10-15 лет нейросети научатся очень хорошо распознавать и отслеживать все, что нужно человеку, а применений этому найдется масса. Только в Москве департамент видеонаблюдения установил 100 тысяч видеокамер на домах и в подъездах. Сейчас они только записывают, но в обозримом будущем эти потоки видео будут сразу распознавать и находить там нужные данные. К примеру, определенных людей.
Одна из коммерческих компаний, основанная выпускниками лаборатории Антона Конушина, как раз занимается этим направлением, чтобы доработать научные разработки и сделать готовую к продаже систему.
Уже сейчас в некоторых западных аэропортах появились автоматизированные пункты паспортного контроля без пограничника. Пассажир кладет на устройство паспорт, программа распознает лицо по фотографии, сверяет со стоящим человеком и пропускает. Пока это применяется добровольно, то есть пассажир может выбрать, какой контроль проходить — человеческий или машинный.
Еще больший прогресс достигнут в создании автомобилей-роботов, которые уже ездят в некоторых странах по дорогам. Пока только в экспериментальном режиме, но не за горами их полноценное участие в дорожном движении. Автомобили-роботы пока еще дорогие, поскольку напичканы множеством сенсоров. Но постепенно датчики будут заменяться умными программами, распознающими окружение и обстановку вокруг машины и принимающими правильные решения.
А вот еще пример. В помещении прорвало трубу с горячей водой, идет сильный пар. Что сделает человек? Он догадается, что произошла авария, установит источник, доберется до него и перекроет вентиль. Это же может сделать робот, который самостоятельно построит карту местности, определит, что с чем связано и куда нужно двигаться, найдет вентиль и перекроет его.
Большие перспективы открываются для очков дополненной реальности, потому что в них требуются элементы распознавания изображений. Это устройства, которые получают изображения того, что видит человек, а также разнообразные данные об окружающей среде. В результате в очках синтезируются картинки с разными параметрами, которые помогают лучше ориентироваться в определенных обстоятельствах.
Мы будем строить точные карты местности, которые постоянно обновляются, или воссоздавать картины прошлого. Здесь есть потенциал для туристической отрасли. Приезжая в Грецию, можно будет усилить впечатления от развалин с помощью специальных очков. Надел их и смотришь, как одинокая древняя колонна начинает надстраиваться, вокруг появляется целый храм, площадь, древние греки. По словам, Антона Конушина, такая воссозданная реальность будет производить колоссальное впечатление на людей, они захотят повторно посещать достопримечательности, чтобы приобрести новый опыт.
Благодаря нейросетям и статистическим методам машинного обучения, резко выросло качество распознавания речи и текста, машинного перевода. Недавно Skype (очень популярная в мире программа видеосвязи) внедрил новую функцию — «перевод на лету». Теперь между собой могут общаться люди на разных языках. Программа будет переводить каждому из них речь собеседника с некоторой задержкой. Русского перевода пока нет, но это дело времени. Это совершенно революционизирует наше общение.
Такие возможности поставили вопрос о том, как изменится наша работа в будущем. Ведь многие вещи, выполняемые раньше вручную, уже теперь делаются автоматически, а дальше программы будут только сильнее заменять человека. Пока искусственный интеллект развивался медленно, появлялись какие-то отдельные приложения, мелкие изменения, общество несильно задумывалось, разве что философы обсуждали угрозы и риски, которые несут с собой роботы. Теперь же процесс внедрения машин в нашу жизнь идет лавинообразно. Еще недавно в медицине инновацией считали отправлять рентгеновские снимки из США в Индию, где врач их читал, делал описания и отправлял назад. Сейчас речь идет, чтобы заменить эту операцию компьютерной программой, распознающей изображения и самостоятельно составляющей описания.
Несмотря на впечатляющий прогресс, пока нельзя утверждать, что машины делают все лучше людей. Решены только отдельные задачи, применительно к ограниченному типу данных. Лица на снимках хорошего качества машина действительно распознает не хуже человека. Машинный перевод получается похуже, чем у человека. Но это, если мы рассматриваем простой случай перевода. А возьмем другую сторону вопроса, когда программа переводит речь человека сразу на десятки языков. Этого ни один переводчик сделать не сможет.
Хотим мы или нет, но машинное обучение достигло принципиально нового уровня. Искусственный интеллект все-таки создан и будет совершенствоваться. Некоторые последствия этой технологической революции каждый из нас может без труда предсказать, но как мы будем жить, а главное, чувствовать себя, через 10 лет, я думаю, не возьмется предвидеть никто.