ПРИМЕНЕНИЕ КОГНИТИВНЫХ СЕРВИСОВ ДЛЯ РАСПОЗНАВАНИЯ ЛИЦ - Студенческий научный форум

IX Международная студенческая научная конференция Студенческий научный форум - 2017

ПРИМЕНЕНИЕ КОГНИТИВНЫХ СЕРВИСОВ ДЛЯ РАСПОЗНАВАНИЯ ЛИЦ

Генчель К.В. 1
1Московский Технический Университет Связи и Информатики
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF
     
В статье кратко описываются результаты анализа предметной области по направлению распознавания образов, в частности лиц, как начальный этап магистерской диссертационной работы на тему “Разработка программного комплекса для распознавания жестового языка инвалидов с нарушением слуха на основе алгоритмов машинного обучения” на первом курсе магистратуры факультета информационных технологий МТУСИ (науч.рук. к.т.н. доц. В.И.Воронов). Были рассмотрены существующие программы, их алгоритмы и результаты работы.

Когнитивная система может быть определена как система, которая способна познавать свое окружение и адаптироваться к нему или изменять его за счет накопленных в процессе функционирования знаний и приобретенных навыков [1]. Когнитивные технологии “имитируют” мыслительную деятельность человека и, как правило, основаны на моделях с нечеткой логикой (fuzzy logic) и на нейронных сетях [2]. Они применяются в совершенно разных направлениях: при разработке систем управления роботами, универсальных аналитических систем, систем поддержки принятия решений и многих других.

Основная функциональность когнитивных систем и сервисов описана ниже.

Анализ языка. Многие системы включают в себя те или иные возможности в этой сфере [3,4]: понимание языка, лингвистический анализ, AlchemyLanguage, переводчик, текстовая аналитика, преобразование документов, классификатор естественного языка, персональное исследование, восстановление и ранжирование, анализатор тембра.

Работа с речью. Преобразованием речи в текст и обратно также занимаются многие компании-разработчики [3,4,5], и для этого существует большое количество различных приложений, которые могут работать, как отдельно на устройстве, так и в браузерах, например speechpad [6], speechlogger [7] и многие другие.

Визуальное распознавание. Системы в данной области имеют разную функциональность. Существуют возможности распознавания лиц, эмоций, видео, компьютерное зрение и другие.

Исследование данных, включает в себя интеллектуальный анализ данных.

Системы поиска. Данные системы занимаются поиском изображений, новостей, видео, веб-ресурсов и т.п.

Рассмотрим подробнее визуальное распознавание образов.

Распознавание образов

Разработчики на протяжении многих лет занимаются решением задачи обучения машин распознаванию образов. Постановка этой задачи появилась в конце пятидесятых и заключалась в том, чтобы построить машину, способную обучаться классификации или распознаванию образов так же, как это делают живые существа [8]. Следовательно, распознавание образов представляет собой задачу преобразования входной информации (к ней относятся некоторые параметры, признаки распознаваемых образов) в выходную, представляющую собой заключение о том, к какому классу относится распознаваемый объект [9].

Системы распознавания образов можно классифицировать следующим образом:

  1. В зависимости от того, физически однородная или неоднородная информация используется для описания распознаваемых объектов: простые и сложные [9];

  2. По свойствам управления систем в процессе распознавания: гибкие и жесткие системы распознавания образов реального времени [10];

  3. В зависимости от распознаваемых объектов:

  1. Системы машинного зрения. Предназначены для получения с камер изображения и составление его описания в символьном виде (какие объекты присутствуют, в каком взаимном отношении находятся).

  2. Символьное распознавание (распознавание букв или цифр) - оптическое распознавание символов, ввод и хранение документов, обработка чеков в банках, обработка почты.

  3. Диагностика в медицине - маммография, рентгенография, постановка диагноза по истории болезни, электрокардиограмма.

  4. Распознавание речи.

  5. Распознавание в дактилоскопии (отпечатки пальцев), распознавание лица, подписи, жестов.

Существует множество подходов и решений для задачи распознавания образов: алгоритм скелетизации (распознавание бинарных образов на основе построения их скелетов и нахождении ребер и узлов), нейросетевые структуры (распознавание образов с помощью нейронных сетей), а также инвариантные числа, поточечное процентное сравнение с эталоном и многие другие. Перед тем, как рассматривать системы, распознающие сложные образы, такие как жесты языка глухонемых, следует начать с изучения систем распознавания более простых образов, например, лиц.

Распознавание лиц

Возможности систем для распознавания лиц разнообразны. Они позволяют обнаруживать человеческие лица, сравнивать аналогичные лица, распределять людей на группы по визуальным сходствам или идентифицировать ранее помеченных на изображениях людей в зависимости от самого сервиса распознавания.

Далее подробно рассмотрены задачи, которые могут выполнять системы распознавания лиц.

Face Detection (обнаружение лиц). Обнаружение одного или нескольких лиц в кадре и получение прямоугольной области, выделяющей место нахождения лица на изображении, также получение признаков лица, которые содержат предсказания черт лица на основе машинного обучения. Могут быть доступны следующие признаки лица: возраст, пол, поза, улыбка, и волосы на лице, а также 27-ориентиров для каждого лица на изображении.

Face Verification (верификация лиц). Проверка вероятности того, что два лица принадлежат одному и тому же человеку. API возвращает доверительную оценку того, какова вероятность вышесказанного.

Face Identification (идентификация лиц). Поиск и идентификация лиц. Тегирование (маркировка) людей и групп в соответствии с пользовательскими данными, а затем поиск ранее не попадавшихся лиц.

Similar Face Searching (поискпохожихлиц). Принимая во внимание совокупность имеющихся лиц и новое лицо в качестве запроса, система будет возвращать набор из похожих лиц.

Face Grouping (группировка лиц). Организация различных неопознанных лиц вместе в группы, на основе их визуального сходства.

Существуют множество подходов к процессу распознавания лиц.

Методы распознавания лиц

Выделим общую структуру процесса распознавания лиц (Рис. 1):

Рисунок 1. Процесс распознавания лица на изображении

Основное отличие друг от друга алгоритмов, представленных ниже – это вычисление признаков и сравнение их совокупностей между собой.

Перечислим некоторые методы распознавания лиц: Метод гибкого сравнения на графах, Нейронные сети, Скрытые Марковские модели (СММ, HMM), Метод главных компонент, Active Appearance/Shape Models.

Методы распознавания лиц можно разделить на два класса: распознавание лиц на основе определения локальных особенностей лица и целостное (holistic) распознавание лиц [11]. Основу обоих классов распознавания лиц составляет метод главных компонент [12]. Метод главных компонент (Principal Component Analysis, PCA) – один из наиболее распространенных методов для уменьшения размерности данных, потери наименьшего количества информации. В задаче распознавания лиц его применяют главным образом для представления изображения лица вектором малой размерности (главных компонент), который сравнивается затем с эталонными векторами, заложенными в базу данных. Метод заключается в линейном ортогональном преобразовании входного вектора P размерности N в выходной вектор Q размерности M, M

Просмотров работы: 661