В настоящее время существуют определенные потребности в системах идентификации пользователей персонального компьютера. В первую очередь, эти потребности вызваны возросшим количеством потоков информации, которые требуют все более надежной и эффективной защиты. На сегодняшний день не существует способов, которые бы могли абсолютно точно произвести распознавание пользователя, находящегося за компьютером, и одновременно с этим были бы просты в применении и максимально эффективны. Кроме того, на данный момент не существует широко известных методов идентификации, которые бы основывались на различиях в поведении разных пользователей во время работы за компьютером. Такие методы, в свою очередь, базируются на биометрических параметрах каждого пользователя.
Целью данной статьи является рассмотрение одного из способов распознавания пользователя на основе его поведения за компьютером.
Для построения модели пользователя были выделены основные источники данных о поведении пользователя за компьютером. Так как такие характеристики (биометрический параметры) пользователя как компьютерный почерк, особенности работы с приложениями, сетевая активность требуют отдельного моделирования, целевая модель пользователя рассматривается как комплексная, то есть представляющая собой, организованную совокупность отдельных подмоделей.
Модель пользователя
Для построения модели необходимо правильно подобрать набор параметров, по которым будет производиться идентификация. Данный набор должен содержать в себе наиболее важные параметры, которые в наиболее полной форме отражают поведение пользователя за компьютером. Кроме того, для дальнейшего распознавания необходимо определить оптимальное представление данных, полученных по набору выбранных признаков.
Модель пользователя включает в себя ряд подмоделей, по которым производится идентификация:
- подмодель клавиатурного почерка;
- подмодель взаимодействия с «мышью»;
- подмодель взаимодействия с другими периферийными устройствами компьютера;
- подмодель активности пользователя в рамках операционной системы (ОС);
- подмодель сетевой активности пользователя;
- метамодель, отображающая основные данные об основной модели, о возможных изменениях в ней;
- ряд других параметров, которые также позволят однозначно идентифицировать пользователя: уникальный идентификатор, пароль, цифровые подписи оборудования и т.д.
Рассматривание взаимодействия пользователя с компьютером с различных точек зрения дает большее количество важной информации необходимой для идентификации и в то же время увеличивает надежность распознавания.
Основным способом представления собранных данных будет являться так называемый идентификационный вектор - вектор в многомерном пространстве, который идентифицирует пользователя относительно выбранной подмодели. Для каждой подмодели формат векторов может быть различным.
Теперь перейдем к описанию каждой подмодели и формату представления ее данных.
Разделение векторов для различных подмоделей существенно сокращает размерность пространства поиска. При разделении векторов для каждой подмодели создается свое пространство поиска, что позволяет с большей точностью производить идентификацию каждому из методов распознавания. Такой подход позволяет также использовать различные методы распознавания для различных подмоделей, что позволяет выбрать наиболее адекватный алгоритм распознавания для каждой подмодели.
Для построения подмодели клавиатурного почерка изначально производится сбор необходимых данных. Используя эти данные, можно определить основные характеристики работы пользователя на клавиатуре и построить идентификационные векторы, которые будут входить в окончательную модель пользователя [3]. Подмодель клавиатурного почерка включает в себя усредненные величины, определяющие характер работы человека за компьютером. Кроме того, был построен специальный словарь из наиболее часто используемых двух и трехбуквенных сочетаний, используемых в русском языке. Для каждого сочетания из словаря рассчитывается среднее время его набора.
В итоге, подмодель клавиатурного почерка включает в себя:
- Идентификационный вектор пользователя, составляющими которого являются временные промежутки набора двухбуквенных сочетаний из словаря.
- Идентификационный вектор пользователя, составляющими которого являются временные промежутки набора трехбуквенных сочетаний из словаря.
- Различные усредненные показатели работы пользователя за клавиатурой: процент использования символьных клавиш, процент использования управляющих и модифицирующих клавиш, среднее время набора каждой клавиши, частоты набора каждой клавиши.
Процесс построения модели взаимодействия с «мышью» практически ничем не отличается от построения модели клавиатурного почерка, за исключением измеряемых величин. Полученные данные после некоторой обработки также представляются в виде идентификационных векторов, которые в данном случае состоят из усредненных величин.
После обработки данных будет получена следующая информация:
- средняя длина кривых, проведенных курсором "мыши";
- средняя скорость движения курсора "мыши";
- среднее ускорение при движении курсором "мыши";
- среднее время двойного щелчка "мыши".
Кривая, проведенная курсором "мыши" - некоторый путь, по которой прошел курсор. Каждая кривая отделяется от другой кривой определенным промежутком времени, который может быть установлен опытным путем. Кроме того, длина пути не может быть меньше некоторой заранее установленной величины, в ином случае такой путь не является кривой.
Для построения подмодели активности пользователя в рамках ОС также производится сбор данных. Для каждого пользователя могут быть определены группы приложений. Каждая группа содержит определенные показатели работы приложений, относящихся к ней. Группы могут быть определены по различным признакам: офисные приложения, мультимедийные приложения и т.д. В итоге в подмодель будет входить ряд векторов, по одному для каждого показателя. Количество элементов в векторе будет зависеть от количества групп.
Показатели можно определить следующим образом:
- средний процент использования центрального процессора;
- общее время использования центрального процессора;
- средний объем занимаемой памяти;
- тип наиболее часто открываемых файлов.
Данные о сетевой активности пользователя собираются аналогично. Все данные, проходящие через сетевые соединения компьютера, просматриваются и обрабатываются. Их достаточно для определения характера сетевой активности пользователя: наиболее часто используемые сетевые сервисы и приложения, тип активности пользователя в сети.
Кроме основных подмоделей, в рамках разработанной модели используются метамодель, содержащая метаинформацию о самой модели, о возможных изменениях в ней. Она содержит данные об изменениях, произошедших в системе: установка нового программного обеспечения, установка или замена внешних устройств и т.д. Используя эти данные, система, использующая модель, может принять решение об изменении основной модели, о пересмотре некоторых из ее составных частей, о переобучении алгоритмов распознавания и т.д.
Заключение
В статье представлен подход к распознаванию пользователя персонального компьютера, основанный на его моделировании.
Большинство современных методов распознавания не предоставляют возможности описывать пользователя с различных точек зрения, рассматривать отдельные стороны его взаимодействия с компьютером совместно, что позволило бы увеличить надежность идентификации.
Разработанная модель наиболее полно отражает поведение пользователя за персональным компьютером. Она сочетает в себе основные биометрические показатели, которые играют значительную роль в формировании характера поведения пользователя.
Библиографический список
[1] Загоруйко Н.Г. Методы распознавание и их применение. М.: Сов. радио. 1972.
[2] Иванов А.И. Биометрическая идентификация личности по динамике подсознательных движений. Пенза: Издательство Пензенского государственного университета. 2000.
[3] Никонов В.С., Юрков К.А. Современная система идентификации личности по клавиатурному почерку // Конференция «Технологии Microsoft в теории и практике»: Сборник трудов / Челябинск. 2009.