ОБ ИНТЕЛЛЕКТУАЛЬНЫХ МЕТОДАХ УПРАВЛЕНИЯ В ТЕХНИЧЕСКИХ СИСТЕМАХ, РЕГУЛИРУЮЩИХ ИНТЕРНЕТ-ТРАФИК - Студенческий научный форум

X Международная студенческая научная конференция Студенческий научный форум - 2018

ОБ ИНТЕЛЛЕКТУАЛЬНЫХ МЕТОДАХ УПРАВЛЕНИЯ В ТЕХНИЧЕСКИХ СИСТЕМАХ, РЕГУЛИРУЮЩИХ ИНТЕРНЕТ-ТРАФИК

Сеноедов А.В. 1, Скородумова Е.А. 1
1МТУСИ
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF
В статье произведён анализ проблем и методов в сфере контроля за Интернет-трафиком в технических системах в рамках курсового проекта по дисциплине «Machine Learning. Обучающиеся технические системы». Научный руководитель – Скородумова Е. А. Рассмотрены современные технологии способов фильтрации контента и задачи, стоящие перед разработчиком такого решения.

Сегодня пользование сетью Интернет занимает значительную часть жизни людей. Рост количества сайтов, новые сервисы, уникальный контент, быстрый поиск информации привлекают и делают доступнее Всемирную сеть для всё большего количества людей, в том числе – для малолетних детей. Однако содержащиеся на страницах сведения могут представлять угрозу для некоторых пользователей. Это привело к созданию всевозможных ограничений доступа к сайтам с помощью программных и других средств. Использовать такие средства могут родители, компании и организации, государственные учреждения. Для того чтобы обезопасить пользователя от случайного или намеренного посещения «вредных» ему страниц, необходимо создать систему, которая бы фильтровала неприемлемые сайты.

Главная задача фильтрации – анализ проходящего через техническое устройство трафика из сети и контроль за этим трафиком. Если информация, поступающая на устройство, не проходит критерии отбора, необходимо наложить запрет на доступ к данной информации. Существуют следующие виды ограничений: корпоративный этикет, пропаганда противоправных действий и ограничение доступа детям и подросткам. На последнее сделан акцент в данной статье. Для этой категории пользователей необходимо блокировать: порнографию, азартные игры, наркотики, алкоголь, насилие, оружие, курение, информацию о суициде и т.д. Всё это может нанести вред ребёнку. В последнее время подобные вещи стали особенно «актуальны», что подтверждает важность проблемы.

Рассмотрим различные категории оборудования, на котором возможно реализовать систему фильтрации трафика [1]:

  • Устройства пользователя (роутер, персональный компьютер). Возможны различные реализации: служба операционной системы, элемент браузера, настройки в службе DNS.

  • Операционные системы, функционирующие на промежуточных узлах сети – совмещение средств фильтрации с сетевыми устройствами [2]. Например, аппаратно-программный компонент оборудования.

  • Среда облачных вычислений. Система предоставляется как сервис.

Все виды системы фильтрации должны быть реализованы таким образом, чтобы пользователь имел минимум возможностей её обойти.

Опишем наиболее распространённые методы фильтрации [1]:

  • Самоидентификация сайта. Сайт предоставляет информацию о себе.

  • «Белые» списки. Пользователю позволено посещать только доверенные сайты из заранее составленного списка.

  • «Чёрные» списки. Составляется база сайтов, посещение которых запрещено.

  • «Безопасный поиск». Некоторые поисковые машины позволяют проводить поиск со встроенной фильтрацией.

  • «Стоп-слова». Создаётся база слов – типичных для запрещённых категорий. Встретив их в документе, система заблокирует доступ.

У приведённых методов возникают следующие проблемы:

  • Постоянный рост количества сайтов в очень высоком темпе. Поэтому сформированные заранее базы быстро устаревают.

  • Загрузка контента происходит непосредственно при открытии сайта, что не позволяет определить его тематику заблаговременно.

  • Многообразие форм одного слова и наличие синонимов – данных системы с предопределёнными базами может оказаться недостаточно.

Из-за приведённых недостатков следует использовать более продвинутые методы решения задачи – в частности, динамический контроль за Интернет-трафиком. Его основа – анализ страницы непосредственно в момент открытия сайта, что позволяет решить многие описанные проблемы. Для реализации метода используется так называемый интеллектуальный анализ содержания страницы. В англоязычной литературе подобные способы называют «Data Mining». Под словом «интеллектуальный» имеется в виду, что задача не тривиальна, и её решение нельзя получить стандартным алгоритмом. Такая система «предсказывает» итоговое значение, основываясь на полученных входных данных. Подобные методы относятся к методам машинного обучения. Их объединяет обучение в процессе построения системы, которое позволяет найти оптимальное решение.

Существуют различные методы интеллектуального анализа [3]:

  • Дерево принятия решений (decision trees) [4]. Данный подход представляет собой древовидную структуру, в узлах которой расположены предикаты или функции. Чтобы прийти к решению, нужно «спуститься» по ветвям дерева до конечного значения. Метод тесно связан со статистикой и теорией принятия решений.

  • Метод k ближайших соседей (k-NN) [5]. Новому образу присваивается класс, который имеют большинство его соседей. Необходимо задать функцию расстояния, чтобы определять близость образов.

  • Байесовский классификатор. Основан на теореме Байеса [6]. Предполагаем, что переменные условно независимы друг от друга.

  • Системы нечёткой логики (fuzzy logic) [7] – обобщение классической логики.

  • Нейронные сети [7] – математическая имитация работы человеческого мозга. Если упростить, то можно сказать, что построенная нейронная сеть – это функция от многих параметров, выдающая результат как значение выходных переменных.

  • Генетические алгоритмы [8] – подход, использующий случайный подбор и комбинирование искомых параметров с использованием методов, аналогичных естественному отбору в природе.

На сегодняшний день существует много практических реализаций системы контроля информации. Разработаны стандартные протоколы, позволяющие интегрировать систему фильтрации в промежуточное сетевое оборудование [2]: Internet Content Adaptation Protocol и Open Pluggable Edge Services. Есть концепция межсетевых экранов Unified Threat Management, которые представляют собой общую платформу безопасности. Решение от компании Microsoft – Forefront, модуль-расширение для сетевой структуры. Squid [9] – это программный пакет, реализующий функцию кэширующего прокси-сервера; используются списки контроля доступа, которые могут состоять из различных критериев. Cisco предоставляет аппаратные решения: IOS Content Filtering, SCE Service Control Engine [2]. Российский NetPolice [10] – это контент-фильтр, организуемый на компьютере конечного пользователя; содержит крупнейшую базу классифицированных сайтов; применяется в школах и государственных учреждениях. Дополнение Adult Blocker [11] представляет собой контроль на компьютерах пользователей; реализован в качестве расширения для браузера; анализирует содержимое страницы и блокирует неприемлемые сайты. Его и будем использовать для исследования работы контент-фильтра.

Пример работы контентной фильтрации

Рассмотрим работу метода контентной фильтрации с помощью использования расширения Adult Blocker [11]. Это бесплатное решение, которое не требует специальных знаний и настройки, достаточно установить его в браузере. Данный продукт осуществляет морфологический анализ веб-страниц на наличие неприемлемых слов и словосочетаний. Можно настраивать «чёрный» и «белый» списки. В первую очередь, предназначен для детей, родители которых хотят оградить ребёнка от порнографии, нецензурных выражений и пропаганды насилия. Есть возможность установки пароля для дополнительной защиты. Приведём в таблице некоторые сведения о том, что использовалось для исследования.

Таблица 1 - Используемое программное обеспечение и его настройки

Название и версия программы

Adult Blocker 5.0.1

Год размещения программы на хостинге

2016

Операционная система компьютера

Windows 7 Максимальная

Браузер

Яндекс.Браузер 17.11.0.2191

Язык проверяемых страниц

русский

Поисковая система

Яндекс

Другие системы контроля на компьютере

нет

Дополнительная настройка списков фильтрации

нет

Установленный пароль на расширение

Да

Имеем вполне стандартную схему использования пользователем компьютера. Откроем страницу с заведомо неприемлемым контентом сначала с выключенным плагином, а затем с включённым и сравним вывод браузера.

Рис. 1 – Страница до работы плагина

Рис. 2 – Страница после работы плагина

Плагин успешно заблокировал поисковую выдачу с неприемлемыми сайтами. Теперь попробуем обойти блокировку. Выключить плагин не удаётся, т.к. установлен пароль. Зайти на сайт по прямой ссылке также не получается, так как на странице множество слов, на которые обращает внимание расширение и блокирует страницу. Пробуем изменить запрос с «порнография» на «порнография википедия» и попросим выдать поисковик видео на эту тему. Получим:

Рис. 3 – Первоначальная выдача браузера с включённым плагином

Блокировка не сработала, хотя это требовалось. Однако, через некоторое время страница перерисовалась и всё же появилось сообщение о блокировке:

Рис. 4 – Показываемая страница через некоторое время после загрузки

Плагин ожидал, пока загрузится вся страница, которая была достаточно объёмной из-за наличия видео. В свою очередь, браузер показывал содержимое по мере загрузки сайта. Это и является причиной запоздалой работы расширения. Можно сделать вывод о неверном написании кода плагина, который срабатывает несвоевременно и даёт возможность увидеть контент страницы. В итоге, дополнение для контроля web-трафика работает, но с достаточно серьёзными проблемами. В целом, использование только данного дополнения в качестве полноценной системы контроля не является хорошим решением. Опишем недостатки:

  • Плагин только «накладывает» свои сообщения поверх выдачи сайта. Эту «лазейку» можно использовать для доступа к странице.

  • Работа контент-фильтра происходит в браузере, который можно заменить на другой или переустановить.

  • Чтобы обойти блокировку, нужно обойти всего лишь одно средство – плагин. Другие возможности (DNS-фильтры, блокираторы на сетевом оборудовании, облачные сервисы) не используются.

Однако, преимущества тоже присутствуют:

  • Большинство сайтов, где имеется достаточно текста, будут блокированы.

  • Неопытные пользователи, в частности, дети малого возраста, не смогут обойти такую защиту.

  • Простота и отсутствие требований к управлению и настройке системы.

Таким образом, чтобы разработать качественную систему, нужно учесть следующие определяющие моменты:

  • Динамический контроль. В рассмотренном приложении он осуществляется, но лучше не предъявлять страницу пользователю до анализа.

  • Интеллектуальные методы. В примере доступ блокируется по спискам слов и выражений. В разрабатываемой системе нужно использовать такие списки для анализа с помощью, например, нейронных сетей.

  • Охват сетевой инфраструктуры. Желателен контроль на всех возможных уровнях в зависимости от целевого пользователя. Можно использовать службы операционных систем, внедрение в принцип работы роутера, размещение на оборудовании провайдера, прокси- и DNS-сервера.

  • Анализ структуры сайта. Часто важен тип сайта: форум, агрегатор новостей, социальная сеть, наличие комментариев и т.д. Т.е. подбор правильных критериев, по которым будет осуществляться оценка сайта.

  • Язык страницы. Если система сможет проводить оценку на разных языках (или переводить на один язык), то результативность повышается.

  • Структура сайта. В идеальной системе анализируется не только текст, но и изображения, и видео, очень распространённые в Интернете.

Если решить данные задачи, можно создать качественную систему фильтрации сайтов. Таким образом, интеллектуальные методы выглядят наиболее привлекательными по сравнению с любыми другими методами, так как позволяют работать не по заданному алгоритму, а подстраиваясь к конкретному случаю.

Выводы

В данной статье были определены основные задачи, которые необходимо решать при создании системы фильтрации. Актуальность проблем не вызывает сомнения. Кратко представлены: инфраструктура для размещения системы фильтрации контента; основные методы, используемые для решения проблемы, и их критические недостатки, значительно снижающие шансы использования систем фильтрации на основе таких методов в настоящее время.

Как передовой метод рассмотрен метод динамической контентной фильтрации. Его основа состоит в использовании интеллектуальных способов контроля трафика и методов машинного обучения. Наиболее популярные из них были представлены. Также кратко рассмотрены практические решения, используемые в рамках контроля информации в сети.

В качестве примера рассмотрена работа контент-фильтра Adult Blocker. На основании результатов эксперимента определены преимущества и недостатки системы и сделаны выводы о том, в каком направлении следует разрабатывать систему контроля и фильтрации Интернет-трафика. Можно сделать уверенный вывод о применимости и желательном использовании методов машинного обучения при анализе и контроле Интернет-трафика.

Список используемой литературы и источники:

  1. Смирнов И. В., Соченков И. В., Суворов Р. Е., Тихомиров И. А. – Фильтрация контента в интернете: современный уровень и перспективы. Федеральный исследовательский центр "Информатика и управление" Российской академии наук, 2013. – 72с.

  2. Alex Ott's home page (russian) [Электронный ресурс]: Отт А. – Современные тенденции в области контентной фильтрации. URL: http://alexott.net/ru/writings/cf/index.html (дата обращения 25.12.2017).

  3. Чечулин А. А., Котенко И. В. – Разработка системы защиты пользователей от нежелательной информации в сети Интернет. ОАО «Концерн «ЦНИИ «Электроприбор», 2014. – 856с.

  4. Хабрахабр [Электронный ресурс]: Энтропия и деревья принятия решений / Хабрахабр. URL: https://habrahabr.ru/post/171759/ (дата обращения: 25.12.2017).

  5. Тоби Сегаран – Программируем коллективный разум (Programming Collective Intelligence). Издательство: Символ-Плюс, 2008. – 368с.

  6. Wolfram MathWorld [Электронный ресурс]: Bayes' Theorem – from Wolfram MathWorld. URL: http://mathworld.wolfram.com/BayesTheorem.html (дата обращения: 25.12.2017).

  7. Круглов В.В., Дли М.И, Голунов Р.Ю. Нечёткая логика и искусственные нейронные сети. М.: ФИЗМАТЛИТ, 2001. 225с.

  8. Пальмов С. В. – Интеллектуальный анализ данных: учебное пособие. Самара: ПГУТИ, 2017. – 124 с.

  9. Squid [Электронный ресурс]: Squid: Optimising Web Delivery. URL: http://www.squid-cache.org/ (дата обращения: 25.12.2017).

  10. NetPolice.RU [Электронный ресурс]: Безопасный и полезный интернет с NetPolice. URL: http://www.netpolice.ru/ (дата обращения: 25.12.2017).

  11. Adult Blocker [Электронный ресурс]: Adult Blocker (Parental Control) – Block porn sites in internet. URL: http://adult-blocker.com/ (дата обращения: 31.12.2017).

Просмотров работы: 160