ПРОЕКТИРОВАНИЕ ИНТЕЛЛЕКТУАЛЬНОГО ПОМОЩНИКА, СОРТИРУЮЩЕГО ПИСЬМА - Студенческий научный форум

VI Международная студенческая научная конференция Студенческий научный форум - 2014

ПРОЕКТИРОВАНИЕ ИНТЕЛЛЕКТУАЛЬНОГО ПОМОЩНИКА, СОРТИРУЮЩЕГО ПИСЬМА

Крекнина Е.С. 1, Субботин Е.А. 1, Фролов Т.А. 1, Охапкина Е.П. 1
1российский государственный гуманитарный университет
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

С ростом электронного общения, значительно возросло количество нежелательной корреспонденции (спама). В связи с этим актуальна задача создания интеллектуальных помощников, сортирующих письма. В статье рассматривается проектирование такого интеллектуального помощника.

В настоящее время около 80% корреспонденции – спам. Никто не хочет, открыв свою почту, увидеть около сотни писем, из которых лишь 2-3 действительно адресованы ему. Следовательно, желательно научиться отбирать нежелательную почту.

В большинстве случаев, нежелательная почта имеет общую структуру построения сообщения. Поскольку спам – рассылка коммерческой и иной рекламы или иных видов сообщений лицам, не выражавшим желания их получать, то легко предположить, что в таких письмах будут встречаться слова типа «скидка», «купить», «только у нас» и прочие. Если провести более полный анализ, то можно создать обширную, пополняемую базу стоп-слов, по которым будет оцениваться, является письмо спамом или нет. Разработав интеллектуального помощника работающего с такой базой можно получить функциональность, позволяющую оценивать пришедшее письмо, определяя, является ли оно спамом, и убирать нежелательную корреспонденцию в соответствующий раздел почтового ящика.

Таким образом, пользователь сможет заходить на почту, где все письма отсортированы по вероятности содержания в них спама и, если какое-то письмо из папки с проверенными письмами все же окажется спамом, просто дополнить онтологию соответствующими словами.

Целью исследования является проектирование интеллектуального помощника, сортирующего письма. При этом необходимо решить задачи: 1) анализ предметной области; 2) выделение объектов, в которых встречаются стоп-слова; 3) сбор стоп-слов; 4) разработка онтологии и заполнение ее стоп-словами; 5) разработка модели взаимодействия агентов.

В результате анализа множества нежелательных писем, были выделены определенные элементы, на которые следует обратить внимание: адресант, скрытая копия, тема, заголовок, содержание, ссылки, картинки, подпись, прикрепленные файлы. Адресант – тот, кто отправил письмо. Многие почтовые сервера являются известными «рассыльщиками» нежелательной корреспонденции. Скрытая копия – если вы содержитесь в скрытой копии, вполне возможно, что это спам. Тема – в теме нежелательных писем часто встречаются такие вещи как «не упустите шанс!» или загадочные «привет». Заголовок – то, с чего начинается письмо. Если там нет имени пользователя, скорее всего это рассылка. Содержание – основная часть письма. Ссылки – приложенные ссылки. Картинки – многие отправители рекламы, чтобы избежать обработки текста, превращают текст письма в картинку. Подпись – то, чем заканчивается письмо, обычно имя или название организации.

На основе анализа была построена и заполнена таблица этих элементов, ее фрагмент представлен ниже.

Фрагмент таблицы стоп-слов по критериям. Таблица

Адресант

Тема

Заголовок

Содержание

Ссылки

Картинки

Подпись

maillist.ru

вы выиграли

Hey there!

вы подписаны

goo.gl

rghost.ru

служба рассылок

biglion.ru

новые поступления

здравствуйте!

вы выиграли

email-x.ru

radikal.ru

facebook

skidkabum.ru

торопитесь

уважаемый клиент

скидка

   

twitter

netprint

необходимо это знать

New from

ограниченное предложение

   

отписаться

barrkelvinjack

узнайте как

приветствуем вас

вы получаете возможность

   

store

noreply

бесплатный

покупатель

бесплатно

     

no-reply

новости

 

пройдите по ссылке

     

smartmasses

не упустите

 

подробности

     

Онтология разработана в редакторе онтологий Protégé 3.2 [1] и заполнена данными из таблицы. На рис.1 приведена иерархия классов полученной онтологии.

Рис.1. Структура классов в онтологии.

  • Класс Message – сообщение. Содержит наследуемый слот «текст».

    • Подкласс Title – тема. Содержит слот «текст», унаследованный от класса Message.

    • Подкласс Text – текст письма. Содержит слоты «заголовок», «подпись», «изображения», «ссылки» и слот «текст», унаследованный от класса Message.

  • Класс Attachment – прикрепленные файлы. Содержит слоты «название файла», «размер» и «тип».

  • Класс Author – отправитель письма. Содержит слоты «домен» и «имя».

Теперь рассмотрим схему взаимодействия агентов внутри интеллектуального помощника, работающих с разработанной онтологией (Рис. 2).

Рис.2. Схема взаимодействия агентов

Схема работы Агента А (координатор).

  • Получение письма

  • Подключение онтологии

  • Использование структуры онтологии для разделения письма на ключевые части

  • Отправка данных Агенту В

  • Ожидание результатов

  • Получение данных от Агента В

  • Отправка письма в папку, определенную Агентом В

Схема работы Агента В.

  • Получение данных от Агента А

  • Поключение онтологии

  • Поиск ключевых слов из онтологии в соответствующих частях письма

  • Оценка принадлежности письма к группе

  • Окончательное принятие решения о принадлежности письма

  • Отправка решения Агенту А

Цели Агента А:

  • Принять письмо с почты

  • Разбить на составляющие части, используя структуру онтологии

  • Оправить данные Агенту В

  • Принять результат анализа Агента В

  • Поместить письмо в соответствующую папку

Цели Агента В:

  • Принять данные от Агента А

  • Выявить совпадения слов в письме со стоп-словами из онтологии

  • Оценить принадлежность письма к определенной категории

  • Передать окончательное решение Агенту А

Реактивность: Если какая-то часть отсутствует в письме, то агенты ее игнорируют. Если изменилась общая структура писем, то достаточно внести эти изменения в онтологию и агенты смогут обрабатывать новые письма. Письма с необычной структурой отправляются в соответствующую папку.

Количество пользователей интернета с каждым годом растет, что является фактором, стимулирующим спамеров на рассылку всё больше количества нежелательных писем. Защиту от спама можно рассматривать как гонку вооружений. Для защиты от нежелательной рассылки необходимо постоянно пополнять базы стоп-слов, обнаруживать и запоминать адреса отправителей спама. К сожалению, защита от спама не всегда может быстро среагировать на поток таких писем, и почтовые сервисы вынуждены тратить средства на усовершенствование своих систем по борьбе со спамом.

Разработанная онтология и модель взаимодействия агентов внутри интеллектуального помощника будут совершенствоваться дальше и позволят начать реализацию интеллектуального помощника для сортировки писем.

Литература:

1. The Protégé Ontology Editor and Knowledge Acquisition System. 2013. URL: http://protege.stanford.edu/ (дата обращения 15.01.2014)

2. Компьютеры и оргтехника. 2013. URL: computery.ru/news/news2010.php?nid=8302 (дата обращения 24.01.2014)

3. Муромцев Д.И. Онтологический инжиниринг знаний в системе Protégé: Методическое пособие. — СПб: СПбГУ ИТМО, 2007. — 62 с. URL: http://window.edu.ru/window_catalog/redir? (дата обращения 25.01.2014)

Просмотров работы: 967