ВОССТАНОВЛЕНИЕ ПРОПУСКОВ В ДАННЫХ РАНДОМИЗАЦИОННЫМИ АЛГОРИТМАМИ - Студенческий научный форум

VII Международная студенческая научная конференция Студенческий научный форум - 2015

ВОССТАНОВЛЕНИЕ ПРОПУСКОВ В ДАННЫХ РАНДОМИЗАЦИОННЫМИ АЛГОРИТМАМИ

Плотников С.П. 1
1Липецкий государственный технический университет
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Введение

При проведении статистического анализа на практике ограничиваются анализом не всей генеральной совокупности в целом, а лишь некоторого выборочного числа наблюдений. Анализируемая выборка должна отвечать критериям качественности и полноты. В реальности приходится сталкиваться с ситуацией, когда некоторые из свойств одного или нескольких объектов отсутствуют - возникает ситуация данных с пропусками, что значительно осложняет математическую обработку, так как смещение основных статистических характеристик, таких как математическое ожидание или дисперсия, например, возрастает прямо пропорционально числу пропусков[1].

С проблемой обработки пропусков в данных приходится сталкиваться в самых разнообразных приложениях статистического анализа. Многие исследователи стремятся как можно быстрее избавиться от пропусков с тем, чтобы в последствии провести обработку «полных» данных стандартными средствами, мало задумываясь над тем, что такой подход может приводить к сильному различию статистических выводов, сделанных при наличии в данных пропусков и при их отсутствии[2].

В данной работе рассмотрены методы, которые ещё не применялись для восстановления пропусков, а были изначально предназначены для моделирования технологических процессов и увеличения выборок данных.

Основной из проблем, поставленных в данной работе, является неполнота выборок результатов интернет-тестирований и бланочных тестов, которые в дальнейшем будут исследованы более подробно.

  1. Структура исходных данных
  2. Пусть - вектор входных факторов, - вектор результирующих характеристик [3], - количество значений факторов, - количество значений характеристик, где и заранее известно, , .

    Таблица 1. Общий вид исходной таблицы данных

    X_1

    X_2

    X_3

    ...

    X_n

    Y_1

    Y_2

    ...

    Y_m

    X_1_1

    X_2_1

    X_3_1

    ...

    *

    Y_1_1(X)

    Y_2_1(X)

    ...

    Y_m_1(X)

    X_1_2

    X_2_2

    *

    ...

    X_n_2

    Y_1_2(X)

    Y_2_2(X)

    ...

    Y_m_2(X)

    X_1_3

    *

    X_3_3

    ...

    X_n_3

    Y_1_3(X)

    Y_2_3(X)

    ...

    Y_m_3(X)

    ...

    ...

    ...

    ...

    ...

    ...

    ...

    ...

    ...

    X_1_n_1

    X_1_n_2

    *

    ...

    X_n_n_n

    Y_1_m_1(X)

    Y_2_m_2(X)

    ...

    Y_m_m_m(X)

    Где * - пропуск в данных, - значение -го фактора в ячейке, - значение -й результирующей характеристики в ячейке, зависящее от вектора .

    Задача восстановления пропусков заключается в нахождении , где - вектор , восстановленный по определенному методу восстановления пропусков в данных.

  3. Рассматриваемые методы
    1. Монте-Карло
    2. Метод Монте-Карло применяется следующим образом. Реализованный на ЭВМ датчик псевдослучайных чисел используется для генерирования набора "искусственных" данных из области допустимых значений для конкретного восстанавливаемого значения .

      Рис.1. Блок-схема метода Монте-Карло

    3. Jackknife
    4. В методе Jackknife из факторов последовательно удаляется каждый элемент, не являющийся пропуском, в результате чего получается набор из выборок , каждая объема [4]. Элементы из этих выборок подставляем по порядку в пропуски исходных выборок при условии, что эти элементы попадают в область определения значений восстанавливаемых пропусков.

      Рис.2. Блок-схема JackKnife

    5. Bootstrap

В методе Bootstrap многократно осуществляется случайный выбор с возвращением элементов из факторов в пропуски этих факторов по порядку также при том условии, что подставляемое значение попадает в область определения значений восстанавливаемого пропуска.

i=1,g=1;i<n;i++

Рис.2. Блок-схема метода Bootstrap

Заключение

В работе были представлены краткие описания и блок-схемы методов рандомизированной обработки данных, которые в дальнейшем будут верифицированы применительно к восстановлению пропусков в данных и экспериментально апробированы на интернет-тестированиях с составлением подробной статистики по их эффективности на сайте http://attitud.ru/.

Библиографический список

  1. Злоба Е., Яцкив И. Статистические методы восстановления пропущенных данных. "Computer Modelling & New Technologies, 2002, Volume 6, No.1, 51-61", 2002, 11с.
  2. Литтл Р., Дж. А., Рубин Д.Б. Статистический анализ данных с пропусками. М.: Финансы и статистика, 1990, 336c.
  3. Снитюк В.Е., Эволюционный метод восстановления пропусков в данных [Электронный документ]URL:http://iissvit.narod.ru/rass/vip42.htm/
  4. Блюмин С.Л., Самордин П.В. Рандомизированное моделирование технологических зависимостей: Учебное пособие. Липецк: ЛГТУ, 1995, 67с.
Просмотров работы: 1518