ВОССТАНОВЛЕНИЕ ПРОПУСКОВ В ДАННЫХ РАНДОМИЗАЦИОННЫМИ АЛГОРИТМАМИ

Плотников С.П. 1

1Липецкий государственный технический университет

Работа в формате PDF

112.4 KB

Сертификат участника

Комментарии

Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Введение

При проведении статистического анализа на практике ограничиваются анализом не всей генеральной совокупности в целом, а лишь некоторого выборочного числа наблюдений. Анализируемая выборка должна отвечать критериям качественности и полноты. В реальности приходится сталкиваться с ситуацией, когда некоторые из свойств одного или нескольких объектов отсутствуют - возникает ситуация данных с пропусками, что значительно осложняет математическую обработку, так как смещение основных статистических характеристик, таких как математическое ожидание или дисперсия, например, возрастает прямо пропорционально числу пропусков[1].

С проблемой обработки пропусков в данных приходится сталкиваться в самых разнообразных приложениях статистического анализа. Многие исследователи стремятся как можно быстрее избавиться от пропусков с тем, чтобы в последствии провести обработку «полных» данных стандартными средствами, мало задумываясь над тем, что такой подход может приводить к сильному различию статистических выводов, сделанных при наличии в данных пропусков и при их отсутствии[2].

В данной работе рассмотрены методы, которые ещё не применялись для восстановления пропусков, а были изначально предназначены для моделирования технологических процессов и увеличения выборок данных.

Основной из проблем, поставленных в данной работе, является неполнота выборок результатов интернет-тестирований и бланочных тестов, которые в дальнейшем будут исследованы более подробно.

Структура исходных данных

Пусть - вектор входных факторов, - вектор результирующих характеристик [3], - количество значений факторов, - количество значений характеристик, где и заранее известно, , .

Таблица 1. Общий вид исходной таблицы данных

X_1	X_2	X_3	...	X_n	Y_1	Y_2	...	Y_m
X_1_1	X_2_1	X_3_1	...	*	Y_1_1(X)	Y_2_1(X)	...	Y_m_1(X)
X_1_2	X_2_2	*	...	X_n_2	Y_1_2(X)	Y_2_2(X)	...	Y_m_2(X)
X_1_3	*	X_3_3	...	X_n_3	Y_1_3(X)	Y_2_3(X)	...	Y_m_3(X)
...	...	...	...	...	...	...	...	...
X_1_n_1	X_1_n_2	*	...	X_n_n_n	Y_1_m_1(X)	Y_2_m_2(X)	...	Y_m_m_m(X)

Где * - пропуск в данных, - значение -го фактора в ячейке, - значение -й результирующей характеристики в ячейке, зависящее от вектора .

Задача восстановления пропусков заключается в нахождении , где - вектор , восстановленный по определенному методу восстановления пропусков в данных.

Рассматриваемые методы
1. Монте-Карло
2. Jackknife
3. Bootstrap

В методе Bootstrap многократно осуществляется случайный выбор с возвращением элементов из факторов в пропуски этих факторов по порядку также при том условии, что подставляемое значение попадает в область определения значений восстанавливаемого пропуска.

i=1,g=1;i<n;i++

Рис.2. Блок-схема метода Bootstrap

Заключение

В работе были представлены краткие описания и блок-схемы методов рандомизированной обработки данных, которые в дальнейшем будут верифицированы применительно к восстановлению пропусков в данных и экспериментально апробированы на интернет-тестированиях с составлением подробной статистики по их эффективности на сайте http://attitud.ru/.

Библиографический список

Злоба Е., Яцкив И. Статистические методы восстановления пропущенных данных. "Computer Modelling & New Technologies, 2002, Volume 6, No.1, 51-61", 2002, 11с.
Литтл Р., Дж. А., Рубин Д.Б. Статистический анализ данных с пропусками. М.: Финансы и статистика, 1990, 336c.
Снитюк В.Е., Эволюционный метод восстановления пропусков в данных [Электронный документ]URL:http://iissvit.narod.ru/rass/vip42.htm/
Блюмин С.Л., Самордин П.В. Рандомизированное моделирование технологических зависимостей: Учебное пособие. Липецк: ЛГТУ, 1995, 67с.

Просмотров работы: 1546

Код для цитирования:

VII Международная студенческая научная конференция Студенческий научный форум - 2015

ВОССТАНОВЛЕНИЕ ПРОПУСКОВ В ДАННЫХ РАНДОМИЗАЦИОННЫМИ АЛГОРИТМАМИ

Студенческий научный форум - 2015
VII Международная студенческая научная конференция