Введение
При проведении статистического анализа на практике ограничиваются анализом не всей генеральной совокупности в целом, а лишь некоторого выборочного числа наблюдений. Анализируемая выборка должна отвечать критериям качественности и полноты. В реальности приходится сталкиваться с ситуацией, когда некоторые из свойств одного или нескольких объектов отсутствуют - возникает ситуация данных с пропусками, что значительно осложняет математическую обработку, так как смещение основных статистических характеристик, таких как математическое ожидание или дисперсия, например, возрастает прямо пропорционально числу пропусков[1].
С проблемой обработки пропусков в данных приходится сталкиваться в самых разнообразных приложениях статистического анализа. Многие исследователи стремятся как можно быстрее избавиться от пропусков с тем, чтобы в последствии провести обработку «полных» данных стандартными средствами, мало задумываясь над тем, что такой подход может приводить к сильному различию статистических выводов, сделанных при наличии в данных пропусков и при их отсутствии[2].
В данной работе рассмотрены методы, которые ещё не применялись для восстановления пропусков, а были изначально предназначены для моделирования технологических процессов и увеличения выборок данных.
Основной из проблем, поставленных в данной работе, является неполнота выборок результатов интернет-тестирований и бланочных тестов, которые в дальнейшем будут исследованы более подробно.
Пусть - вектор входных факторов, - вектор результирующих характеристик [3], - количество значений факторов, - количество значений характеристик, где и заранее известно, , .
Таблица 1. Общий вид исходной таблицы данных
X_1 |
X_2 |
X_3 |
... |
X_n |
Y_1 |
Y_2 |
... |
Y_m |
X_1_1 |
X_2_1 |
X_3_1 |
... |
* |
Y_1_1(X) |
Y_2_1(X) |
... |
Y_m_1(X) |
X_1_2 |
X_2_2 |
* |
... |
X_n_2 |
Y_1_2(X) |
Y_2_2(X) |
... |
Y_m_2(X) |
X_1_3 |
* |
X_3_3 |
... |
X_n_3 |
Y_1_3(X) |
Y_2_3(X) |
... |
Y_m_3(X) |
... |
... |
... |
... |
... |
... |
... |
... |
... |
X_1_n_1 |
X_1_n_2 |
* |
... |
X_n_n_n |
Y_1_m_1(X) |
Y_2_m_2(X) |
... |
Y_m_m_m(X) |
Где * - пропуск в данных, - значение -го фактора в ячейке, - значение -й результирующей характеристики в ячейке, зависящее от вектора .
Задача восстановления пропусков заключается в нахождении , где - вектор , восстановленный по определенному методу восстановления пропусков в данных.
Метод Монте-Карло применяется следующим образом. Реализованный на ЭВМ датчик псевдослучайных чисел используется для генерирования набора "искусственных" данных из области допустимых значений для конкретного восстанавливаемого значения .
Рис.1. Блок-схема метода Монте-Карло
В методе Jackknife из факторов последовательно удаляется каждый элемент, не являющийся пропуском, в результате чего получается набор из выборок , каждая объема [4]. Элементы из этих выборок подставляем по порядку в пропуски исходных выборок при условии, что эти элементы попадают в область определения значений восстанавливаемых пропусков.
Рис.2. Блок-схема JackKnife
В методе Bootstrap многократно осуществляется случайный выбор с возвращением элементов из факторов в пропуски этих факторов по порядку также при том условии, что подставляемое значение попадает в область определения значений восстанавливаемого пропуска.
i=1,g=1;i<n;i++
Рис.2. Блок-схема метода Bootstrap
Заключение
В работе были представлены краткие описания и блок-схемы методов рандомизированной обработки данных, которые в дальнейшем будут верифицированы применительно к восстановлению пропусков в данных и экспериментально апробированы на интернет-тестированиях с составлением подробной статистики по их эффективности на сайте http://attitud.ru/.
Библиографический список