ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ - Студенческий научный форум

X Международная студенческая научная конференция Студенческий научный форум - 2018

ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ

Фомин Д.А. 1, Ефимцева И.Б. 2
1ФГБОУ ВО «Курский государственный университет», колледж коммерции, технологий и сервиса,2
2ФГБОУ ВО «Курский государственный университет», колледж коммерции, технологий и сервиса
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF
1. Постановка задачи проверки статистических гипотез

Каждый статистический ряд содержит как случайную составляющую, вызванную ограниченностью числа наблюдений и влиянием случайных факторов в момент проведения наблюдений, так и закономерную. Поэтому делать какие-то утверждения на основе этого ряда, вообще говоря, нельзя. Из-за случайного характера они могут оказаться, как верными, так и неверными. Мы можем лишь выдвигать гипотезы (предположения). И статистические данные могут находиться в согласии с гипотезой или противоречить ей. Большего добиться от статистического исследования мы не можем. Возникает задача проверки статистической гипотезы.

Для решения этой задачи задается доверительная вероятность . Свяжем с данной гипотезой некоторый формализуемый признак. По данной доверительной вероятности  находим доверительный интервал для этого признака, связанного с исследуемой гипотезой. А затем по данному статистическому ряду вычислим величину этого признака для данного ряда. Если вычисленная величина признака выходит за допустимые пределы доверительного интервала, то гипотеза противоречит результатам наблюдений и ее следует отклонить. Если не выходит, то гипотеза согласуется с результатами наблюдений и ее следует принять. Таким образом, все, что можно утверждать на основе статистических наблюдений, - это данные противоречат или не противоречат гипотезе.

При этом возможны ошибки двух родов. Ошибка первого рода: мы отклоняем гипотезу, когда она выполняется. Ошибка второго рода: мы принимаем гипотезу, когда она не выполняется.

Вместо доверительной вероятности  часто используется уровень значимости . Они связаны соотношением =1-. Обычно уровень значимости выражается в процентах.

Проверка статистических гипотез о частоте

Рассмотрим проверку гипотезы о частоте. Пусть вероятность появления события A в единичном испытании равна p. Проведено n=280 испытаний, число появлений m=151. Выдвигается гипотеза, что p=1/2. Согласуется ли гипотеза с данными опыта. В соответствии с гипотезой

По интегральной теореме Муавра-Лапласа число появлений X события A имеет закон распределения, близкий к нормальному с параметрами a=MX=140 и 2=npq. Зададим доверительную вероятность , например, =0,95. Найдем по доверительной вероятности величину t из равенства

Или из равенства

Для =0,95 величина t=1,96. Тогда доверительный интервал для числа появлений равен

I=(140-1,968,37; 140-1,968,37)=(123,6;156,4).

Мы видим, что значение m=151 попадает в доверительный интервал, данные не противоречат гипотезе и ее следует принять.

Общий подход к задаче проверки статистических гипотез

Общий подход к задаче проверки статистических гипотез состоит в том, что по заданной доверительной вероятности строится некоторый доверительный интервал для формализованного признака, по данному статистическому ряду подсчитывается значение, связанное с формализованным признаком. Дополнение доверительного интервала до всей области определения случайной величины задает критическую область Затем проверяют попадает ли значение в критическую область. В зависимости от ответа принимают или отвергают гипотезу. Как отражается изменение доверительной вероятности на окончательный ответ? Очевидно. что с увеличением доверительной вероятности величина доверительного интервала, вообще говоря, возрастает. Значит уменьшается возможность отбрасывания гипотезы. И, как следствие, уменьшается возможность ошибки первого рода. Но зато возрастает возможность ошибки второго рода. Поэтому доверительная вероятность не должна быть малой (желательно, больше 0,9, в этом случае критерий становится достаточно содержательным). И не должна быть слишком большой (желательно, меньше 0,999, в противном случае критерий становится малочувствительным).

При выбранном значении  (или ) доверительный интервал (соответственно, критическую область) можно выбрать разными способами. Рассмотрим различные способы выбора критической области на примере нормальной случайной величины и доверительной вероятности =0,95 ( или =0,05, что соответствует 5% уровню значимости).

I. Область больших положительных отклонений.

Находим из условия

Тогда

Для =0,05 получаем t=1,64. Следовательно, критическая область (a+t;)

II. Область больших отрицательных отклонений.

Находим из условия

Для =0,05 получаем t=1,64. Следовательно, критическая область (-;a-t)

III. Область больших по абсолютной величине отклонений.

Находим из условия

Тогда

Для =0,05 получаем t=1,96. Следовательно, критическая область (-;a-t)(a+t;)

IV. Область малых по абсолютной величине отклонений.

Находим из условия

Тогда

Для =0,05 получаем t=0,063. Следовательно, критическая область (a-t;a+t)

Проверка статистических гипотез о математическом ожидании

Проверка статистических гипотез о математическом ожидании укладывается в рассмотренную схему.

Пример. Пусть средняя продолжительность работы радиоламп равна MX=500 часов. Предлагается новая технология изготовления. Экспериментально изготовленная по новой технологии партия показала среднее время работы 560 часов. Пусть среднеквадратическое отклонение

Вопрос: достаточно ли это основание для перехода на новую технологию. Так как MX приближенно распределена по нормальному закону, то выберем уровень значимости =0,05 и третий вид критической области. Находим t=1,96. Для принятия гипотезы о том что отклонение математического ожидания значимо нужно, чтобы выполнялось неравенство

В нашем примере отклонение составило 60 часов. Следовательно, оно могло получиться за счет действия только случайных факторов. И для перехода к новой технологии оснований недостаточно.

Пусть у нас есть две независимые выборки случайных величин X и Y. Часто нужно проверить гипотезу о том, что математические ожидания двух выборок из нормальных случайных величин равны, т. е. MX=MY. Если дисперсии 2x и 2y известны и гипотеза выполняется, то величина Z= MX - MY распределена по нормальному закону с параметрами a=0 и

Выберем критерий значимости и критическую область вида III. Если величина Z попадает в критическую область, то гипотеза о равенстве математических ожиданий противоречит данным наблюдений и ее следует отклонить. Если нет, то гипотеза согласуется с данными наблюдений и ее следует принять.

Пример. Имеются данные об испытании на разрыв двух партий проволоки, произведенных двумя разными заводами. Получены результаты. Для первой партии n1=50, MX=120,8 кг/мм2, x=8,0 кг/мм2 и Для второй партии n2=50, MY=128,2 кг/мм2, y=9,4 кг/мм2. Найдем

Для =5% находим t=1,96. Тогда критическое отклонение равно 1,751,96=3,43 кг/мм2. В нашем примере отклонение равно 7,4. Это значит что гипотезу о равенстве математических ожиданий следует отклонить.

Проверка статистических гипотез о дисперсиях

Проверка статистических гипотез о дисперсиях также представляет интерес для практики, так как дисперсии характеризуют разброс значений, а значит и такие величины как точность изготовления, измерения и т. д. Для проверки гипотез о равенстве дисперсий нужно знать такую функцию распределения, которая не зависела бы ни от каких неизвестных параметров выборки. Для этого используется распределением Фишера. По этому закону распределена случайная величина

где случайные величины X и Y независимы и нормально распределены.

Если объем первой выборки равен n1, а объем второй равен n2 , то распределение Фишера зависит от числа степеней свободы k1= n1-1 и k2 = n2-1. По распределению Фишера можно построить критические области для проверки гипотез о равенстве дисперсий. Так как плотность распределения обладает асимметрией, то выберем критическую область так, чтобы вероятность попадания в правую и левую часть критической области были равны /2. Доверительная вероятность определяет два значения f1 и f2 из равенства

Распределение Фишера F=DX/DY c k1 и k2 степенями свободы и распределение Фишера F1=DY /DX ck2 и k1 степенями свободы фактически дают одно и тоже распределение. Поэтому при построении критической области указывают только верхнюю границу и в числителе указывают большую из дисперсий. Проверка гипотезы о равенстве дисперсий производится так: по заданному уровню значимости находят критическое значение f и вычисляют значение F. Если значение F>f, то гипотеза о равенстве дисперсий противоречит данным наблюдений и ее следует отклонить. Если нет, то гипотеза согласуется с данными наблюдений и ее следует принять.

Пример. Два однотипных станка обрабатывают одинаковые детали. Отобраны две пробы и подсчитаны дисперсии отклонения от заданных размеров: n1=10; 21=9,6мк2 и n2=15; 22=5,7мк2. Проверим гипотезу о равенстве дисперсий. Выберем 10% уровень значимости и найдем F=9,6/5,7=1,68. По таблице распределений с 5% уровнем значимости правой критической точки с числом степеней свободы k1=9и k2=14 находим f=2,65. Так как f> F, то гипотезу следует принять.

Существует целый ряд других проверок гипотез.

Список использованных источников

1. Проверка статистических гипотез [Электронный ресурс] Режим доступа: http://www.machinelearning.ru/wiki/index.php?title/ Дата обращения: 11.12.2017

2. Статистические гипотезы [Электронный ресурс] Режим доступа: https://math.semestr.ru/group/hypothesis.php Дата обращения: 11.12.2017

3. Проверка статистических гипотез [Электронный ресурс] Режим обращения: https://bourabai.ru/tpoi/hypothesis.htm Дата обращения: 11.12.2017

4. Проверка гипотез [Электронный ресурс] Режим обращения: http://statistica.ru/theory/proverka-gipotez/ Дата обращения: 11.12.2017

Просмотров работы: 107