Краткая теория
Для решения задач, связанных с анализом данных при наличии случайных непредсказуемых воздействий, разработан математический аппарат ‒ математическая статистика, что позволяет выявлять закономерности на основе случайностей, делать на их основе обоснованные выводы и прогнозы.
Важнейшими понятиями математической статистики являются понятия генеральной совокупности и выборки.
Генеральной совокупностью наблюдаемого признака (случайной величины) Х называют множество всевозможных значений, принимаемых наблюдаемым признаком Х.
Часть отобранных объектов из генеральной совокупности называется выборочной совокупностью, или выборкой. Результаты измерений изучаемого признака nобъектов выборочной совокупности порождают nзначений х1, х2, … , хn случайной величины X . Число nназывается объемом выборки.
Выборку можно рассматривать двояко:
а) как случайный вектор длины n, каждая компонента которого имеет такое же распределение, как и наблюдаемый признак;
б) как на результаты измерений, т.е. набор n чисел.
Случайная величина Х называется дискретной случайной величиной, если она принимает свое значение из некоторого конечного фиксированного набора, например, случайная величина Х ‒ число появления шестерки при двух бросках игрального кубика
Х: 0,1,2 .
Случайная величина Х называется непрерывной случайной величиной, если она принимает любое значение из некоторого интервала (в том числе ‒ ∞ и +∞), например, рост человека.
После получения выборки имеем данные, которые представляют собой множество чисел, расположенных в беспорядке. Анализ таких данных весьма затруднителен, и для изучения скрытых закономерностей их подвергают определенной обработке.
Простейшая операция – ранжирование опытных данных, результатом которого являются значения, расположенные в порядке неубывания. Если среди элементов встречаются одинаковые, то они объединяются в одну группу. Значение случайной величины, соответствующее отдельной группе сгруппированного ряда наблюдаемых данных, называется вариантом, а изменение этого значения – варьированием. Варианты будем обозначать строчными буквами с соответствующими порядковому номеру группы индексами x(1) , x(2) , ..., x(N) , где N – число групп. При этом x(1)< x(2)< ... < x(N).
Численность отдельной группы сгруппированного ряда данных называется частотой ni , где i – индекс варианта, а отношение частоты данного варианта к общей сумме частот называется частностью (или относительной частотой) и обозначается ωi , i = 1, ...,N , т.е.
ωi=nij=1Nnj ,
при этом j=1Nnj=n ‒ объему выборки.
Дискретным вариационным рядомназывается ранжированная совокупность вариантов x(i) с соответствующими им частотами niили частностями ωi .
Если число возможных значений дискретной случайной величины достаточно велико или наблюдаемая случайная величина является непрерывной, то строят интервальный вариационный ряд, под которым понимают упорядоченную совокупность интервалов варьирования значений случайной величины с соответствующими частотами или частностями попаданий в каждый из них значений случайной величины.
Как правило, частичные интервалы, на которые разбивается весь интервал варьирования, имеют одинаковую длину Δ, которая может быть вычислена по следующей формуле
∆=RN=xmax-xminN .
где R – размах варьирования (изменения) случайной величины;
xmax , xmin – наибольшее и наименьшее значения исследуемой случайной величины;
N – число частичных интервалов группировки.
Некоторые авторы рекомендуют пользоваться следующими эмпирическими формулами для определения числа интервалов:
, N = 5.lg(n) ,
N = 1 + 3,322.lg(n) ‒ формула Стерджеса.
В рекомендациях по стандартизации Р 50.1.033-2001 "Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа хи-квадрат" рекомендует следующие значения N в зависимости от объема выборки n:
Объем выборки n |
Число интервалов группировки N |
40 ‒ 100 |
7 ‒ 9 |
100 ‒ 500 |
8 ‒ 12 |
500 ‒ 1000 |
10 ‒ 16 |
1000 ‒ 10000 |
12 ‒ 22 |
В теории вероятностей для характеристики распределения случайной величины служит функция распределения
,
определяющую для каждого значения х вероятность того, что случайная величина Х примет значение, меньшее х, т.е. равная вероятности события , где – любое действительное число.
Одной из основных характеристик выборки является выборочная (эмпирическая) функция распределения
,
где – количество элементов выборки, меньших чем . Другими словами, есть относительная частота появления события в n независимых испытаниях. Главное различие между и состоит в том, что определяет вероятность события A, а выборочная функция распределения – относительную частоту этого события.
Свойства функции :
1. .
2. – неубывающая функция.
3.
Функция является "ступенчатой", имеются разрывы в точках, которым соответствуют наблюдаемые значения вариантов. Величина скачка равна относительной частоте варианта.
Аналитически задается следующим соотношением:
Fn*x= 0 при x≤x1 ;j=1i-1ωj при x(i-1)x(N) ,
где – соответствующие относительные частоты;
– элементы вариационного ряда (варианты).
Замечание. В случае интервального вариационного ряда под понимается середина i-го частичного интервала. Эмпирическую функцию распределения непрерывной случайной величины так же называют «накопленная частота».
Перед вычислением полезно построить дискретный или интервальный вариационный ряд.
Пример выполнения
Постановка задачи 1. На телефонной станции проводились наблюдения над числом неправильных соединений в минуту. Наблюдения в течение 30 минут дали следующие результаты (табл. 1).
Таблица 1.
3 |
0 |
1 |
5 |
1 |
2 |
4 |
5 |
3 |
4 |
2 |
4 |
2 |
0 |
2 |
3 |
1 |
3 |
2 |
1 |
4 |
3 |
0 |
2 |
1 |
0 |
4 |
2 |
3 |
2 |
Требуется найти дискретный вариационный ряд, выборочную (эмпирическую) функцию распределения данной выборки и построить ее график в среде ЭТ MS Excel.
Решение.
Очевидно, что число X является дискретной случайной величиной, а полученные данные есть значения этой случайной величины.
В результате выполнения операций ранжирования и группировки были получены шесть значений случайной величины (варианты): 0; 1; 2; 3; 4; 5. При этом значение 0 в этой группе встречается 4 раза, значение 1 – 5 раз, значение 2 – 8 раз, значение 3 – 6 раз, значение 4 – 5 раз, значение 5 – 2 раза. Вычисленные значения частот и частностей приведены в табл. 2.
Таблица 2.
Индекс |
1, 2, 3, 4, 5, 6 |
|
Вариант |
0, 1, 2, 3, 4, 5 |
|
Частота |
4, 5, 8, 6, 5, 2 |
|
Частность |
Используя данный дискретный вариационный ряд (см. табл. 2), вычислим значения по формуле, приведенной выше, и занесем их в табл. 3.
Таблица 3.
x |
|
x 0 |
0 |
0 < x 1 |
|
1 < x 2 |
|
2 < x 3 |
|
3 < x 4 |
|
4 < x 5 |
|
x > 5 |
По данным таблицы 3 построим график эмпирической функции распределения.
Решение задачи в среде ЭТ MSExcel. Для решения задачи в среде ЭТ MS Excel необходимо выполнить следующие действия:
1. Идентифицируйте свою работу, переименовав Лист1 в Титульный лист и записав номер лабораторной работы, ее название, кто выполнил и проверил.
2. Переименуйте Лист 2 в Дискретный. Наберите массив 30 значений исходных данных выборки.
3. Найдите величины хmax, хmin, n, используя встроенные функции Excel МАКС, МИН и СЧЕТ.
4. Сформируйте столбец вариант x(i)от 0 до 5 и с помощью функции ЧАСТОТА найдите частоту появления значений случайной величины Х в данном интервале.
Синтаксис функции:
ЧАСТОТА(массив данных;массив интервалов).
Массив данных ‒ массив или ссылка на множество данных, для которых вычисляются частоты. В нашем случае это диапазон B2:K2. Если массив данных не содержит значений, то функция ЧАСТОТА возвращает массив нулей.
Массив интервалов ‒ массив или ссылка на множество интервалов, в которые группируются значения аргумента массив данных. В нашем случае это диапазон F7:F12. Если массив интервалов не содержит значений, то функция ЧАСТОТА возвращает количество элементов в аргументе Массив данных.
Функция ЧАСТОТА вводится как формула массива после выделения интервала смежных ячеек, в которые нужно вернуть полученный массив частот.
Количество элементов в возвращаемом массиве на единицу больше числа элементов в массиве интервалов. Дополнительный элемент в возвращаемом массиве содержит количество значений, больших, чем максимальное значение в интервалах, т.е. больше 5 в нашем случае.
Поскольку данная функция возвращает массив, она должна задаваться в качестве формулы массива и работа с ней завершается трехклавишной комбинацией CTRL+SHIFT+ENTER.
Функция ЧАСТОТА игнорирует пустые ячейки и тексты.
5. Сформируйте столбец частностей, вычислив значения ωi , i = 1, ...,6 по формуле
ωi=nin .
6. Сформируйте столбец значений выборочной функции распределения . При этом первое значение в ячейке I7 просто копируется из ячейки Н7.
Следующее значение вычисляется как накопленная сумма предыдущего значения ω1 из ячейки I7 и текущего значения ω2 из ячейки Н8:
=I7+H8 .
Затем данная формула копируется автозаполнением в остальные ячейки диапазона, с выходом на значение, равное 1.
7. Построим график эмпирической функции распределения. С использованием штатных средств Мастера диаграмм ЭТ MS Excel построить ступенчатый график функции распределения дискретной случайной величины нельзя.
Покажем, как в MS Excel все-таки можно построить такой график.
7.1. Расположим данные полученного дискретного вариационного ряда так, как показано на рисунке ниже.
При этом данные копируются из предыдущей таблицы. Используют контекстное меню команды Вставка: Параметры вставки → Значения
7.2. В разреженную таким образом таблицу введем ряд дополнений. В ячейку К7 введем значение -2, а в ячейку К20 значение 7, это границы интервала [-2 ;7] на котором будет построен наш график. В оставшиеся пустые ячейки введем значения, чуть меньшие значений полученных вариант (см. случай а) ниже).
Случай а) |
Случай б) |
Два первых значения функции F(x) в ячейках L7 и L8 примем равным нулю, т.к. при x ≤ x(1) . В оставшиеся пустые ячейки скопируем значения функции, расположенные выше (см. случай б) выше).
7.3. По данным, находящимся в диапазоне ячеек K7:L20, с помощью Мастера диаграмм, построим диаграмму типа Точечная без маркеров. Отформатируем диаграмму, убрав маркеры и задав линию, соединяющую табличные значения.
Т.к. функция ‒ непрерывна слева в любой точке x, т. е. , то устраним неоднозначность в точках разрыва, “вырезав” соответствующие значения. Для этого построим точечный график по данным первого и последнего столбца полученного дискретного вариационного ряда.
8. Постройте пунктирные линии в вырезанных точках графика. Для этого выделим точки графика и на вкладке Макет в группе Анализ нажмём кнопку Планки погрешностей, а затем выберем строку Дополнительные параметры планок погрешностей … .
В диалоговом окне Формат планок погрешностей выполните установки, представленные ниже. Установите радиокнопку – пользовательская и в появившемся окне, в поле ввода Отрицательное значение ошибки введите значения столбца F(x).
Получили график функции распределения с пунктирными линиями.
9. Сделайте выводы и сохраните работу в вашем каталоге.
Постановка задачи 2. Исследуется рост учащихся (в сантиметрах) в студенческой группе из 25 человек. Получена выборка (см. табл. 4) из следующих 25 значений.
Таблица 4.
184 |
182 |
182 |
180 |
177 |
179 |
173 |
179 |
192 |
173 |
190 |
163 |
177 |
186 |
170 |
178 |
185 |
173 |
179 |
165 |
179 |
173 |
179 |
166 |
170 |
Требуется: найти интервальныйвариационный ряд, выборочную (эмпирическую) функцию распределения данной выборки и построить ее график в среде ЭТ MS Excel.
Решение.
Найдем максимальное и минимальное значения в исследуемой выборке
xmax=192 , xmin=163 см.
Вычислим размах варьирования R исследуемого признака по формуле
R=xmax-xmin=29.
Для нахождения числа интервалов группировки N воспользуемся формулой
N≈n=25=5.
Далее следует группировка выборки. При этом интервал варьирования признака [xmin, xmax] разбивается на N интервалов группировки одинаковой длины ∆, а затем подсчитывается число попаданий признака в j-й интервал группировки – ni,i=.
∆=RN=xmax-xminN =5,8≈6.
При этом каждый интервал группировки Δi= (ai;bi) характеризуется своим правым и левым концом, числом ni – попаданием признака в этот интервал. Иногда интервал характеризуют не границами, а его средним значением.
Дальнейшие вычисления удобно представить в табл. 5.
Таблица 5.
i |
Интервал группировки Δi |
Кол-во попаданий в интервал |
Частоты ni |
Относительные частоты ωi=nin |
Накопленные частоты |
1 |
162,5-168,5 |
│││ |
3 |
3/25 |
3/25 |
2 |
168,5-174,5 |
│││││ │ |
6 |
6/25 |
9/25 |
3 |
174,5-180,5 |
│││││ ││││ |
9 |
9/25 |
18/25 |
4 |
180,5-186,5 |
│││││ |
5 |
5/25 |
23/25 |
5 |
186,5-192,5 |
││ |
2 |
2/25 |
252/25 = 1 |
∑ |
25 |
1 |
Чтобы значение исследуемого признака не попадало на границы интервала группировки, примем минимальное значение признака не 163, а 162,5 и от этого значения начнем строить интервалы длиной Δ = 6 (см. второй столбец табл. 5).
Откладывая по оси абсцисс средние значения интервалов группировки, а по оси ординат – значения накопленных частот, строим график эмпирической функции растределения.
Решение задачи в среде ЭТ MSExcel. Для решения задачи в среде ЭТ MS Excel необходимо выполнить следующие действия:
1. Переименуйте Лист 3 в Непрерывный. Наберите массив 25 значений исходных данных выборки.
2. Найдите величины хmax, хmin, n, N, Δокругл используя встроенные функции Excel МАКС, МИН, СЧЕТ, КОРЕНЬ и ОКРУГЛ.
3. Сформируйте столбец интервалов варьирования от значения 162,5 с шагом Δ = 6. Первое значение набираем с клавиатуры, а второе вычисляем с помощью формулы
=E9+$C$13 .
Остальные значения получим копированием с помощью Автозаполнения.
4. Сформируйте столбец Частота и с помощью функции ЧАСТОТА найдите частоту появления значений исследуемой случайной величины Х в каждом из интервалов.
5. Заполните столбец относительных частот, рассчитав значение в ячейке G9 по формуле
=F9/$C$10 .
Остальные значения получим копированием формулы с помощью Автозаполнения.
6. Вычислите середины интервалов группировки, рассчитав значение в ячейке Н9 по формуле
=(E9+E10)/2 .
Остальные значения в диапазоне Н10:Н13 получим копированием формулы с помощью Автозаполнения.
7. Заполните столбец накопленных частот. При этом, значение в ячейке I9 получим, копируя значение ячейки G10 по формуле
=G10 .
Значение в ячейке I10 получим по формуле
=I9+G11 .
Остальные значения в диапазоне I11:I13 получим, копируя формулу с помощью Автозаполнения.
8. По данным двух последних столбцов построим график эмпирической функции распределения.
9. Сделайте выводы и сохраните работу в вашем каталоге.
Лист Excel лабораторной работы имеет вид, представленный на рисунке.
Исходные данные для самостоятельного решения
Задание 1. Имеется выборка непрерывной случайной величины объема n = 26 (табл. 6).
Задание 2. Имеется выборка дискретной случайной величины объема n = 30 (табл. 7).
Требуется: найти дискретный и интервальныйвариационные ряды, выборочную (эмпирическую) функцию распределения данных выборок и построить их графики в среде ЭТ MS Excel.
Таблица 6.
№ варианта |
Выборка |
||||||||||||
1 |
11,7 |
9,83 |
5,49 |
7,43 |
9,92 |
3,41 |
6,83 |
8,22 |
8,30 |
8,14 |
9,29 |
9,27 |
7,43 |
7,41 |
3,56 |
7,72 |
12,1 |
6,06 |
10,6 |
6,76 |
8,21 |
9,86 |
8,13 |
9,04 |
4,75 |
9,33 |
|
2 |
4,49 |
9,25 |
7,94 |
9,10 |
6,27 |
6,77 |
3,47 |
8,84 |
6,48 |
4,92 |
6,98 |
10,1 |
6,32 |
6,36 |
5,16 |
7,92 |
12,0 |
7,46 |
7,01 |
13,0 |
7,34 |
6,71 |
5,48 |
9,95 |
11,9 |
8,89 |
|
3 |
6,13 |
8,56 |
9,77 |
9,17 |
8,89 |
6,19 |
7,70 |
6,96 |
6,72 |
6,08 |
4,41 |
5,52 |
9,59 |
9,02 |
6,22 |
4,86 |
6,33 |
6,28 |
8,60 |
7,38 |
7,84 |
7,24 |
6,85 |
6,50 |
8,28 |
4,98 |
|
4 |
6,52 |
9,27 |
7,91 |
5,77 |
8,02 |
3,07 |
2,22 |
5,76 |
11,6 |
6,62 |
7,07 |
12,5 |
1,65 |
10,5 |
3,67 |
7,62 |
4,94 |
5,39 |
3,64 |
4,62 |
8,88 |
6,75 |
5,77 |
6,38 |
10,3 |
5,74 |
|
5 |
8,18 |
9,56 |
6,06 |
5,85 |
6,78 |
5,60 |
10,8 |
7,70 |
6,44 |
8,64 |
6,95 |
5,66 |
4,84 |
4,96 |
4,62 |
5,57 |
6,47 |
5,97 |
8,02 |
3,66 |
9,24 |
4,13 |
6,58 |
7,51 |
5,67 |
7,89 |
|
6 |
10,2 |
9,23 |
8,77 |
10,4 |
9,44 |
9,09 |
6,30 |
9,42 |
6,12 |
9,69 |
8,59 |
8,68 |
7,97 |
8,64 |
6,45 |
5,29 |
5,00 |
8,42 |
8,84 |
8,26 |
6,66 |
6,96 |
6,51 |
6,72 |
6,00 |
5,36 |
|
7 |
7,13 |
9,12 |
9,77 |
9,17 |
8,89 |
6,19 |
7,71 |
6,96 |
6,72 |
6,08 |
4,41 |
5,52 |
9,59 |
8,06 |
6,26 |
4,86 |
6,33 |
6,28 |
8,60 |
7,38 |
7,84 |
7,24 |
6,85 |
6,50 |
8,28 |
4,98 |
|
8 |
3,53 |
9,56 |
7,03 |
9,18 |
7,45 |
5,59 |
6,85 |
11,3 |
7,90 |
6,00 |
6,68 |
5,66 |
8,64 |
8,87 |
4,58 |
11,3 |
5,02 |
4,33 |
9,31 |
10,3 |
5,99 |
6,98 |
5,23 |
8,75 |
7,73 |
9,16 |
|
9 |
3,38 |
7,87 |
4,04 |
8,21 |
4,08 |
3,46 |
4,37 |
6,66 |
1,46 |
5,59 |
3,78 |
8,73 |
5,57 |
8,22 |
3,25 |
3,38 |
4,20 |
2,49 |
6,11 |
4,54 |
6,53 |
5,20 |
3,84 |
5,35 |
9,72 |
4,63 |
|
10 |
4,21 |
5,68 |
3,45 |
6,79 |
3,39 |
2,99 |
3,88 |
3,77 |
1,43 |
5,96 |
4,94 |
6,55 |
5,92 |
4,20 |
4,25 |
5,64 |
5,58 |
5,87 |
5,05 |
3,55 |
7,95 |
4,45 |
5,85 |
6,68 |
1,24 |
7,09 |
Таблица 7.
№ варианта |
Выборка |
||||||||||||||
1 |
4 |
0 |
2 |
5 |
1 |
2 |
4 |
5 |
3 |
4 |
4 |
0 |
1 |
5 |
1 |
2 |
3 |
2 |
0 |
2 |
3 |
1 |
3 |
2 |
1 |
2 |
4 |
2 |
0 |
2 |
|
2 |
2 |
0 |
3 |
5 |
1 |
2 |
4 |
5 |
3 |
4 |
4 |
0 |
1 |
5 |
1 |
1 |
3 |
4 |
0 |
2 |
3 |
1 |
3 |
2 |
1 |
2 |
4 |
2 |
0 |
2 |
|
3 |
2 |
3 |
2 |
0 |
2 |
3 |
1 |
1 |
2 |
3 |
2 |
4 |
2 |
0 |
2 |
2 |
0 |
3 |
5 |
1 |
2 |
4 |
5 |
3 |
4 |
4 |
0 |
1 |
5 |
1 |
|
4 |
4 |
2 |
1 |
5 |
1 |
2 |
4 |
5 |
3 |
4 |
4 |
0 |
1 |
5 |
1 |
3 |
3 |
4 |
0 |
2 |
3 |
1 |
3 |
2 |
1 |
2 |
4 |
2 |
0 |
2 |
|
5 |
2 |
3 |
4 |
0 |
2 |
1 |
2 |
3 |
2 |
1 |
2 |
2 |
4 |
0 |
2 |
4 |
3 |
2 |
2 |
1 |
3 |
1 |
3 |
2 |
2 |
1 |
4 |
2 |
2 |
0 |
|
6 |
2 |
3 |
2 |
1 |
2 |
2 |
4 |
0 |
2 |
4 |
4 |
0 |
1 |
5 |
1 |
1 |
3 |
2 |
2 |
1 |
4 |
2 |
2 |
0 |
1 |
2 |
4 |
2 |
0 |
2 |
|
7 |
4 |
3 |
2 |
2 |
5 |
3 |
1 |
3 |
2 |
2 |
1 |
4 |
2 |
2 |
0 |
2 |
3 |
2 |
1 |
2 |
2 |
4 |
0 |
2 |
4 |
4 |
0 |
1 |
5 |
1 |
|
8 |
5 |
3 |
4 |
4 |
0 |
1 |
5 |
1 |
2 |
2 |
1 |
4 |
2 |
2 |
0 |
3 |
2 |
1 |
2 |
4 |
2 |
0 |
2 |
2 |
0 |
4 |
0 |
1 |
5 |
1 |
|
9 |
2 |
3 |
2 |
1 |
2 |
2 |
4 |
0 |
2 |
4 |
4 |
0 |
1 |
5 |
1 |
5 |
3 |
4 |
4 |
0 |
1 |
5 |
1 |
2 |
2 |
1 |
4 |
2 |
2 |
0 |
|
10 |
0 |
2 |
3 |
5 |
1 |
2 |
4 |
5 |
3 |
4 |
4 |
0 |
1 |
5 |
1 |
4 |
2 |
1 |
5 |
1 |
2 |
4 |
5 |
3 |
4 |
4 |
0 |
1 |
5 |
1 |