Важнейшими понятиями математической статистики являются понятия генеральной совокупности и выборки.
Генеральной совокупностью наблюдаемого признака (случайной величины) Х называют множество всевозможных значений, принимаемых наблюдаемым признаком Х. Результаты n измерений наблюдаемого признака (х1, х2, ... , хn) называют выборкой объема n из генеральной совокупности. Выборку можно рассматривать двояко:
а) как случайный вектор длины n, каждая компонента которого имеет такое же распределение, как и наблюдаемый признак;
б) как на результаты измерений, т.е. набор n чисел.
Объем выборки может быть очень большим, поэтому для установления закономерностей необходимо произвести обработку этой выборки.
Первый шаг к осмыслению закономерностей - это графическое представление выборки, то есть построение ее гистограммы, полигона частот и эмпирической функции распределения.
Однако выборки, имеющие похожие графические изображения, могут различаться своими числовыми характеристиками. Выборка может характеризоваться следующими числовыми значениями:
1. Среднее значение. Рассчитывается по формуле
или, если интервал варьирования разбит на N интервалов и найдены частоты и середины частичных интервалов, то по формуле
где nj - частота попадания признака в j-й интервал;
xj - середина j-го интервала группировки.
Значение характеризует среднее значение исследуемого признака.
В Mathcad для вычисления среднего значения используется встроенная функция mean(Х), где Х - вектор-столбец, содержащий n значений нашей выборки.
2. Выборочная дисперсия характеризует разброс исследуемого признака около среднего значения . Рассчитывается по формуле
или, если признаки сгруппированы и подсчитаны частоты, то по формуле
В Mathcad для определения дисперсии выборки, значения которой записаны в вектор-столбце X, используется встроенная функция var(X), причем сама дисперсия определяется по формуле
3. Стандартное отклонение. Рассчитывается по формуле σ =, где S2 рассчитывается по трем формулам, приведенным выше, и имеет размерность исследуемой величины.
4. Выборочный эксцесс. Характеризует островершинность эмпирического распределения относительно стандартного нормального. Эксцесс стандартного нормального распределения принимается равным 0. Если островершинность больше нормального, то это значение положительно (ek> 0). В противном случае оно отрицательно (рис. 1).
Выборочный эксцесс может быть найден по формулеek = m4/σ4 - 3 ,
где m4 =/n или m4=/n .
5. Коэффициент асимметрии. Характеризует симметрию распределения выборочных данных около центра выборки , для стандартного нормального распределения коэффициент асимметрии равен 0 (аS=0).
Если правая ветвь графика более пологая, то коэффициент асимметрии аS<0, в противном случае аS>0.
Коэффициент асимметрии вычисляется по формуле
аs = m3/σ3 ,
где m3 = /n или m3=/n.
Задание. Пусть исследуется технологический процесс производства бензина ректификационной колонной. Замеряется выход одной из фракции готового продукта - бензина марки АИ-95. Измерения проводят с интервалом в один час. Получена выборка (см. табл. 1) из следующих 26 значений хi (i =1, 2, ... , n , ∙ объем выборки n = 26):
Таблица 1. Выход бензина АИ-95 (%)
7,13 |
9,12 |
9,77 |
9,17 |
8,89 |
6,19 |
7,71 |
6,96 |
6,72 |
6,08 |
4,41 |
5,52 |
9,59 |
8,06 |
6,26 |
4,86 |
6,33 |
6,28 |
8,60 |
7,38 |
7,84 |
7,24 |
6,85 |
6,50 |
8,28 |
4,98 |
Требуется: 1. По данной выборке построить гистограмму, полигон частот и эмпирическую функцию распределения.
2. Найти числовые характеристики выборки.
Для графического представления полученной выборки необходимо:
1. Найти максимальное и минимальное значения выборки xmax и xmin.
2. Вычислить размах варьирования исследуемого признака R по формуле R = xmax - xmin .
3. Далее следует группировка
выборки. При этом интервал варьирования [xmin, xmax] разбивается на N интервалов
группировки одинаковой длины ∆, а затем подсчитывается число попаданий признака
в j-й интервал
группировки - nj, j=.
ГОСТ 11.006-74 «По правилам согласования опытного распределения с теоретическим» рекомендует следующие значения N в зависимости от объема выборки n:
при n =200 N =18÷20;
при n =400 N =25÷30;
при n =1000 N =35÷40.
Некоторые авторы рекомендуют пользоваться следующими эмпирическими формулами:
N , N=5. lg(n) .
При этом каждый интервал группировки Δj = (aj;bj) характеризуется своим правым и левым концом, числом nj - попаданием признака в этот интервал. Иногда интервал характеризуют не границами, а его средним значением.
Проведем необходимые вычисления для нашей выборки.
1. Найдем максимальное и минимальное значения:
хmax=9,77 , хmin=4,41 .
2. Вычислим размах варьирования признака:
R = xmax- xmin = 9,77 - 4,41 = 5,36.
3. Найдем число интервалов
группировки N по
эмпирической формуле: N ==5 .
Разобьем интервал варьирования R на 5
интервалов группировки равной длины. Длину интервала Δ найдем по формуле: Δ =R/N = 5,36/51,072.
Дальнейшие вычисления удобно представить в табл. 2.
Таблица 2. Интервалы группировки и их характеристики
Nj |
Интервал группировки Δj |
Кол-во попаданий в интервал |
Частота nj |
Плотности частот nj/Δ |
Относительные частоты nj/n |
1 |
4,4-5,48 |
│││ |
3 |
3 |
3/26 |
2 |
5,48-6,56 |
│││││││ |
7 |
7 |
7/26 |
3 |
6,56-7,64 |
││││││ |
6 |
6 |
6/26 |
4 |
7,64-8,72 |
│││││ |
5 |
5 |
5/26 |
5 |
8,72-9,8 |
│││││ |
5 |
5 |
5/26 |
∑ |
26 |
|
1 |
Чтобы значение исследуемого признака не попадало на границы интервала группировки, примем минимальное значение признака не 4.41, а 4.4 и от этого значения начнем строить интервалы группировки длиной Δ = 0,5 (см. второй столбец табл. 1.2).
По данным таблицы строится ступенчатая фигура, которая называется гистограммой. При этом по оси х откладываются интервалы группировки, а по оси y - величины nj/n.∆ . В Mathcad для построения гистограммы используют встроенную функцию hist(⌂,⌂), которая имеет два аргумента. Первый из них - вектор-столбец интервалов группировки, второй - вектор-столбец значений выборки. Кроме гистограммы строят полигон частот и эмпирическую функцию распределения. После этого находят числовые характеристики выборки.
Mathcad-документ лабораторной работы имеет вид, представленный на рис. 3.