Задание 3. Эмпирическая функция распределения.
Построить график эмпирической функции распределения с подогнанной ожидаемой функцией распределения.
Теоретические основы.
См. стр. 31-32 пособия [4].
Вычисления.
Если попытаться построить ЭФР средствами Excel, упорядочив сначала данные и сопоставив затем каждому упорядоченному значению x(k) значение , то вместо горизонтальных получим наклонные ступеньки. Чтобы избежать этого недостатка, можно каждое значение вариационного ряда повторить дважды, при этом первому из этих значений сопоставить ЭФР, а второму .
Вычисление нормальной функции распределения описано ниже в главе “Встроенные функции Excel”. Здесь кратко только скажем, что для этого можно использовать функцииНОРМРАСПиНОРМСТРАСПиз категории “Статистические”.
Функция распределения экспоненциального закона вычисляется с помощью простой функции EXP.
Кроме того, предполагается, что уже вычислены среднее значение и дисперсия выборки (задание 1).
Пример.
Порядок вычислений.
- Скопировать исходные данные в буфер обмена;
- перейти на лист “ЭФР” и, установив курсор в ячейку A3, вставить данные из буфера обмена;
- повторить процесс восстановления данных, начиная с ячейки A104
- установить курсор в ячейку A104;
- вставить данные из буфера обмена
- – всего получится 202 значения с 3-й по 204-ю ячейки;
- упорядочить значения в столбце A
- кликнуть мышкой по кнопке ;
- ввести в ячейку B3 формулу
- =(СТРОКА(B3)-1)/202-1/101
- – функция «СТРОКА» возвращает номер строки указанного аргумента, то есть в данном случае в ячейке B3 получится значение (3-1)/202-1/101 = 0;
- ввести в ячейку B4 формулу
- =(СТРОКА(B3)-1)/202
- – получится значение (3-1)/202 = 1/101;
- выделить обе ячейки B3 и B4 и скопировать их параллельно всем данным до ячейки B204
- – в последней ячейке должно получиться значение 1;
- добавить в ячейку A2 значение, на единицу меньшее значения ячейки A3 и сопоставить ему значение 0 в ячейке B2;
- добавить в ячейку A205 значение, на единицу большее значения ячейки A204 и сопоставить ему значение 1 в ячейке B205.
Ввести формулы вычисления нормального распределения:
- в ячейки F4, F5 (те, которые скрыты графиком) скопировать среднее и стандартное отклонение, соответственно
- =МОМЕНТЫ!B4
- =МОМЕНТЫ!B6
- в ячейку C2 ввести формулу нормального распределения
- =НОРМРАСП(A2;$F$4;$F$5;1)
- в ячейку D2 ввести формулу вычисления расхождения между ЭФР и ожидаемой функцией распределения
- =ABS(C2-B2)
- скопировать обе ячейки C2 и D2 вплоть до 205-й строки;
- вычислить максимальное расхождение, например, в ячейке F6
- =МАКС(D2:D205)
Теперь уже можно рисовать графики:
- выделить все значения в ячейках A2:C205;
- вызвать “Мастера Диаграмм”;
- выбрать «Точечную» диаграмму – без маркеров со сглаживающей линией (третья по порядку среди точечных диаграмм);
- при выборе представления диаграммы, после двух нажатий кнопки , удалить “Легенду” и добавить “Заголовок по оси Х”:
- МАКСИМАЛЬНОЕ РАСХОЖДЕНИЕ D=…
- (указав здесь полученное значение Δ из ячейки F6);
- ;
- установить параметры диаграммы, как в примере.
Замечание. Если бы параметры нормальной модели не оценивались по выборочным данным, а были бы в точности равны этим оценкам, то при полученном здесь расхождении Δ=0,097 гипотезу нормальности следовало бы принять с критическим уровнем значимости > 0,20 (см. таблицу 6.2 сборника таблиц [1]). Это надо воспринимать как хороший знак и не более того. Если неизвестные значения параметров оцениваются по выборке, то критический уровень значимости становится зависящим от неизвестных параметров и трудно ожидать, что даже в предположениях гипотезы критерий будет иметь приемлемый размер. Контрольные вопросы.
- Сформулируйте статистическую задачу.
- Что такое вариационный ряд?
- 31.
- Дайте определение эмпирической функции распределения?
- 31.
- Почему некоторые ступеньки ЭФР высокие, а некоторые низкие?
- 31.
- Почему одни ступеньки ЭФР длинные, а другие короткие?
- 31.
- Постройте ЭФР по следующим данным: 1; 2; 1; 3; 1; 5; 1; 3.
- Выпишите формулу для функции распределения нормального закона (равномерного, экспоненциального).
- 16-21.
- Можно ли утверждать, что ЭФР является состоятельной оценкой истинной функции распределения? Что сие означает?
- 31.
- Можно ли утверждать, что ЭФР является несмещенной оценкой истинной функции распределения? Что сие означает?
- 31.
- Докажите несмещенность ЭФР.
- Можно ли по значению максимального расхождения между ЭФР и ожидаемой функцией распределения принять или отвергнуть гипотезу о виде истинной функции распределения?
- 32.
2.2.3. Эмпирическая функция распределения интервального ряда
Она определяется точно так же, как в дискретном случае:
, где – количество вариант СТРОГО МЕНЬШИХ, чем «икс», который «пробегает» все значения от «минус» до «плюс» бесконечности.
Но вот построить её для интервального ряда намного проще. Находим накопленные относительные частоты:
И строим кусочно-ломаную линию, с промежуточными точками , где – правые концы интервалов, а – относительная частота, которая успела накопиться на всех «пройденных» интервалах:
При этом если и если .
Напоминаю, что данная функция не убывает, принимает значения из промежутка и, кроме того, для ИВР она ещё и непрерывна.
Эмпирическая функция является аналогом функции распределения НСВ и приближает теоретическую функцию , которую теоретически, а иногда и практически можно построить по всей генеральной совокупности.
Помимо перечисленных графиков, вариационные ряды также можно представить с помощью кумуляты и огивы частот либо относительных частот, но в классическом учебном курсе эта дичь редкая, и поэтому я не буду останавливаться на ней этой книге. Скажу только, что у вас вряд ли возникнут проблемы с их построением в случае такой необходимости.
Теперь что касаемо объёма выборки. Хорошо, если в вашей задаче всего лишь 20-30-50 вариант, но что делать, если их 100-200 и больше? В моей практике встречались десятки таких задач, и ручной подсчёт здесь уже не торт. Никаких проблем:
Но не всё так сурово. Во многих задачах вам будет дан готовый вариационный ряд:
Пример 7
Выборочная проверка партии чая, поступившего в торговую сеть, дала следующие результаты:
Требуется построить гистограмму и полигон относительных частот, эмпирическую функцию распределения
Проверяем свои навыки работы в Экселе! (исходные числа и краткая инструкция прилагается) И на всякий случай краткое решение для сверки есть в конце книги.
Иногда встречаются ИВР с открытыми крайними интервалами, например:
В таких случаях интервалы «закрывают». Обычно поступают так: сначала смотрим на средние интервалы и выясняем длину частичного интервала: км. И для дальнейшего решения можно считать, что крайние интервалы имеют такую же длину: от 140 до 160 и от 200 до 220 км. Соответственно, середины интервалов: 150 и 210 км.
И самое важное по главе, обязательно прочитайте, тут немного:)
2.1.2. Эмпирическая функция распределения
Это статистический аналог функции распределения из теорвера. Данная функция определяется, как отношение:
, где – количество вариант СТРОГО МЕНЬШИХ, чем ,
при этом «икс» «пробегает» все значения от «минус» до «плюс» бесконечности.
Построим эмпирическую функцию распределения для нашей задачи. Чтобы было нагляднее, отложу варианты и их количество на числовой оси:
На интервале – по той причине, что левее ЛЮБОЙ точки этого интервала вариант нет. Кроме того, функция равна нулю ещё и в точке . Почему? Потому, что значение определяет количество вариант (см. определение), которые СТРОГО меньше двух, а это количество равно нулю.
На промежутке – и опять обратите внимание, что значение не учитывает рабочих 3-го разряда, т.к. речь идёт о вариантах, которые СТРОГО меньше трёх (по определению).
На промежутке – и далее процесс продолжается по принципу накопления частот:
– если , то ;
– если , то ;
– и, наконец, если , то – и в самом деле, для ЛЮБОГО «икс» из интервала ВСЕ частоты расположены СТРОГО левее этого значения «икс» (см. чертёж выше).
Накопленные относительные частоты удобно заносить в отдельный столбец таблицы, при этом алгоритм вычислений очень прост: сначала сносим слева частоту (красная стрелка), и каждое следующее значение получаем как сумму предыдущего и относительной частоты из текущего левого столбца (зелёные обозначения):
Вот ещё, кстати, один довод за вертикальную ориентацию данных – справа по надобности можно приписывать дополнительные столбцы.
Построенную функцию принято записывать в кусочном виде:
а её график представляет собой ступенчатую фигуру:
Эмпирическая функция распределения не убывает и принимает значения лишь из промежутка , и если у вас вдруг получится что-то не так, то ищите ошибку.
Теперь смотрим видео, о том, как построить эту функцию в Экселе (Ютуб).
И, конечно, вспомним основной метод математической статистики. Эмпирическая функция распределения строится по выборке и приближает теоретическую функцию распределения . Легко догадаться, что последняя появляется в результате исследования всей генеральной совокупности, но если рабочих в цехе ещё пересчитать можно, то звёзды на небе – уже вряд ли. Вот поэтому и важнА функция эмпирическая, и ещё важнее, чтобы выборка была репрезентативна, дабы приближение было хорошим.
Миниатюрное задание для закрепления материала:
Пример 5
Дано статистическое распределение совокупности:
Составить эмпирическую функцию распределения, выполнить чертёж
Решаем самостоятельно – все числа уже в Экселе! Свериться с образцом можно в конце книги. По поводу красоты чертежа сильно не запаривайтесь, главное, чтобы было правильно – этого обычно достаточно для зачёта.
Эмпирическая функция распределения
Эмпирической (опытной) функцией распределения или функцией распределения выборки называют такую функцию, которая определяет для каждого значения x частоту событий X и предназначена для оценке теоретической функции распределения генеральной совокупности в математической статистике.
Эмпирическая функция распределения находится по формуле:
n — объем выборки;
nx — количество наблюдений (вариантов) меньше x.
Дана таблица функции распределения выборки. Требуется построить эмпирическую функцию распределения
xi | 1 | 2 | 3 | 4 | 5 | 6 |
ni | 4 | 10 | 6 | 8 | 7 | 5 |
Из таблицы n=40, т.е.
n=4+10+6+8+7+5=40
Вычислим функцию распределения выборки
Эмпирическая функция распределения имеет вид
Построим график кусочно-постоянной эмпирической функции распределения
таким образом, по данным выборки можно приближенно построить функцию для неизвестной функции выборки.
90006