Эмпирическая функция распределения в excel как построить
Перейти к содержимому

Эмпирическая функция распределения в excel как построить

  • автор:

Задание 3. Эмпирическая функция распределения.

Построить график эмпирической функции распределения с подогнанной ожидаемой функцией распределения.

Теоретические основы.

См. стр. 31-32 пособия [4].

Вычисления.

Если попытаться построить ЭФР средствами Excel, упорядочив сначала данные и сопоставив затем каждому упорядоченному значению x(k) значение , то вместо горизонтальных получим наклонные ступеньки. Чтобы избежать этого недостатка, можно каждое значение вариационного ряда повторить дважды, при этом первому из этих значений сопоставить ЭФР, а второму .

Вычисление нормальной функции распределения описано ниже в главе “Встроенные функции Excel”. Здесь кратко только скажем, что для этого можно использовать функцииНОРМРАСПиНОРМСТРАСПиз категории “Статистические”.

Функция распределения экспоненциального закона вычисляется с помощью простой функции EXP.

Кроме того, предполагается, что уже вычислены среднее значение и дисперсия выборки (задание 1).

Пример.

Порядок вычислений.

  1. Скопировать исходные данные в буфер обмена;
  2. перейти на лист “ЭФР” и, установив курсор в ячейку A3, вставить данные из буфера обмена;
  3. повторить процесс восстановления данных, начиная с ячейки A104
  • установить курсор в ячейку A104;
  • вставить данные из буфера обмена
  1. – всего получится 202 значения с 3-й по 204-ю ячейки;
  1. упорядочить значения в столбце A
  • кликнуть мышкой по кнопке ;
  1. ввести в ячейку B3 формулу
  • =(СТРОКА(B3)-1)/202-1/101
  1. – функция «СТРОКА» возвращает номер строки указанного аргумента, то есть в данном случае в ячейке B3 получится значение (3-1)/202-1/101 = 0;
  1. ввести в ячейку B4 формулу
  • =(СТРОКА(B3)-1)/202
  1. – получится значение (3-1)/202 = 1/101;
  1. выделить обе ячейки B3 и B4 и скопировать их параллельно всем данным до ячейки B204
  1. – в последней ячейке должно получиться значение 1;
  1. добавить в ячейку A2 значение, на единицу меньшее значения ячейки A3 и сопоставить ему значение 0 в ячейке B2;
  2. добавить в ячейку A205 значение, на единицу большее значения ячейки A204 и сопоставить ему значение 1 в ячейке B205.

Ввести формулы вычисления нормального распределения:

  1. в ячейки F4, F5 (те, которые скрыты графиком) скопировать среднее и стандартное отклонение, соответственно
  • =МОМЕНТЫ!B4
  • =МОМЕНТЫ!B6
  1. в ячейку C2 ввести формулу нормального распределения
  • =НОРМРАСП(A2;$F$4;$F$5;1)
  1. в ячейку D2 ввести формулу вычисления расхождения между ЭФР и ожидаемой функцией распределения
  • =ABS(C2-B2)
  1. скопировать обе ячейки C2 и D2 вплоть до 205-й строки;
  2. вычислить максимальное расхождение, например, в ячейке F6
  • =МАКС(D2:D205)

Теперь уже можно рисовать графики:

  1. выделить все значения в ячейках A2:C205;
  2. вызвать “Мастера Диаграмм”;
  3. выбрать «Точечную» диаграмму – без маркеров со сглаживающей линией (третья по порядку среди точечных диаграмм);
  4. при выборе представления диаграммы, после двух нажатий кнопки , удалить “Легенду” и добавить “Заголовок по оси Х”:
  • МАКСИМАЛЬНОЕ РАСХОЖДЕНИЕ D=…
  1. (указав здесь полученное значение Δ из ячейки F6);
  1. ;
  2. установить параметры диаграммы, как в примере.

Замечание. Если бы параметры нормальной модели не оценивались по выборочным данным, а были бы в точности равны этим оценкам, то при полученном здесь расхождении Δ=0,097 гипотезу нормальности следовало бы принять с критическим уровнем значимости > 0,20 (см. таблицу 6.2 сборника таблиц [1]). Это надо воспринимать как хороший знак и не более того. Если неизвестные значения параметров оцениваются по выборке, то критический уровень значимости становится зависящим от неизвестных параметров и трудно ожидать, что даже в предположениях гипотезы критерий будет иметь приемлемый размер. Контрольные вопросы.

  1. Сформулируйте статистическую задачу.
  2. Что такое вариационный ряд?
    1. 31.
  3. Дайте определение эмпирической функции распределения?
    1. 31.
  4. Почему некоторые ступеньки ЭФР высокие, а некоторые низкие?
    1. 31.
  5. Почему одни ступеньки ЭФР длинные, а другие короткие?
    1. 31.
  6. Постройте ЭФР по следующим данным: 1; 2; 1; 3; 1; 5; 1; 3.
  7. Выпишите формулу для функции распределения нормального закона (равномерного, экспоненциального).
    1. 16-21.
  8. Можно ли утверждать, что ЭФР является состоятельной оценкой истинной функции распределения? Что сие означает?
    1. 31.
  9. Можно ли утверждать, что ЭФР является несмещенной оценкой истинной функции распределения? Что сие означает?
    1. 31.
  10. Докажите несмещенность ЭФР.
  11. Можно ли по значению максимального расхождения между ЭФР и ожидаемой функцией распределения принять или отвергнуть гипотезу о виде истинной функции распределения?
    1. 32.

2.2.3. Эмпирическая функция распределения интервального ряда

Она определяется точно так же, как в дискретном случае:

, где – количество вариант СТРОГО МЕНЬШИХ, чем «икс», который «пробегает» все значения от «минус» до «плюс» бесконечности.

Но вот построить её для интервального ряда намного проще. Находим накопленные относительные частоты:

И строим кусочно-ломаную линию, с промежуточными точками , где – правые концы интервалов, а – относительная частота, которая успела накопиться на всех «пройденных» интервалах:

При этом если и если .

Напоминаю, что данная функция не убывает, принимает значения из промежутка и, кроме того, для ИВР она ещё и непрерывна.

Эмпирическая функция является аналогом функции распределения НСВ и приближает теоретическую функцию , которую теоретически, а иногда и практически можно построить по всей генеральной совокупности.

Помимо перечисленных графиков, вариационные ряды также можно представить с помощью кумуляты и огивы частот либо относительных частот, но в классическом учебном курсе эта дичь редкая, и поэтому я не буду останавливаться на ней этой книге. Скажу только, что у вас вряд ли возникнут проблемы с их построением в случае такой необходимости.
Теперь что касаемо объёма выборки. Хорошо, если в вашей задаче всего лишь 20-30-50 вариант, но что делать, если их 100-200 и больше? В моей практике встречались десятки таких задач, и ручной подсчёт здесь уже не торт. Никаких проблем:

Но не всё так сурово. Во многих задачах вам будет дан готовый вариационный ряд:

Пример 7

Выборочная проверка партии чая, поступившего в торговую сеть, дала следующие результаты:

Требуется построить гистограмму и полигон относительных частот, эмпирическую функцию распределения

Проверяем свои навыки работы в Экселе! (исходные числа и краткая инструкция прилагается) И на всякий случай краткое решение для сверки есть в конце книги.

Иногда встречаются ИВР с открытыми крайними интервалами, например:

В таких случаях интервалы «закрывают». Обычно поступают так: сначала смотрим на средние интервалы и выясняем длину частичного интервала: км. И для дальнейшего решения можно считать, что крайние интервалы имеют такую же длину: от 140 до 160 и от 200 до 220 км. Соответственно, середины интервалов: 150 и 210 км.

И самое важное по главе, обязательно прочитайте, тут немного:)

2.1.2. Эмпирическая функция распределения

Это статистический аналог функции распределения из теорвера. Данная функция определяется, как отношение:
, где – количество вариант СТРОГО МЕНЬШИХ, чем ,
при этом «икс» «пробегает» все значения от «минус» до «плюс» бесконечности.

Построим эмпирическую функцию распределения для нашей задачи. Чтобы было нагляднее, отложу варианты и их количество на числовой оси:

На интервале – по той причине, что левее ЛЮБОЙ точки этого интервала вариант нет. Кроме того, функция равна нулю ещё и в точке . Почему? Потому, что значение определяет количество вариант (см. определение), которые СТРОГО меньше двух, а это количество равно нулю.

На промежутке – и опять обратите внимание, что значение не учитывает рабочих 3-го разряда, т.к. речь идёт о вариантах, которые СТРОГО меньше трёх (по определению).

На промежутке – и далее процесс продолжается по принципу накопления частот:
– если , то ;
– если , то ;
– и, наконец, если , то – и в самом деле, для ЛЮБОГО «икс» из интервала ВСЕ частоты расположены СТРОГО левее этого значения «икс» (см. чертёж выше).

Накопленные относительные частоты удобно заносить в отдельный столбец таблицы, при этом алгоритм вычислений очень прост: сначала сносим слева частоту (красная стрелка), и каждое следующее значение получаем как сумму предыдущего и относительной частоты из текущего левого столбца (зелёные обозначения):

Вот ещё, кстати, один довод за вертикальную ориентацию данных – справа по надобности можно приписывать дополнительные столбцы.

Построенную функцию принято записывать в кусочном виде:

а её график представляет собой ступенчатую фигуру:

Эмпирическая функция распределения не убывает и принимает значения лишь из промежутка , и если у вас вдруг получится что-то не так, то ищите ошибку.

Теперь смотрим видео, о том, как построить эту функцию в Экселе (Ютуб).

И, конечно, вспомним основной метод математической статистики. Эмпирическая функция распределения строится по выборке и приближает теоретическую функцию распределения . Легко догадаться, что последняя появляется в результате исследования всей генеральной совокупности, но если рабочих в цехе ещё пересчитать можно, то звёзды на небе – уже вряд ли. Вот поэтому и важнА функция эмпирическая, и ещё важнее, чтобы выборка была репрезентативна, дабы приближение было хорошим.

Миниатюрное задание для закрепления материала:

Пример 5

Дано статистическое распределение совокупности:

Составить эмпирическую функцию распределения, выполнить чертёж

Решаем самостоятельно – все числа уже в Экселе! Свериться с образцом можно в конце книги. По поводу красоты чертежа сильно не запаривайтесь, главное, чтобы было правильно – этого обычно достаточно для зачёта.

Эмпирическая функция распределения

Эмпирической (опытной) функцией распределения или функцией распределения выборки называют такую функцию, которая определяет для каждого значения x частоту событий X и предназначена для оценке теоретической функции распределения генеральной совокупности в математической статистике.

Эмпирическая функция распределения находится по формуле:

n — объем выборки;

nx — количество наблюдений (вариантов) меньше x.

Дана таблица функции распределения выборки. Требуется построить эмпирическую функцию распределения

xi 1 2 3 4 5 6
ni 4 10 6 8 7 5

Эмпирическая функция распределения решение

Из таблицы n=40, т.е.
n=4+10+6+8+7+5=40
Вычислим функцию распределения выборки

Эмпирическая функция распределения имеет вид

Эмпирическая функция распределения

Построим график кусочно-постоянной эмпирической функции распределения

Эмпирическая функция распределения график

таким образом, по данным выборки можно приближенно построить функцию для неизвестной функции выборки.

90006

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *