Высшая математика III основы теории вероятностей. Элементы математической статистики




НазваниеВысшая математика III основы теории вероятностей. Элементы математической статистики
страница6/9
Дата20.04.2013
Размер1.61 Mb.
ТипПрограмма курса
1   2   3   4   5   6   7   8   9
называют выборку, при которой объект перед отбором следующего возвращается в генеральную совокупность. Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается.

Если выборка правильно отражает соотношения в генеральной совокупности, то ее называют репрезентативной (представительной). Например, результаты социологического опроса населения будут зависеть от того, в каком месте он проводится, среди каких групп.


        1. ВАРИАЦИОННЫЙ РЯД. ПОЛИГОН ЧАСТОТ И ГИСТОГРАММА ЭМПИРИЧЕСКАЯ ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ

Пусть Х — некоторый признак изучаемого объекта или явления (срок службы электролампы, вес студента, диаметр шарика для подшипника и т.п.). Генеральной совокупностью является множество всех возможных значений этого признака, а результаты n наблюдений над признаком Х дадут нам выборку объема n — первоначальные статистические данные, значения (простая выборка, не сгруппированные данные)

При этом значение получено при первом наблюдении случайной величины Х, – при втором наблюдении той же случайной величины и т.д.

Выборку преобразуют в вариационный ряд, располагая результаты наблюдений в порядке возрастания: Каждый член вариационного ряда называется вариантой.

Пример 4.1.

1. Измерена масса тела 10-ти детей 6-ти лет. Полученные данные образуют простой статистический ряд: 24 22 23 28 24 23 25 27 25 25.

2. Из 10000 выпущенных на конвейере электрических лампочек отобрано 300 штук для проверки качества всей партии. Здесь а

Отдельные значения статистического ряда называются вариантами. Если варианта хi появилась m раз, то число m называют частотой, а ее отношение к объему выборки m/nотносительной частотой.

Последовательность вариант, записанная в возрастающем (убывающем) порядке, называется ранжированным рядом.

Пример 4.2. Для ранжированного ряда: 23 23 24 24 25 25 25 27 28 в нижеприведенной таблице в первой строке записаны все значения величины (варианты), во второй – соответствующие им частоты (безынтервальный вариационный ряд), в третьей – накопленные частоты, в четвертой – относительные частоты (табл.4.1).


Таблица 4.1. Значения вариант и их частот

Х222324252728ni122311nн13589100.10.20.20.30.10.1

Полигоном частот называют ломаную линию, отрезки которой соединяют точки с координатами (хi; ni) (рис. 4.1).

Отметим, что сумма частот статистического ряда равна объему выборки. Часто статистический ряд составляют, используя относительные частоты вариант: (m — количество различных вариант). Сумма относительных частот равна единице.

Полигоном относительных частот называют ломаную линию, отрезки которой соединяют точки с координатами (хi; hi).


а)б)

Рисунок 4.1. Полигон частот а), кумулятивная кривая б)


Эмпирическим аналогом графика интегральной функции распределения является кумулятивная кривая (кумулята). Для ее построения на оси ОХ откладывают значения вариант, на оси ОY – накопленные частоты или относительные частоты. Полученная плавная кривая называется кумулятой.

В том случае, если выборка представлена большим количеством различных значений непрерывной случайной величины, то группировку данных проводят в виде интервального вариационного ряда (ИВР). Для этого диапазон варьирования признака разбивают на несколько (5–10) равных интервалов и указывают количество вариант, попавших в каждый интервал.

Алгоритм построения интервального вариационного ряда.

1. Исходя из объема выборки (n), определить количество интервалов (k) (см. табл. 4.2).


Таблица 4.2.Рекомендуемое соотношение объем выборкичисло интервалов

n25–4040–6060–100100–200>200k5–66–87–108–1210–15

2. Вычислить размах ряда: R=Xmax Xmin

3. Определить ширину интервала: h=R/(k–1)

4. Найти начало первого интервала X0 = Xmin h/2

5. Составить интервальный вариационный ряд.

Графическим изображением ИВР является гистограмма. Для ее построения на оси ОХ откладывают интервалы шириной h, на каждом интервале строят прямоугольник высотой m/h. Величина m/h называется плотностью частоты. Гистограмма является эмпирическим аналогом графика дифференциальной функции распределения.

Пример 4.3. Измерена масса тела 100 женщин 30 лет, получены значения от 60 до 90 кг. Построить интервальный вариационный ряд (табл. 4.3) и гистограмму.

Таблица 4.3. Интервальный вариационный ряд

ИнтервалСередина интервалаmm/h60–6562.5142.865–7067.5326.470–7572.5285.675–8077.5142.880–8582.571.485–9087.520.4



Рисунок 4.2. Гистограмма


Эмпирическая функция распределения находится по следующей формуле (отношение накопленных частот к объему выборки):

(4.1)


    1. СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ

        1. ОЦЕНКА ПАРАМЕТРОВ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ. ТОЧЕЧНАЯ ОЦЕНКА И ЕЕ СВОЙСТВА

Числовые характеристики генеральной совокупности называются параметрами генеральной совокупности.

Например, для нормального распределения это математическое ожидание и среднее квадратическое отклонение (СКО), для равномерного распределения – это границы интервала, в котором наблюдаются значения этой случайной величины

Оценка параметра – соответствующая числовая характеристика, рассчитанная по выборке. Если оценка определяется одним числом, она называется точечной оценкой.

Например, среднее арифметическое выборочных значений служит оценкой математического ожидания. Выборочные значения случайны, поэтому оценки можно рассматривать как случайные величины. Построим точечную оценку параметра по выборке как значение некоторой функции и перечислим «желаемые» свойства оценки .

Определение 4.1. Оценка называется несмещенной, если ее математическое ожидание равно истинному значению оцениваемого параметра: .

Данное свойство характеризует отсутствие систематической ошибки, т.е. при многократном использовании вместо параметра его оценки среднее значение ошибки приближения равно нулю.

Так, выборочное среднее арифметическое является несмещенной оценкой математического ожидания, а выборочная дисперсия смещенная оценка генеральной дисперсии D. Несмещенной оценкой генеральной дисперсии является оценка («исправленная дисперсия»)

Определение 4.2. Оценка называется состоятельной, если она сходится по вероятности к оцениваемому параметру при

Данное свойство характеризует улучшение оценки с увеличением объема выборки.

Сходимость по вероятности означает, что при большом объеме выборки вероятность больших отклонений оценки от истинного значения мала.

Определение 4.3.. Несмещенная оценка является эффективной, если она имеет наименьшую среди всех несмещенных оценок дисперсию.

Пример 4.4.:

1. Вычислить среднее значение массы тела детей 6 лет.



2. Если выборочное среднее вычисляется по вариационному ряду, то находят сумму произведений вариант на соответствующие частоты, и делят на количество элементов в выборке: .



3. В том случае, когда статистические данные представлены в виде интервального вариационного ряда, при вычислении выборочного среднего значениями вариант считают середины интервалов. Так, для вычисления среднего значения массы тела женщин 30 лет из примера 4.3. используют формулу:

.

Другими характеристиками являются мода и медиана.

В теории вероятностей модой Мо дискретной случайной величины называется ее значение, которое имеет максимальную вероятность. Модой непрерывной случайной величины называется такое ее значение, при котором достигается максимум плотности распределения Закон распределения называется унимодальным, если мода единственна. В математической статистике мода Мо определяется по выборке, как варианта с наибольшей частотой.

Медианой называется варианта, расположенная в центре ранжированного ряда. Если ряд состоит из четного числа вариант, то медианой считают среднее арифметическое двух вариант, расположенных в центре ранжированного ряда.

Пример 4.5. Найти моду и медиану выборочной совокупности по массе тела детей 6 лет.

Ответ: Мо = 24; Ме = 24.

Основные числовые характеристики выборочной совокупности:

1) размах вариационного ряда R=XmaxXmin. Этот показатель является наиболее простой характеристикой рассеяния и показывает диапазон варьирования величины. Этой характеристикой пользуются при работе с малыми выборками;

2) выборочное среднее находится как взвешенное среднее арифметическое , которое характеризует среднее значение признака X в пределах рассматриваемой выборки;

3) выборочная дисперсия определяется по формуле: , которая является мерой рассеяния возможных значений показателя X вокруг своего среднего значения, и ее размерность совпадает с квадратом размерности варианты;

4) выборочное среднее квадратическое отклонение описывает абсолютный разброс значений показателя X. Его размерность совпадает с размерностью варианты;

5) «исправленная» дисперсия (вычисляют при малых n, n<30) и «исправленное» стандартное отклонение ;

6) коэффициент вариации характеризует относительную изменчивость показателя X, то есть относительный разброс вокруг его среднего значения . Коэффициент вариации является безразмерной величиной, поэтому он пригоден для сравнения рассеяния вариационных рядов, варианты которых имеют различную размерность.

Пример 4.6.: Измерена длина (Х) и масса тела (Y) девочек 10-ти лет. Получены следующие показатели: Х=130 см, sХ = 5 см, Y = 32 кг, sY = 4 кг. Какая величина имеет большую вариативность?

Так как длина и масса тела измеряются в разных единицах, то вариативность нельзя сравнить при помощи СКО. Необходимо вычислить относительный показатель вариации.



Таким образом, масса тела имеет большую вариативность, чем длина тела.

        1. ОЦЕНКА С ПОМОЩЬЮ ИНТЕРВАЛОВ

Оценка параметров с помощью интервалов заключается в нахождении интервалов, называемых доверительными, между границами которых с определенными вероятностями (доверительными) находятся истинные значения оцениваемых параметров. Интервальная оценка определяется двумя числами  концами интервала.

Пусть найденная по данным выборки величина * служит оценкой неизвестного параметра . Оценка * определяется тем точнее, чем меньше
|*|, т. е. чем меньше  в неравенстве |*|< ,  > 0.

Доверительной вероятностью (надежностью) оценки * параметра называется вероятность , с которой оценивается неравенство |*|< .

Число =1  называется уровнем значимости, определяющим вероятность того, что оцениваемый параметр не попадет в доверительный интервал.

Обычно задается надежность и определяется . Чаще всего вероятность задается значениями от 0.95 и выше. Неравенство |*|< можно записать в виде

  < * < или * < < * + .

Доверительным интервалом называется интервал (* , * + ), который покрывает неизвестный параметр с заданной надежностью.

Определение доверительного интервала для среднего значения нормально распределенной измеряемой случайной величины Х при известной дисперсии .

Нам уже известно, что . Можно показать [1-5], что (сумма нормально распределенных случайных величин сама является нормальной).

Зададим доверительную вероятность и найдем доверительный интервал ( , + ), который покрывал бы неизвестный параметр с заданной надежностью .

Согласно формуле В (свойства нормального распределения, раздел 3)

. (4.1)

Таким образом, для отыскания величины доверительной границы случайного отклонения результатов наблюдений по доверительной вероятности имеем уравнение:

, где ,

где значение находим по таблице Лапласа (приложение 1), .

Пример 4.7. По результатам наблюдений была найдена оценка неизвестного математического ожидания m случайной величины если точечная оценка =10.2, а дисперсия оценки =4. Требуется оценить доверительный интервал для оценки математического ожидания по 36-ти наблюдениям с заданной надежностью =0.99.

Решение. Из (4.1) следует, что . Отсюда получаем, что =2.58 и половина искомого интервала . Так как , то с вероятностью 0.99 доверительный интервал для оценки математического ожидания: .

Со случаем, когда распределение результатов наблюдений нормально, но их дисперсия неизвестна, можно ознакомится в [3, 4, 6].


    1. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ

Статистическая гипотеза — это предположение

о виде закона распределения («данная генеральная совокупность нормально распределена»);

о значениях его параметров («генеральное среднее равно нулю»);

об однородности данных («эти две выборки извлечены из одной генеральной совокупности»).

Статистическая проверка гипотезы состоит в выяснении того, согласуются ли результаты наблюдений (выборочные данные) с нашим предположением.

Результатом проверки может быть отрицательный ответ: выборочные данные противоречат высказанной гипотезе, поэтому от нее следует отказаться. В случае ответа неотрицательного (выборочные данные не противоречат гипотезе) гипотезу принимают в качестве одного из допустимых решений (не единственно верного).

Различают основную (нулевую) гипотезу (гипотеза, которая проверяется, ) и альтернативную (конкурирующую, противопоставленную основной, ). Например, если нулевая гипотеза : МХ= 10 (т. е. математическое ожидание нормально распределенной величины равно 10), тогда гипотеза , может иметь вид : МХ ≠10.

Цель статистической проверки гипотез: на основании выборочных данных принять решение о справедливости основной гипотезы или отклонить в ее пользу альтернативной.

Так как проверка осуществляется на основании выборки, а не всей генеральной совокупности, то существует вероятность, возможно, очень малая, ошибочного заключения.

Так, нулевая гипотеза может быть отвергнута, в то время как в действительности в генеральной совокупности она является справедливой. Такую ошибку называют ошибкой первого рода, а её вероятность — уровнем значимости и обозначают  (стандартные значения : 0.1, 0.05, 0.01, 0.001). Возможно, что нулевая гипотеза принимается, в то время как в генеральной совокупности справедлива альтернативная гипотеза. Такую ошибку называют ошибкой второго рода, а её вероятность обозначают Проверка статистических гипотез осуществляется с помощью статистического критерия K — правила (функции от результатов наблюдений), определяющего меру расхождения результатов наблюдений с нулевой гипотезой. Вероятность называют мощностью критерия.

Замечание. Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза. Ошибка второго рода состоит в том, что будет принята неправильная гипотеза.

Например, основная гипотеза состоит в том, что предприятие получает прибыль. Если это правильная гипотеза, то ошибка первого рода состоит в том, что данная гипотеза отвергается. Если принимается решение о том, что прибыль предприятие не получает, то это ошибка второго рода.

Иногда ошибку первого рода называют «альфа-риск» (-риск) а ошибку второго рода «бета-риск» (-риск).

Из двух критериев, характеризующихся одной и той же вероятностью выбирают тот, которому соответствует меньшая ошибка 2-го рода, т.е. большая мощность. Уменьшить вероятности обеих ошибок и одновременно можно, увеличив объем выборки.

Значения критерия K разделяются на две части: область допустимых значений (область принятия гипотезы ) и критическую область (область принятия гипотезы ). Критическая область состоит из тех же значений критерия К, которые маловероятны при справедливости гипотезы . Если значение критерия K, рассчитанное по выборочным данным, попадает в критическую область, то гипотеза отвергается в пользу альтернативной в противном случае мы утверждаем, что нет оснований отклонять гипотезу .

Пример 4.7. Для подготовки к зачету преподаватель сформулировал 100 вопросов (генеральная совокупность) и считает, что студенту можно поставить «зачтено», если тот знает 60 % вопросов (критерий). Преподаватель задает студенту 5 вопросов (выборка из генеральной совокупности) и ставит «зачтено», если правильных ответов не меньше трех. Гипотеза : «студент курс усвоил», а множество — область принятия этой гипотезы. Критической областью является множество — правильных ответов меньше трех, в этом случае основная гипотеза отвергается в пользу альтернативной «студент курс не усвоил, знает меньше 60 % вопросов».

Студент А выучил 70 вопросов из 100, но ответил правильно только на два из пяти, предложенных преподавателем, — зачет не сдан. В этом случае преподаватель совершает ошибку первого рода.

Студент Б выучил 50 вопросов из 100, но ему повезло, и он ответил правильно на 3 вопроса — зачет сдан, но совершена ошибка второго рода.

Преподаватель может уменьшить вероятность этих ошибок, увеличив количество задаваемых на зачете вопросов.

Алгоритм проверки статистических гипотез сводится к следующему:

1) сформулировать основную и альтернативную гипотезы;

2) выбрать уровень значимости ;

3) в соответствии с видом гипотезы выбрать статистический критерий для ее проверки, т.е. случайную величину K, распределение которой известно;

4) по таблицам распределения случайной величины K найти границу критической области (вид критической области определить по виду альтернативной гипотезы );

5) по выборочным данным вычислить наблюдаемое значение критерия

6) принять статистическое решение: если попадает в критическую область — отклонить гипотезу в пользу альтернативной ; если попадает в область допустимых значений, то нет оснований отклонять основную гипотезу.


  1. ПРОВЕРКА ГИПОТЕЗ О ВИДЕ РАСПРЕДЕЛЕНИЯ. КРИТЕРИЙ СОГЛАСИЯ ПИРСОНА

Одной из важных задач математической статистики является установление теоретического закона распределения случайной величины, характеризующей изучаемый признак по эмпирическому распределению, представляющему вариационный ряд. Предположение о виде закона распределения можно сделать по гистограмме или полигону (Рис. 4.3)


а)б)в)Рис. 4.3. Возможные виды гистограмм:
а) нормального, б) показательного, в) равномерного распределений


Например, по гистограмме (рис. 4.3, а)) можно сделать предположение о том, что генеральная совокупность распределена по нормальному закону.

Для проверки гипотез о виде распределения служат специальные критерии — критерии согласия. Они отвечают на вопрос: согласуются ли результаты экспериментов с предположением о том, что генеральная совокупность имеет заданное распределение.

Проверим это предположение с помощью критерия согласия Пирсона. В этом критерии мерой расхождения между гипотетическим (предполагаемым) и эмпирическим распределением служит статистика



где n — объем выборки;

k — количество интервалов (групп наблюдений);

— количество наблюдений, попавших в j-й интервал;

— вероятность попадания в j-й интервал случайной величины, распределенной по гипотетическому закону.

Если предположение о виде закона распределения справедливо, то статистика Пирсона распределена по закону «хи-квадрат» с числом степеней свободы (r — число параметров распределения, оцениваемых по выборке):

Оцениваются неизвестные параметры с использованием теории точечных оценок (см. источник [3], гл.16 и раздел 3.8. настоящего пособия), некоторые оценки приведены в табл. 4.4.


Таблица 4.4. Оцениваемые параметры и их точечные оценки


Вид распределенияОцениваемые параметрыТочечные оценки параметров

Здесь .

Количество интервалов k рекомендуется рассчитывать по формуле Старджеса где n — объем выборки. Длину i-го интервала принимают равной где —наибольшее, а — наименьшее значение в вариационном ряду.

Пример 4.8. Для среднего балла среди 30-ти групп (с точностью до сотых долей балла) получили выборку

3.7, 3.85, 3.7, 3.78, 3.6, 4.45, 4.2, 3.87, 3.33, 3.76, 3.75, 4.03, 3.8, 4.75, 3.25, 4.1, 3.55, 3.35, 3.38, 3.05, 3.56, 4.05, 3.24, 4.08, 3.58, 3.98, 3.4, 3.8, 3.06, 4.38. Проверить гипотезу о нормальном распределении среднего балла на уровне значимости .

Решение. Сгруппируем эту выборку. Наименьший средний балл равен 3.05, наибольший — 4.75. Интервал [3; 4.8] разобьем на 6 частей длиной , применяя формулу Старджеса (). Подсчитаем частоту (относительную частоту ) для каждого интервала и получим сгруппированный статистический ряд (табл. 4.5).

Таблица 4.5. Статистический ряд

Интервалы[3;3.3)[3.3;3.6)[3.6;3.9)[3.9;4.2)[4.2;4.5)[4.5;4.8)Частоты 4710531Относительные частоты 0.1330.2330.30.1670.10.033

Сформулируем основную и альтернативную гипотезы.

— случайная величина X (средний балл) подчиняется нормальному закону с параметрами . Так как истинных значений параметров мы не знаем, возьмем их оценки, рассчитанные по выборке:

случайная величина X не подчиняется нормальному закону с данными параметрами.

Рассчитаем наблюдаемое значение статистики Пирсона. Эмпирические частоты уже известны (табл. 4.5), а для вычисления вероятностей (в предположении, что гипотеза справедлива) применим уже известную формулу (свойство В):



и таблицу функции Лапласа (приложение 1). Полученные результаты сведем в таблицу (табл. 4.6). Наблюдаемое значение статистики Пирсона равно

Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение , тем сильнее довод против основной гипотезы. Поэтому критическая область для этой статистики всегда правосторонняя: Её границу находим по таблицам распределения «хи-квадрат» (приложение 3) и заданным значениям (число интервалов), (параметры и оценены по выборке):

Наблюдаемое значение статистики Пирсона не попадает в критическую область: поэтому нет оснований отвергать основную гипотезу.

Вывод: на уровне значимости 0.025 справедливо предположение о том, что средний балл имеет нормальное распределение.


Таблица 4.6. Сравнение наблюдаемых и ожидаемых частот

№ п/пИнтервалы группировки Наблюдаемая частота Вероятность попадания в j-й интервалОжидаемая частота Слагаемые статистики Пирсона 1.[3; 3.3)40.1013.0320.3092.[3.3; 3.6)70.2256.7610.0083.[3.6; 3.9)100.2958.790.1664.[3.9; 4.2)50.2226.6650.4165.[4.2; 4.5)30.0982.9460.0016.[4.5; 4.8)10.0250.7580.077—300.96528.95

  1. КОНТРОЛЬНАЯ РАБОТА 3.
1   2   3   4   5   6   7   8   9

Похожие:

Высшая математика III основы теории вероятностей. Элементы математической статистики iconЭлективный курс «Элементы теории множеств, логики, комбинаторики, математической статистики и теории вероятностей»
Поэтому знание основ теории множеств, логики и теории вероятностей даёт возможность учащимся определиться в профессиональной деятельности,...
Высшая математика III основы теории вероятностей. Элементы математической статистики iconРуководство по решению задач по теории вероятностей и математической статистики : учебное пособие / В. Е. Гмурман. 11-е изд., перераб. М. Высшее образование, 2009. 404 с. (Основы наук)
Высшая математика для студентов экономических, технических, естественно-научных специальностей вузов / И. В. Виленкин, В. М. Гробер....
Высшая математика III основы теории вероятностей. Элементы математической статистики iconСамостоятельная работа 2 часа в неделю
Курс прикладной статистики является логичным продолжением курсов теории вероятностей, теории случайных процессов и математической...
Высшая математика III основы теории вероятностей. Элементы математической статистики iconПрограмма дисциплины «Обучение машин и восстановление зависимостей» для направления 010500. 68 «Прикладная математика и информатика»
«Математический анализ», «Линейная алгебра», «Основы теории вероятностей и математической статистики». Для выполнения самостоятельных...
Высшая математика III основы теории вероятностей. Элементы математической статистики iconМетодические подходы введения в содержание математического образования основной школы элементов комбинаторики, статистики и теории вероятностей о введении элементов комбинаторики, статистики
Российского образования в содержание школьного математического образования внесены изменения: впервые в курс основной и средней школы...
Высшая математика III основы теории вероятностей. Элементы математической статистики iconМетодика изучения темы: «Элементы статистики, комбинаторики и теории вероятностей в школьном курсе математики 7- 9 классов» Из опыта работы учителя математики моу сош №5
Методика изучения темы: «Элементы статистики, комбинаторики и теории вероятностей в школьном курсе математики 7- 9 классов»
Высшая математика III основы теории вероятностей. Элементы математической статистики iconТомский государственный университет факультет прикладной математики и кибернетики утверждаю
Для изучения курса необходимо усвоение студентами теории дифференциальных уравнений, линейной алгебры, теории вероятностей, теории...
Высшая математика III основы теории вероятностей. Элементы математической статистики iconРабочая программа дисциплины (модуля)
Цель освоения учебной дисциплины «Теория вероятностей и математическая статистика» – фундаментальная подготовка в области теории...
Высшая математика III основы теории вероятностей. Элементы математической статистики iconПрограмма дисциплины "Основы теории вероятностей и математической статистики" для направления 080200. 62 Менеджмент Профиль специальных дисциплин «Логистика и управление цепями поставок»
Государственное образовательное бюджетное учреждение высшего профессионального образования
Высшая математика III основы теории вероятностей. Элементы математической статистики iconПлан работы гоу цо «Школа здоровья» №2000 на октябрь 2007 г
Творческая мастерская учителей математики. Теория вероятностей и элементы математической статистики
Разместите кнопку на своём сайте:
Библиотека


База данных защищена авторским правом ©lib.znate.ru 2014
обратиться к администрации
Библиотека
Главная страница