Разделы сайта
Выбор редакции:
- Крейсер "красный крым" черноморского флота
- «31 спорный вопрос» русской истории: житие императора Николая II
- Лечебные свойства корня лопуха и его широкое применение в домашних условиях
- Природные ресурсы западной сибири
- Совместимость петуха и змеи в любовных отношениях и браке Он петух она змея совместимость
- Чемерица черная: прекрасная и опасная Противопоказания и побочные действия
- Чем интересна Свято-Михайло-Афонская Закубанская пустынь?
- Порционная сельдь под шубой на праздничный стол
- К чему снится шить во сне
- Примета — разбить зеркало случайно: что делать, если оно треснуло
Реклама
Дисперсия совокупности данных. Дисперсия дискретной случайной величины. Среднее квадратическое отклонение |
Часто в статистике при анализе какого-либо явления или процесса необходимо учитывать не только информацию о средних уровнях исследуемых показателей, но и разброс или вариацию значений отдельных единиц , которая является важной характеристикой изучаемой совокупности. В наибольшей степени вариации подвержены курсы акций, объемы спроса и предложения, процентные ставки в разные периоды времени и в разных местах. Основными показателями, характеризующими вариацию , являются размах, дисперсия, среднее квадратическое отклонение и коэффициент вариации. Размах вариации представляет собой разность максимального и минимального значений признака: R = Xmax – Xmin . Недостатком данного показателя является то, что он оценивает только границы варьирования признака и не отражает его колеблемость внутри этих границ. Дисперсия лишена этого недостатка. Она рассчитывается как средний квадрат отклонений значений признака от их средней величины: Упрощенный способ расчета дисперсии осуществляется с помощью следующих формул (простой и взвешенной): Примеры применения данных формул представлены в задачах 1 и 2. Широко распространенным на практике показателем является среднее квадратическое отклонение : Среднее квадратическое отклонение определяется как квадратный корень из дисперсии и имеет ту же размеренность, что и изучаемый признак. Рассмотренные показатели позволяют получить абсолютное значение вариации, т.е. оценивают ее в единицах измерения исследуемого признака. В отличие от них, коэффициент вариации измеряет колеблемость в относительном выражении - относительно среднего уровня, что во многих случаях является предпочтительнее. Формула для расчета коэффициента вариации. Примеры решения задач по теме «Показатели вариации в статистике»Задача 1 . При изучении влияния рекламы на размер среднемесячного вклада в банках района обследовано 2 банка. Получены следующие результаты: Определить: Решение 1) Составим расчетную таблицу для банка с рекламой . Для определения среднего размера вклада за месяц найдем середины интервалов. При этом величина открытого интервала (первого) условно приравнивается к величине интервала, примыкающего к нему (второго). Средний размер вклада найдем по формуле средней арифметической взвешенной: 29 000/50 = 580 руб. Дисперсию вклада найдем по формуле: 23 400/50 = 468 Аналогичные действия произведем для банка без рекламы : 2) Найдем средний размер вклада для двух банков вместе. Хср =(580×50+542,8×50)/100 = 561,4 руб. 3) Дисперсию вклада, для двух банков, зависящую от рекламы найдем по формуле: σ 2 =pq (формула дисперсии альтернативного признака). Здесь р=0,5 – доля факторов, зависящих от рекламы; q=1-0,5, тогда σ 2 =0,5*0,5=0,25. 4) Поскольку доля остальных факторов равна 0,5, то дисперсия вклада для двух банков, зависящая от всех факторов кроме рекламы тоже 0,25. 5) Определим общую дисперсию, используя правило сложения. = (468*50+636,16*50)/100=552,08 = [(580-561,4)250+(542,8-561,4)250] / 100= 34 596/ 100=345,96 σ 2 = σ 2 факт + σ 2 ост = 552,08+345,96 = 898,04 6) Коэффициент детерминации η 2 = σ 2 факт / σ 2 = 345,96/898,04 = 0,39 = 39% - размер вклада на 39% зависит от рекламы. 7) Эмпирическое корреляционное отношение η = √η 2 = √0,39 = 0,62 – связь достаточно тесная. Задача 2 . Имеется группировка предприятий по величине товарной продукции: Определить: 1) дисперсию величины товарной продукции; 2) среднее квадратическое отклонение; 3) коэффициент вариации. Решение 1) По условию представлен интервальный ряд распределения. Его необходимо выразить дискретно, то есть найти середину интервала (х"). В группах закрытых интервалов середину найдем по простой средней арифметической. В группах с верхней границей - как разность между этой верхней границей и половиной размера следующего за ним интервала (200-(400-200):2=100). В группах с нижней границей – суммой этой нижней границы и половины размера предыдущего интервала (800+(800-600):2=900). Расчет средней величины товарной продукции делаем по формуле: Хср = k×((Σ((х"-a):k)×f):Σf)+a. Здесь а=500 - размер варианта при наибольшей частоте, k=600-400=200 - размер интервала при наибольшей частоте. Результат поместим в таблицу: Итак, средняя величина товарной продукции за изучаемый период в целом равна Хср = (-5:37)×200+500=472,97 тыс. руб. 2) Дисперсию найдем по следующей формуле: σ 2 = (33/37)*2002-(472,97-500)2 = 35 675,67-730,62 = 34 945,05 3) среднее квадратическое отклонение: σ = ±√σ 2 = ±√34 945,05 ≈ ±186,94 тыс. руб. 4) коэффициент вариации: V = (σ /Хср)*100 = (186,94 / 472,97)*100 = 39,52% Дисперсия в статистике определяется как среднее квадратическое отклонение индивидуальных значений признака в квадрате от средней арифметической. Распространенный способ расчета квадратов отклонений вариантов от средней с их последующим усреднением. В экономически-статистическом анализе вариацию признака принято оценивать чаще всего с помощью среднего квадратического отклонения, оно представляет собой корень квадратный из дисперсии. (3) Характеризует абсолютную колеблемость значений варьирующего признака выражается в тех же единицах измерения, что и варианты. В статистике часто возникает необходимость сравнения вариации различных признаков. Для таких сравнений используется относительный показатель вариации, коэффициент вариации. Свойства дисперсии: 1)если из всех вариант вычесть какое-либо число, то дисперсия от этого не изменится; 2) если все значения вариант разделить на какое-либо число b, то дисперсия уменьшится в b^2 раз, т.е. 3) если исчислить средний квадрат отклонений от какого-либо числа с неравного средней арифметической, то он будет больше дисперсии . При этом на вполне определенную величину на квадрат разности между средней величиной поc. Дисперсию можно определить как разницу между средним квадратом и средней в квадрате. 17. Групповая и межгрупповая вариации. Правило сложения дисперсииЕсли статистическая совокупность разбита на группы или части по изучаемому признаку, то для такой совокупности могут быть исчислены следующие виды дисперсии: групповые (частные), средне групповые (частных), и межгрупповая. Общая дисперсия – отражает вариацию признака за счет всех условий и причин, действующих в данной статистической совокупности. Групповая дисперсия - равна среднему квадрату отклонений отдельных значений признака внутри группы от средней арифметической этой группы, называемой групповой средней. При этом групповая средняя не совпадает с общей средней для всей совокупности. Групповая дисперсия отражает вариацию признака только за счет условий и причин, действующих внутри группы. Средняя групповых дисперсий - определяется как среднее взвешенное арифметическое из дисперсий групповых, причем весами являются объемы групп. Межгрупповая дисперсия - равна среднему квадрату отклонений групповых средних от общей средней. Межгрупповая дисперсия характеризует вариацию результативного признака за счет группировочного признака. Между рассмотренными видами дисперсий существует определенное соотношение: общая дисперсия равна сумме средней групповой и межгрупповой дисперсии. Это соотношение называется правилом сложения дисперсии. 18. Динамический ряд и его составные элементы. Виды динамических рядов.Ряд в статистике - это цифровые данные, показывающие, изменение явления во времени или в пространстве и дающие возможность производить статистическое сравнение явлений как в процессе их развития во времени, так и по различным формам и видам процессов. Благодаря этому можно обнаружить взаимную зависимость явлений. Процесс развития движения социальных явлений во времени в статистике принято называть динамикой. Для отображения динамики строят ряды динамики (хронологические, временные), которые представляют собой ряды изменяющихся во времени значений статистического показателя (например, число осуждённых за 10 лет), расположенных в хронологическом порядке. Их составными элементами являются цифровые значения данного показателя и периоды или моменты времени, к которым они относятся. Важнейшая характеристика рядов динамики - их размер (объём, величина) того или иного явления, достигнутых в определённых период или к определённому моменту. Соответственно, величина членов ряда динамики - его уровень. Различают начальный, средний и конечный уровни динамического ряда. Начальный уровень показывает величину первого, конечный - величину последнего члена ряда. Средний уровень представляет собой среднюю хронологическую вариационного рада и исчисляется в зависимости от того, является ли динамический ряд интервальным или моментным. Ещё одна важная характеристика динамического ряда - время, прошедшее от начального до конечного наблюдения, или число таких наблюдений. Существуют различные виды рядов динамики, их можно классифицировать по следующим признакам. 1) В зависимости от способа выражения уровней ряды динамики подразделяются на ряды абсолютных и производных показателей (относительных и средних величин). 2) В зависимости от того, как выражают уровни ряда состояние явления на определённые моменты времени (на начало месяца, квартала, года и т.п.) или его величину за определённые интервалы времени (например, за сутки, месяц, год и т.п.), различают соответственно моментные и интервальные ряды динамики. Моментные ряды в аналитической работе правоохранительных органов используются сравнительно редко. В теории статистики выделяют рады динамики и по ряду других классификационных признаков: в зависимости от расстояния между уровнями - с равностоящими уровнями и неравностоящими уровнями во времени; в зависимости от наличия основной тенденции изучаемого процесса - стационарные и не стационарные. При анализе динамических рядов исходят из следующего уровни ряда представляют в виде составляющих: Y t = TP + Е (t) где ТР – детерминированная составляющая определяющая общую тенденцию изменения во времени или тренд. Е (t) – случайная компонента, вызывающая колеблимость уровней. По данным выборочного обследования произведена группировка вкладчиков по размеру вклада в Сбербанке города: Определите:1) размах вариации; 2) средний размер вклада; 3) среднее линейное отклонение; 4) дисперсию; 5) среднее квадратическое отклонение; 6) коэффициент вариации вкладов. Решение:Данный ряд распределения содержит открытые интервалы. В таких рядах условно принимается величина интервала первой группы равна величине интервала последующей, а величина интервала последней группы равна величине интервала предыдущей. Величина интервала второй группы равна 200, следовательно, и величина первой группы также равна 200. Величина интервала предпоследней группы равна 200, значит и последний интервал будет иметь величину, равную 200. 1) Определим размах вариации как разность между наибольшим и наименьшим значением признака: Размах вариации размера вклада равен 1000 рублей. 2) Средний размер вклада определим по формуле средней арифметической взвешенной. Предварительно определим дискретную величину признака в каждом интервале. Для этого по формуле средней арифметической простой найдём середины интервалов. Среднее значение первого интервала будет равно: второго - 500 и т. д. Занесём результаты вычислений в таблицу:
Средний размер вклада в Сбербанке города будет равен 780 рублей: 3) Среднее линейное отклонение есть средняя арифметическая из абсолютных отклонений отдельных значений признака от общей средней: Порядок расчёта среднего линейонго отклонения в интервальном ряду распределения следующий: 1. Вычисляется средняя арифметическая взвешенная, как показано в п. 2). 2. Определяются абсолютные отклонения вариант от средней: 3. Полученные отклонения умножаются на частоты: 4. Находится сумма взвешенных отклонений без учёта знака: 5. Сумма взвешенных отклонений делится на сумму частот: Удобно пользоваться таблицей расчётных данных:
Среднее линейное отклонение размера вклада клиентов Сбербанка составляет 203,2 рубля. 4) Дисперсия - это средняя арифметическая квадратов отклонений каждого значения признака от средней арифметической. Расчёт дисперсии в интервальных рядах распределения производится по формуле: Порядок расчёта дисперсии в этом случае следующий: 1. Определяют среднюю арифметическую взвешенную, как показано в п. 2). 2. Находят отклонения вариант от средней: 3. Возводят в квадрат отклонения каждой варианты от средней: 4. Умножают квадраты отклонений на веса (частоты): 5. Суммируют полученные произведения: 6. Полученная сумма делится на сумму весов (частот): Расчёты оформим в таблицу:
Дисперсия — это мера рассеяния, описывающая сравнительное отклонение между значениями данных и средней величиной. Является наиболее используемой мерой рассеяния в статистике, вычисляемая путем суммирования, возведенного в квадрат, отклонения каждого значения данных от средней величины. Формула для вычисления дисперсии представлена ниже: s 2 – дисперсия выборки; x ср — среднее значение выборки; n — размер выборки (количество значений данных), (x i – x ср) — отклонение от средней величины для каждого значения набора данных. Для лучшего понимания формулы, разберем пример. Я не очень люблю готовку, поэтому занятием этим занимаюсь крайне редко. Тем не менее, чтобы не умереть с голоду, время от времени мне приходится подходить к плите для реализации замысла по насыщению моего организма белками, жирами и углеводами. Набор данных, редставленный ниже, показывает, сколько раз Ренат готовит пищу каждый месяц: Первым шагом при вычислении дисперсии является определение среднего значения выборки, которое в нашем примере равняется 7,8 раза в месяц. Остальные вычисления можно облегчить с помощью следующей таблицы. Финальная фаза вычисления дисперсии выглядит так: Для тех, кто любит производить все вычисления за один раз, уравнение будет выглядеть следующим образом: Использование метода «сырого счета» (пример с готовкой)Существует более эффективный способ вычисления дисперсии, известный как метод «сырого счета». Хотя с первого взгляда уравнение может показаться весьма громоздким, на самом деле оно не такое уж страшное. Можете в этом удостовериться, а потом и решите, какой метод вам больше нравится. — сумма каждого значения данных после возведения в квадрат, — квадрат суммы всех значений данных. Не теряйте рассудок прямо сейчас. Позвольте представить все это в виде таблицы, и тогда вы увидите, что вычислений здесь меньше, чем в предыдущем примере. Как видите, результат получился тот же, что и при использовании предыдущего метода. Достоинства данного метода становятся очевидными по мере роста размера выборки (n). Расчет дисперсии в ExcelКак вы уже, наверное, догадались, в Excel присутствует формула, позволяющая рассчитать дисперсию. Причем, начиная с Excel 2010 можно найти 4 разновидности формулы дисперсии: 1) ДИСП.В – Возвращает дисперсию по выборке. Логические значения и текст игнорируются. 2) ДИСП.Г — Возвращает дисперсию по генеральной совокупности. Логические значения и текст игнорируются. 3) ДИСПА — Возвращает дисперсию по выборке с учетом логических и текстовых значений. 4) ДИСПРА — Возвращает дисперсию по генеральной совокупности с учетом логических и текстовых значений. Для начала разберемся в разнице между выборкой и генеральной совокупностью. Назначение описательной статистики состоит в том, чтобы суммировать или отображать данные так, чтобы оперативно получать общую картину, так сказать, обзор. Статистический вывод позволяет делать умозаключения о какой-либо совокупности на основе выборки данных из этой совокупности. Совокупность представляет собой все возможные исходы или измерения, представляющие для нас интерес. Выборка — это подмножество совокупности. Например, нас интересует совокупность группы студентов одного из Российских ВУЗов и нам необходимо определить средний бал группы. Мы можем посчитать среднюю успеваемость студентов, и тогда полученная цифра будет параметром, поскольку в наших расчетах будет задействована целая совокупность. Однако, если мы хотим рассчитать средний бал всех студентов нашей страны, тогда эта группа будет нашей выборкой. Разница в формуле расчета дисперсии между выборкой и совокупностью заключается в знаменателе. Где для выборки он будет равняться (n-1), а для генеральной совокупности только n. Теперь разберемся с функциями расчета дисперсии с окончаниями А, в описании которых сказано, что при расчете учитываются текстовые и логические значения. В данном случае при расчете дисперсии определенного массива данных, где встречаются не числовые значения, Excel будет интерпретировать текстовые и ложные логические значения как равными 0, а истинные логические значения как равными 1. Итак, если у вас есть массив данных, рассчитать его дисперсию ни составит никакого труда, воспользовавшись одной из перечисленных выше функций Excel. Для сгруппированных данных остаточная дисперсия - средняя из внутригрупповых дисперсий:Где σ 2 j - внутригрупповая дисперсия j -й группы. Для не сгруппированных данных
остаточная дисперсия
– мера точности аппроксимации, т.е. приближения линии регрессии к исходным данным:
Пример №1 . Распределение рабочих трех предприятий одного объединения по тарифным разрядам характеризуется следующими данными:
Определить:
Решение.
Средняя из внутригрупповых дисперсий (остаточная дисперсия ) рассчитаем по формуле: где можно рассчитать: либо: тогда: Общая дисперсия будет равна: s 2 = 1,6 + 0 = 1,6. Общую дисперсию также можно рассчитать и по одной из следующих двух формул: При решении практических задач часто приходится иметь дело с признаком, принимающим только два альтернативных значения. В этом случае говорят не о весе того или иного значения признака, а о его доле в совокупности. Если долю единиц совокупности, обладающих изучаемым признаком, обозначить через «р
», а не обладающих – через «q
», то дисперсию можно рассчитать по формуле:
Пример №2 . По данным о выработке шести рабочих бригады определить межгрупповую дисперсию и оценить влияние рабочей смены на их производительность труда, если общая дисперсия равна 12,2 .
Решение . Исходные данные
Тогда имеем 6 группы, для которых необходимо рассчитать групповую среднюю и внутригрупповые дисперсии. 1. Находим средние значения каждой группы . 2. Находим среднее квадратическое каждой группы . Результаты расчета сведем в таблицу:
3. Внутригрупповая дисперсия характеризует изменение (вариацию) изучаемого (результативного) признака в пределах группы под действием на него всех факторов, кроме фактора, положенного в основание группировки: Среднюю из внутригрупповых дисперсий рассчитаем по формуле: 4. Межгрупповая дисперсия характеризует изменение (вариацию) изучаемого (результативного) признака под действием на него фактора (факторного признака), положенного в основание группировки. Межгрупповую дисперсию определим как: где Тогда Общая дисперсия характеризует изменение (вариацию) изучаемого (результативного) признака под действием на него всех без исключения факторов (факторных признаков). По условию задачи она равна 12.2 . Эмпирическое корреляционное отношение измеряет, какую часть общей колеблемости результативного признака вызывает изучаемый фактор. Это отношение факторной дисперсии к общей дисперсии: Определяем эмпирическое корреляционное отношение: Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока: 0.1 0.3 0.5 0.7 0.9 В нашем примере связь между признаком Y фактором X слабая Коэффициент детерминации. Определим коэффициент детерминации: Таким образом, на 0.67% вариация обусловлена различиями между признаками, а на 99.37% – другими факторами. Вывод : в данном случае выработка рабочих не зависит от работы в конкретную смену, т..е. влияние рабочей смены на их производительность труда не значительное и обусловлено другими факторами. Пример №3 . На основе данных о средней заработной плате и квадратах отклонений от её величины по двум группам рабочих найти общую дисперсию, применив правило сложения дисперсий: Решение:Средняя из внутригрупповых дисперсий Межгрупповую дисперсию определим как: Общая дисперсия будет равна: 480 + 13824 = 14304 |
Читайте: |
---|
Новое
- «31 спорный вопрос» русской истории: житие императора Николая II
- Лечебные свойства корня лопуха и его широкое применение в домашних условиях
- Природные ресурсы западной сибири
- Совместимость петуха и змеи в любовных отношениях и браке Он петух она змея совместимость
- Чемерица черная: прекрасная и опасная Противопоказания и побочные действия
- Чем интересна Свято-Михайло-Афонская Закубанская пустынь?
- Порционная сельдь под шубой на праздничный стол
- К чему снится шить во сне
- Примета — разбить зеркало случайно: что делать, если оно треснуло
- Самостоятельные заговоры на удачу и деньги