Разделы сайта
Выбор редакции:
- Крейсер "красный крым" черноморского флота
- «31 спорный вопрос» русской истории: житие императора Николая II
- Лечебные свойства корня лопуха и его широкое применение в домашних условиях
- Природные ресурсы западной сибири
- Совместимость петуха и змеи в любовных отношениях и браке Он петух она змея совместимость
- Чемерица черная: прекрасная и опасная Противопоказания и побочные действия
- Чем интересна Свято-Михайло-Афонская Закубанская пустынь?
- Порционная сельдь под шубой на праздничный стол
- К чему снится шить во сне
- Примета — разбить зеркало случайно: что делать, если оно треснуло
Реклама
Коэффициент регрессии пример. Основы линейной регрессии |
Понятие регрессии . Зависимость между переменными величинами x и y может быть описана разными способами. В частности, любую форму связи можно выразить уравнением общего вида , гдеy рассматривается в качестве зависимой переменной, или функции от другой – независимой переменной величины x, называемой аргументом . Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т.д. Изменение функции в зависимости от изменения одного или нескольких аргументов называется регрессией . Все средства, применяемые для описания корреляционных связей, составляет содержание регрессионного анализа . Для выражения регрессии служат корреляционные уравнения, или уравнения регрессии, эмпирические и теоретически вычисленные ряды регрессии, их графики, называемые линиями регрессии, а также коэффициенты линейной и нелинейной регрессии. Показатели регрессии выражают корреляционную связь двусторонне, учитывая изменение усредненных значений признакаY при изменении значений x i признака X , и, наоборот, показывают изменение средних значений признакаX по измененным значениям y i признака Y . Исключение составляют временные ряды, или ряды динамики, показывающие изменение признаков во времени. Регрессия таких рядов является односторонней. Различных форм и видов корреляционных связей много. Задача сводится к тому, чтобы в каждом конкретном случае выявить форму связи и выразить ее соответствующим корреляционным уравнением, что позволяет предвидеть возможные изменения одного признака Y на основании известных изменений другого X , связанного с первым корреляционно. 12.1 Линейная регрессияУравнение регрессии. Результаты наблюдений, проведенных над тем или иным биологическим объектом по корреляционно связанным признакам x и y , можно изобразить точками на плоскости, построив систему прямоугольных координат. В результате получается некая диаграмма рассеяния, позволяющая судить о форме и тесноте связи между варьирующими признаками. Довольно часто эта связь выглядит в виде прямой или может быть аппроксимирована прямой линией. Линейная зависимость между переменными x и y описывается уравнением общего вида , гдеa, b, c, d, … – параметры уравнения, определяющие соотношения между аргументами x 1 , x 2 , x 3 , …, x m и функций . В практике учитывают не все возможные, а лишь некоторые аргументы, в простейшем случае – всего один: В уравнении линейной регрессии (1) a – свободный член, а параметр b определяет наклон линии регрессии по отношению к осям прямоугольных координат. В аналитической геометрии этот параметр называют угловым коэффициентом , а в биометрии – коэффициентом регрессии . Наглядное представление об этом параметре и о положении линий регрессии Y по X и X по Y в системе прямоугольных координат дает рис.1. Рис. 1 Линии регрессии Y по X и X поY в системе прямоугольных координат Линии регрессии, как показано на рис.1, пересекаются в точке О (,), соответствующей средним арифметическим значениям корреляционно связанных друг с другом признаковY и X . При построении графиков регрессии по оси абсцисс откладывают значения независимой переменной X, а по оси ординат – значения зависимой переменной, или функции Y. Линия АВ, проходящая через точку О (,) соответствует полной (функциональной) зависимости между переменными величинамиY и X , когда коэффициент корреляции . Чем сильнее связь междуY и X , тем ближе линии регрессии к АВ, и, наоборот, чем слабее связь между этими величинами, тем более удаленными оказываются линии регрессии от АВ. При отсутствии связи между признаками линии регрессии оказываются под прямым углом по отношению друг к другу и . Поскольку показатели регрессии выражают корреляционную связь двусторонне, уравнение регрессии (1) следует записывать так: По первой формуле определяют усредненные значения при изменении признакаX на единицу меры, по второй – усредненные значения при изменении на единицу меры признакаY . Коэффициент регрессии. Коэффициент регрессии показывает, насколько в среднем величина одного признака y изменяется при изменении на единицу меры другого, корреляционно связанного с Y признака X . Этот показатель определяют по формуле Здесь значения s умножают на размеры классовых интервалов λ , если их находили по вариационным рядам или корреляционным таблицам. Коэффициент регрессии можно вычислить минуя расчет средних квадратичных отклонений s y и s x по формуле Если же коэффициент корреляции неизвестен, коэффициент регрессии определяют следующим образом: Связь между коэффициентами регрессии и корреляции. Сравнивая формулы (11.1) (тема 11) и (12.5), видим: в их числителе одна и та же величина , что указывает на наличие связи между этими показателями. Эта связь выражается равенством Таким образом, коэффициент корреляции равен средней геометрической из коэффициентов b yx и b xy . Формула (6) позволяет, во-первых, по известным значениям коэффициентов регрессии b yx и b xy определять коэффициент регрессии R xy , а во-вторых, проверять правильность расчета этого показателя корреляционной связи R xy между варьирующими признаками X и Y . Как и коэффициент корреляции, коэффициент регрессии характеризует только линейную связь и сопровождается знаком плюс при положительной и знаком минус при отрицательной связи. Определение параметров линейной регрессии. Известно, что сумма квадратов отклонений вариант x i от средней есть величина наименьшая, т.е.. Эта теорема составляет основу метода наименьших квадратов. В отношении линейной регрессии [см. формулу (1)] требованию этой теоремы удовлетворяет некоторая система уравнений, называемыхнормальными : Совместное решение этих уравнений относительно параметров a и b приводит к следующим результатам: ; ; , откуда и. Учитывая двусторонний характер связи между переменными Y и X , формулу для определения параметра а следует выразить так: и . (7) Параметр b , или коэффициент регрессии, определяют по следующим формулам: Построение эмпирических рядов регрессии. При наличии большого числа наблюдений регрессионный анализ начинается с построения эмпирических рядов регрессии. Эмпирический ряд регрессии образуется путем вычисления по значениям одного варьирующего признака X средних значений другого, связанного корреляционно сX признака Y . Иными словами, построение эмпирических рядов регрессии сводится к нахождению групповых средних ииз соответствующих значений признаковY и X. Эмпирический ряд регрессии – это двойной ряд чисел, которые можно изобразить точками на плоскости, а затем, соединив эти точки отрезками прямой, получить эмпирическую линию регрессии. Эмпирические ряды регрессии, особенно их графики, называемые линиями регрессии , дают наглядное представление о форме и тесноте корреляционной зависимости между варьирующими признаками. Выравнивание эмпирических рядов регрессии. Графики эмпирических рядов регрессии оказываются, как правило, не плавно идущими, а ломаными линиями. Это объясняется тем, что наряду с главными причинами, определяющими общую закономерность в изменчивости коррелируемых признаков, на их величине сказывается влияние многочисленных второстепенных причин, вызывающих случайные колебания узловых точек регрессии. Чтобы выявить основную тенденцию (тренд) сопряженной вариации коррелируемых признаков, нужно заменить ломанные линии на гладкие, плавно идущие линии регрессии. Процесс замены ломанных линий на плавно идущие называют выравниванием эмпирических рядов и линий регрессий . Графический способ выравнивания. Это наиболее простой способ, не требующий вычислительной работы. Его сущность сводится к следующему. Эмпирический ряд регрессии изображают в виде графика в системе прямоугольных координат. Затем визуально намечаются средние точки регрессии, по которым с помощью линейки или лекала проводят сплошную линию. Недостаток этого способа очевиден: он не исключает влияние индивидуальных свойств исследователя на результаты выравнивания эмпирических линий регрессии. Поэтому в тех случаях, когда необходима более высокая точность при замене ломанных линий регрессии на плавно идущие, используют другие способы выравнивания эмпирических рядов. Способ скользящей средней. Суть этого способа сводится к последовательному вычислению средних арифметических из двух или трех соседних членов эмпирического ряда. Этот способ особенно удобен в тех случаях, когда эмпирический ряд представлен большим числом членов, так что потеря двух из них – крайних, что неизбежно при этом способе выравнивания, заметно не отразится на его структуре. Метод наименьших квадратов. Этот способ предложен в начале XIX столетия А.М. Лежандром и независимо от него К. Гауссом. Он позволяет наиболее точно выравнивать эмпирические ряды. Этот метод, как было показано выше, основан на предположении, что сумма квадратов отклонений вариант x i от их средней есть величина минимальная, т.е.. Отсюда и название метода, который применяется не только в экологии, но и в технике. Метод наименьших квадратов объективен и универсален, его применяют в самых различных случаях при отыскании эмпирических уравнений рядов регрессии и определении их параметров. Требование метода наименьших квадратов заключается в том, что теоретические точки линии регрессии должны быть получены таким образом, чтобы сумма квадратов отклонений от этих точек для эмпирических наблюденийy i была минимальной, т.е. Вычисляя в соответствии с принципами математического анализа минимум этого выражения и определенным образом преобразуя его, можно получить систему так называемых нормальных уравнений , в которых неизвестными величинами оказываются искомые параметры уравнения регрессии, а известные коэффициенты определяются эмпирическими величинами признаков, обычно суммами их значений и их перекрестных произведений. Множественная линейная регрессия. Зависимость между несколькими переменными величинами принято выражать уравнением множественной регрессии, которая может быть линейной и нелинейной . В простейшем виде множественная регрессия выражается уравнением с двумя независимыми переменными величинами (x , z ): где a – свободный член уравнения; b и c – параметры уравнения. Для нахождения параметров уравнения (10) (по способу наименьших квадратов) применяют следующую систему нормальных уравнений: Ряды динамики. Выравнивание рядов. Изменение признаков во времени образует так называемые временные ряды или ряды динамики . Характерной особенностью таких рядов является то, что в качестве независимой переменной X здесь всегда выступает фактор времени, а зависимой Y – изменяющийся признак. В зависимости от рядов регрессии зависимость между переменными X и Y носит односторонний характер, так как фактор времени не зависит от изменчивости признаков. Несмотря на указанные особенности, ряды динамики можно уподобить рядам регрессии и обрабатывать их одними и теми же методами. Как и ряды регрессии, эмпирические ряды динамики несут на себе влияние не только основных, но и многочисленных второстепенных (случайных) факторов, затушевывающих ту главную тенденцию в изменчивости признаков, которая на языке статистики называют трендом . Анализ рядов динамики начинается с выявления формы тренда. Для этого временной ряд изображают в виде линейного графика в системе прямоугольных координат. При этом по оси абсцисс откладывают временные точки (годы, месяцы и другие единицы времени), а по оси ординат – значения зависимой переменной Y. При наличии линейной зависимости между переменными X и Y (линейного тренда) для выравнивания рядов динамики способом наименьших квадратов наиболее подходящим является уравнение регрессии в виде отклонений членов ряда зависимой переменной Y от средней арифметической ряда независимой переменнойX: Здесь – параметр линейной регрессии. Числовые характеристики рядов динамики. К числу основных обобщающих числовых характеристик рядов динамики относят среднюю геометрическую и близкую к ней среднюю арифметическуювеличины. Они характеризуют среднюю скорость, с какой изменяется величина зависимой переменной за определенные периоды времени: Оценкой изменчивости членов ряда динамики служит среднее квадратическое отклонение . При выборе уравнений регрессии для описания рядов динамики учитывают форму тренда, которая может быть линейной (или приведена к линейной) и нелинейной. О правильности выбора уравнения регрессии обычно судят по сходству эмпирически наблюденных и вычисленных значений зависимой переменной. Более точным в решении этой задачи является метод дисперсионного анализа регрессии (тема 12 п.4). Корреляция рядов динамики. Нередко приходится сопоставлять динамику параллельно идущих временных рядов, связанных друг с другом некоторыми общими условиями, например выяснить связь между производством сельскохозяйственной продукции и ростом поголовья скота за определенный промежуток времени. В таких случаях характеристикой связи между переменными X и Y служит коэффициент корреляции R xy (при наличии линейного тренда). Известно, что тренд рядов динамики, как правило, затушевывается колебаниями членов ряда зависимой переменной Y. Отсюда возникает задача двоякого рода: измерение зависимости между сопоставляемыми рядами, не исключая тренд, и измерение зависимости между соседними членами одного и того же ряда, исключая тренд. В первом случае показателем тесноты связи между сопоставляемыми рядами динамики служит коэффициент корреляции (если связь линейна), во втором – коэффициент автокорреляции . Эти показатели имеют разные значения, хотя и вычисляются по одним и тем же формулам (см. тему 11). Нетрудно заметить, что на значении коэффициента автокорреляции сказывается изменчивость членов ряда зависимой переменной: чем меньше члены ряда отклоняются от тренда, тем выше коэффициент автокорреляции, и наоборот. Как уже было сказано выше, в случае линейной зависимости уравнение регрессии является уравнением прямой линии. Различают У = а у/х + b у/х Х Х = а х/у + b х/у Y Здесь а и b – коэффициенты, или параметры, которые определяются по формулам. Значение коэффициента b вычисляется Из формул видно, что коэффициенты регрессии b у/х и b х/у имеют тот же знак, что и коэффициент корреляции, размерность, равную отношению размерностей изучаемых показателей Х и У , и связаны соотношением: Для вычисления коэффициента а достаточно подставить в уравнения регрессии средние значения коррелируемых переменных График теоретических линий регрессии (рис. 17) имеет вид: Рис 17. Теоретические линии регрессии Из приведённых выше формул легко доказать, что угловые коэффициенты прямых регрессии равны соответственно Так
как Чем
ближе
к единице, тем меньше угол между прямыми
регрессии. Эти прямые сливаются только
тогда, когда При
Таким образом, уравнения регрессии позволяют: определить, насколько изменяется одна величина относительно другой; прогнозировать результаты. 2. Методика выполнения расчётно-графической работы №2Расчётно-графическая работа содержит 4 раздела. В первом разделе: Формулируется тема; Формулируется цель работы. Во втором разделе: Формулируется условие задачи; Заполняется таблица исходных данных выборки. В третьем разделе: Результаты измерений представляются в виде вариационного ряда; Даётся графическое представление вариационного ряда. Формулируется вывод. В четвёртом разделе: Рассчитываются основные статистические характеристики ряда измерений; По итогам расчётов формулируется вывод. Оформление работы: Работа выполняется в отдельной тетради или на форматных листах. Титульный лист заполняется по образцу. Российский Государственный Университет физической культуры, спорта, молодёжи и туризма Кафедра естественнонаучных дисциплин Корреляционный и регрессионный анализы Расчётно-графическая работа №2 по курсу математики Выполнил: студент 1 к. 1 пот. 1гр. Иванов С.М. Преподаватель: доц. кафедры ЕНД и ИТ Москва – 2012(Пример оформления титульного листа) Пример выполнения расчётно-графической работы №2.Тема работы: Корреляционный и регрессионный анализы. Цель работы: Определить взаимосвязь показателей двух выборок. Ход выполнения работы: Придумать две выборки из своего вида спорта с одинаковым объемом n. Нарисовать корреляционное поле, сделать предварительный вывод. Определить достоверность коэффициента корреляции и сделать окончательный вывод. Построить теоретические линии регрессии на корреляционном поле и показать точку их пересечения. 1. Условие задачи: У группы спортсменов определяли результаты в беге на 100 м с барьерами X i (с) и прыжках в длину Y i (м) (табл.). Проверить, существует ли корреляционная связь между исследуемыми признаками и определить достоверность коэффициента корреляции. Таблица исходных данных выборки: Результаты приведены в таблице исходных данных. Таблица 6 Результаты бега и прыжка
Решение: 2 . Построим корреляционное поле (диаграмму рассеяния) и сделаем предварительный вывод относительно связи между исследуемыми признаками. Рис 18. Корреляционное поле Предварительный вывод: Связь между показателями результатов в беге на 100 м с барьерами X i (с) и прыжками в длину Y i (см): линейная; отрицательная; 3 . Рассчитаем парный линейный коэффициент корреляции Бравэ – Пирсона, предварительно рассчитав основные статистические показатели двух выборок. Для их расчёта составим таблицу, в которой предпоследний и последний столбцы необходимы для расчёта стандартных отклонений, если они неизвестны. Для нашего примера эти значения рассчитаны в первой расчётно-графической работе, но для наглядности покажем расчёт дополнительно. Таблица 7 Вспомогательная таблица для расчета коэффициента корреляции Бравэ – Пирсона
x
= y
= . Полученное значение коэффициента корреляции позволяет подтвердить предварительный вывод и сделать окончательное заключение – связь между исследуемыми признаками: линейная; отрицательная; 4 . Определим достоверность коэффициента корреляции. Предположим, что связь между результатом в беге на 100 м и прыжком в длину отсутствует (Н о : r = 0). Вывод: существует сильная, отрицательная статистически достоверная (р =0,95) связь между бегом с препятствиями на дистанцию 100 м и прыжком в длину. Это означает, что с улучшением результата в прыжке в длину уменьшается время пробега дистанции 100 м. 5 . Вычислим коэффициент детерминации: Следовательно, только 96% взаимосвязи результатов в беге на 100 м с барьерами и в прыжке в длину объясняется их взаимовлиянием, а остальная часть, т. е. 4% объясняется влиянием других неучтённых факторов. 6. Рассчитаем коэффициенты прямого и обратного уравнений регрессии, воспользовавшись формулами, подставим значения рассчитанных коэффициентов в соответствующую формулу и запишем прямое и обратное уравнения регрессии: Y = а 1 + b 1 Х - прямое уравнение регрессии; Х = а 2 + b 2 Y - обратное уравнение регрессии. Воспользуемся результатами расчёта, приведёнными выше: x
= Рассчитаем коэффициент b 1 , воспользовавшись формулой: Для расчета коэффициента а 1 b 1 Х и Y а 1 и b 1 Y = 22 - 1,15 Х Рассчитаем коэффициент b 2 , воспользовавшись формулой: Для расчета коэффициента а 2 подставим в прямое уравнение регрессии вместо b 2 рассчитанное значение, а вместо Х и Y средние арифметические значения двух выборок из таблицы: Подставим полученные значения коэффициентов а 1 и b 1 в прямое уравнение регрессии и запишем уравнение прямой линии: Х = 18,92 - 0,83 Y Таким образом, мы получили прямое и обратное уравнения регрессии: Y = 22 - 1,15 Х - прямое уравнение регрессии; Х = 18,92 - 0,83 Y - обратное уравнение регрессии. Для проверки правильности расчётов достаточно подставить в прямое уравнение среднее значение и определить значениеY . Полученное значение Y должно быть близким или равным среднему значению . Y = 22 - 1,15 = 22 - 1,15 13,59 = 6,4 =. При подстановке в обратное уравнение регрессии среднего значения , полученное значение Х должно быть близким или равным среднему значению . Х = 18,92 - 0,83 = 18,92 - 0,83 6,4 = 13,6 = . 7. Построим линии регрессии на корреляционном поле. Для графического построения теоретических линий регрессии, как и для построения любой прямой, необходимо иметь две точки из диапазона значений Х и Y . Причём, в прямом уравнении регрессии независимая переменная Х , а зависимая Y , а в обратном – независимая переменная Y , а зависимая Х. Y = 22 - 1,15 Х
Х = 18,92 - 0,83 Y
Координатами точки пересечения линий прямого и обратного уравнений регрессии являются значения средних арифметических двух выборок (с учётом погрешностей округлений при приближённых расчётах). Вывод: зная результат бега с препятствиями на дистанцию 100 м, по прямому уравнению регрессии, можно теоретически определить результат прыжка в длину; и наоборот, зная результат прыжка в длину по обратному уравнению регрессии, можно определить результат бега с препятствиями. При наличии корреляционной связи между факторными и результативными признаками врачам нередко приходится устанавливать, на какую величину может измениться значение одного признака при изменении другого на общепринятую или установленную самим исследователем единицу измерения. Например, как изменится масса тела школьников 1-го класса (девочек или мальчиков), если рост их увеличится на 1 см. В этих целях применяется метод регрессионного анализа. Наиболее часто метод регрессионного анализа применяется для разработки нормативных шкал и стандартов физического развития.
По результатам статистического исследования физического развития мальчиков 5 лет известно, что их средний рост (х) равен 109 см, а средняя масса тела (у) равна 19 кг. Коэффициент корреляции между ростом и массой тела составляет +0,9, средние квадратические отклонения представлены в таблице. Требуется:
Условие задачи и результаты ее решения представлены в сводной таблице. Таблица 1
Решение . Вывод.
Таким образом, шкала регрессии в пределах расчетных величин массы тела позволяет определить ее при любом другом
значении роста или оценить индивидуальное развитие ребенка. Для этого следует восстановить перпендикуляр к линии регрессии.
Уравнение парной регрессии относится к уравнению регрессии первого порядка . Если эконометрическая модель содержит только одну объясняющую переменную, то она имеет название парной регрессии. Уравнение регрессии второго порядка и уравнение регрессии третьего порядка относятся к нелинейным уравнениям регрессии . Пример
. Осуществите выбор зависимой (объясняемой) и объясняющей переменной для построения парной регрессионной модели. Дайте . Определите теоретическое уравнение парной регрессии. Оцените адекватность построенной модели (интерпретируйте R-квадрат, показатели t-статистики, F-статистики).
Где y – зависимая переменная (результативный признак); x – независимая, или объясняющая, переменная (признак-фактор). Знак «^» означает, что между переменными x и y нет строгой функциональной зависимости, поэтому практически в каждом отдельном случае величина y складывается из двух слагаемых: Где y – фактическое значение результативного признака; y x – теоретическое значение результативного признака, найденное исходя из уравнения регрессии; ε – случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии.
3-й этап (параметризация) – собственно моделирование, т.е. выбор общего вида модели, в том числе состава и формы входящих в неё связей между переменными. Выбор вида функциональной зависимости в уравнении регрессии называется параметризацией модели. Выбираем уравнение парной регрессии , т.е. на конечный результат y будет влиять только один фактор. 4-й этап (информационный) – сбор необходимой статистической информации, т.е. регистрация значений участвующих в модели факторов и показателей. Выборка состоит из 10 предприятий отрасли. 5-й этап (идентификация модели) – оценивание неизвестных параметров модели по имеющимся статистическим данным. Чтобы определить параметры модели, используем МНК - метод наименьших квадратов . Система нормальных уравнений будет выглядеть следующим образом: a n + b∑x = ∑y a∑x + b∑x 2 = ∑y x Для расчета параметров регрессии построим расчетную таблицу (табл. 1).
Данные берем из таблицы 1 (последняя строка), в итоге имеем: 10a + 171 b = 77 171 a + 3045 b = 1356 Эту СЛАУ решаем методом Крамера или методом обратной матрицы . Получаем эмпирические коэффициенты регрессии: b = 0.3251, a = 2.1414 Эмпирическое уравнение регрессии имеет вид: y = 0.3251 x + 2.1414 6-й этап (верификация модели) – сопоставление реальных и модельных данных, проверка адекватности модели, оценка точности модельных данных. Анализ проводим с помощью х - называется предиктором - независимой или объясняющей переменной. Для данной величины х, Y — значение переменной у (называемой зависимой, выходной переменной, или переменной отклика), которое расположено на линии оценки. Это есть значение, которое мы ожидаем для у (в среднем), если мы знаем величину х, и называется она «предсказанное значение у» (рис. 5). а - свободный член (пересечение) линии оценки; это значение Y, когда х = 0. b - угловой коэффициент или градиент оценённой линии; он представляет собой величину, на которую Y увеличивается в среднем, если мы увеличиваем х на одну единицу (рис. 5). Коэффициент b называют коэффициентом регрессии. Например: при увеличении температуры тела человека на 1 о С, частота пульса увеличивается в среднем на 10 ударов в минуту. Рисунок 5. Линия линейной регрессии, показывающая коэффициент а и угловой коэффициент b (величину возрастания Y при увеличении х на одну единицу) Математически решение уравнения линейной регрессии сводится к вычислению параметров а и b таким образом, чтобы точки исходных данных корреляционного поля как можно ближе лежали к прямой регрессии . Статистическое использование слова «регрессия» исходит из явления, известного как регрессия к среднему, приписываемого Френсису Гальтону (1889). Он показал, что, хотя высокие отцы имеют тенденцию иметь высоких сыновей, средний рост сыновей меньше, чем у их высоких отцов. Средний рост сыновей «регрессировал» или «двигался вспять» к среднему росту всех отцов в популяции. Таким образом, в среднем высокие отцы имеют более низких (но всё-таки высоких) сыновей, а низкие отцы имеют сыновей более высоких (но всё-таки довольно низких). Мы наблюдаем регрессию к среднему при скрининге и клинических исследованиях, когда подгруппа пациентов может быть выбрана для лечения потому, что их уровни определённой переменной, скажем, холестерина, крайне высоки (или низки). Если это измерение через некоторое время повторяется, средняя величина второго считывания для подгруппы обычно меньше, чем при первом считывании, имея тенденцию (т.е. регрессируя) к среднему, подобранному по возрасту и полу в популяции, независимо от лечения, которое они могут получить. Пациенты, набранные в клиническое исследование на основе высокого уровня холестерина при их первом осмотре, таким образом, вероятно, покажут в среднем падение уровня холестерина при втором осмотре, даже если в этот период они не лечились. Часто метод регрессионного анализа применяется для разработки нормативных шкал и стандартов физического развития. Насколько хорошо линия регрессии согласуется с данными, можно судить, рассчитав коэффициент R (обычно выраженный в процентах и называемый коэффициентом детерминации), который равняется квадрату коэффициента корреляции (r 2). Он представляет собой долю или процент дисперсии у, который можно объяснить связью с х, т.е. долю вариации признака-результата, сложившуюся под влиянием независимого признака. Может принимать значения в диапазоне от 0 до 1, или соответственно от 0 до 100%. Разность (100% - R) представляет собой процент дисперсии у, который нельзя объяснить этим взаимодействием. Пример Соотношение между ростом (измеренным в см) и систолическим артериальным давлением (САД, измеренным в мм рт. ст.) у детей. Мы провели анализ парной линейной регрессии зависимости САД от роста (рис. 6). Имеется существенное линейное соотношение между ростом и САД. Рисунок 6. Двумерный график, показывающий соотношение между систолическим артериальным давлением и ростом. Изображена оценённая линия регрессии, систолическое артериальное давление. Уравнение линии оценённой регрессии имеет следующий вид: САД = 46,28 + 0,48 х рост. В этом примере свободный член не представляет интереса (рост, равный нулю, явно вне диапазона величин, наблюдаемых в исследовании). Однако мы можем интерпретировать угловой коэффициент; предсказано, что у этих детей САД увеличивается в среднем на 0,48 мм рт.ст. при увеличении роста на один сантиметр Мы можем применить уравнение регрессии для предсказания САД, которое мы ожидаем у ребёнка при данном росте. Например, ребёнок ростом 115 см имеет предсказанное САД, равное 46,28 + (0,48 х 115) = 101,48 мм рт. ст., ребёнок ростом 130 имеет предсказанное САД, 46,28 + (0,48 х 130) = 108,68 мм рт. ст. При расчете коэффициента корреляции, установлено, что он равен 0,55, что указывает на прямую корреляционную связь средней силы. В этом случае коэффициент детерминации r 2 = 0,55 2 = 0,3 . Таким образом, можно сказать, что доля влияния роста на уровень артериального давления у детей не превышает 30%, соответственно на долю других факторов приходится 70% влияния. Линейная (простая) регрессия ограничивается рассмотрением связи между зависимой переменной и только одной независимой переменной. Если в связи присутствует более одной независимой переменной, тогда нам необходимо обратиться к множественной регрессии. Уравнение для такой регрессии выглядит так: y = a + bx 1 +b 2 x 2 +.... + b n х n Можно интересоваться результатом влияния нескольких независимых переменных х 1 , х 2 , .., х n на переменную отклика у. Если мы полагаем, что эти х могут быть взаимозависимы, то не должны смотреть по отдельности на эффект изменения значения одного х на у, но должны одновременно принимать во внимание величины всех других х. Пример Поскольку между ростом и массой тела ребёнка существует сильная зависимость, можно поинтересоваться, изменяется ли также соотно-шение между ростом и систолическим артериальным давлением, если принять во внимание также и массу тела ребёнка и его пол. Множественная линейная регрессия позволяет изучить совместный эффект этих нескольких независимых переменных на у. Уравнение множественной регрессии в этом случае может иметь такой вид: САД = 79,44 - (0,03 х рост) + (1,18 х вес) + (4,23 х пол)* * - (для признака пол используют значения 0 - мальчик, 1 - девочка) Согласно этому уравнению, девочка, рост которой 115 см и масса тела 37 кг, будет иметь прогнозируемое САД: САД = 79,44 - (0,03 х 115) + (1,18 х 37) + (4,23 х 1) = 123,88 мм.рт.ст. Логистическая регрессия очень похожа на линейную; её применяют, когда есть интересующий нас бинарный исход (т.е. наличие/отсутствие симптома или субъекта, который имеет/не имеет заболевания) и ряд предикторов. Из уравнения логистической регрессии можно определить, какие предикторы влияют на исход, и, используя значения предикторов пациента, оценить вероятность того, что он/она будет иметь определённый исход. Например: возникнут или нет осложнения, будет лечение эффективным или не будет. Начинают создания бинарной переменной, чтобы представить эти два исхода (например, «имеет болезнь» = 1, «не имеет болезни» = 0). Однако мы не можем применить эти два значения как зависимую переменную в анализе линейной регрессии, поскольку предположение нормальности нарушено, и мы не можем интерпретировать предсказанные величины, которые не равны нулю или единице. Фактически, вместо этого мы берём вероятность того, что субъект классифицируется в ближайшую категорию (т.е. «имеет болезнь») зависимой переменной, и чтобы преодолеть математические трудности, применяют логистическое, преобразование, в уравнении регрессии — натуральный логарифм отношения вероятности «болезни» (p) к вероятности «нет болезни» (1-p). Интегративный процесс, называемый методом максимального правдоподобия, а не обычная регрессия (так как мы не можем применить процедуру линейной регрессии) создаёт из данных выборки оценку уравнения логистической регрессии logit (p) = a + bx 1 +b 2 x 2 +.... + b n х n logit (р) — оценка значения истинной вероятности того, что пациент с индивидуальным набором значений для х 1 ... х n имеет заболевание; а — оценка константы (свободный член, пересечение); b 1 , b 2 ,... ,b n — оценки коэффициентов логистической регрессии. 1. Вопросы по теме занятия: 1. Дайте определение функциональной и корреляционной связи. 2. Приведите примеры прямой и обратной корреляционной связи. 3. Укажите размеры коэффициентов корреляции при слабой, средней и сильной связи между признаками. 4. В каких случаях применяется ранговый метод вычисления коэффициента корреляции? 5. В каких случаях применяется расчет коэффициента корреляции Пирсона? 6. Каковы основные этапы вычисления коэффициента корреляции ранговым методом? 7. Дайте определение «регрессии». В чем сущность метода регрессии? 8. Охарактеризуйте формулу уравнения простой линейной регрессии. 9. Дайте определение коэффициента регрессии. 10. Какой можно сделать вывод, если коэффициент регрессии веса по росту равен 0,26кг/см? 11. Для чего используется формула уравнения регрессии? 12. Что такое коэффициент детерминации? 13. В каких случаях используется уравнение множественной регрессии. 14. Для чего применяется метод логистической регрессии? |
Читайте: |
---|
Новое
- «31 спорный вопрос» русской истории: житие императора Николая II
- Лечебные свойства корня лопуха и его широкое применение в домашних условиях
- Природные ресурсы западной сибири
- Совместимость петуха и змеи в любовных отношениях и браке Он петух она змея совместимость
- Чемерица черная: прекрасная и опасная Противопоказания и побочные действия
- Чем интересна Свято-Михайло-Афонская Закубанская пустынь?
- Порционная сельдь под шубой на праздничный стол
- К чему снится шить во сне
- Примета — разбить зеркало случайно: что делать, если оно треснуло
- Самостоятельные заговоры на удачу и деньги