7.3.1. Уравнение линейной регрессии Y на X

Это и есть та самая оптимальная прямая , которая проходит максимально близко к точкам. Обычно её находят методом наименьших квадратов, и мы пойдём знакомым путём. Заполним расчётную таблицу:

Коэффициенты «а» и «бэ» функции найдём из решения системы:
, в нашей задаче:

Сократим оба уравнения на 2, всё попроще будет:

Систему выгоднее решить по формулам Крамера:
, значит, система имеет единственное решение.

И проверка forever, подставим полученные значения в левую часть каждого уравнения исходной системы:

– в результате получены соответствующие правые части, значит, система решена верно.

Таким образом, искомое уравнение регрессии:

и на самом деле «игрек» правильнее записать с чертой:

– по той причине, что для различных «икс» мы будем получать средние (среднеожидаемые) значения «игрек». Но дабы избежать «накладок» с обозначениями, да и просто для чистоты я буду часто записывать голый «игрек».

Полученное уравнение показывает, что с увеличением количества прогулов («икс») на 1 единицу суммарная успеваемость падает в среднем на 6,0485 – примерно на 6 баллов. Об этом нам рассказал коэффициент «а». И ещё раз обращаю внимание на тот факт, что найденная функция возвращает нам средние или среднеожидаемые значения «игрек» для различных значений «икс».

А почему это регрессия именно « на » и о происхождении самого термина «регрессия» я рассказал чуть ранее, в параграфе эмпирические линии регрессии. Если кратко, то полученные с помощью уравнения средние значения успеваемости («игреки») регрессивно возвращают нас к первопричине – количеству прогулов. Вообще, регрессия – не слишком позитивное слово, но какое уж есть.

Линию регрессии изобразим на том же чертеже, вместе с диаграммой рассеяния. Для того чтобы построить прямую, достаточно знать две точки, выберем пару удобных значений «икс» и вычислим соответствующие «игреки»:

Отметим найденные точки на чертеже (малиновый цвет) и проведём линию регрессии:

Говорят, что уравнение регрессии аппроксимирует (приближает) эмпирические данные (точки), и с помощью него можно интерполировать (оценивать) неизвестные промежуточные значения, так при количестве прогулов среднеожидаемая успеваемость ориентировочно составит балла.

И, конечно, осуществимо прогнозирование, так при среднеожидаемая успеваемость составит баллов. Единственное, нежелательно брать «иксы», которые расположены слишком далеко от эмпирических точек, поскольку прогноз, скорее всего, не будет соответствовать действительности. Например, при соответствующее значение может вообще оказаться невозможным, ибо у успеваемости есть свой фиксированный «потолок». И, разумеется, «икс» или «игрек» в нашей задаче не могут быть отрицательными.

Второй вопрос касается тесноты зависимости. Очевидно, что чем ближе расположены эмпирические точки к прямой, тем теснее линейная корреляционная зависимость – тем уравнение регрессии достовернее отражает ситуацию, и тем качественнее полученная модель. И наоборот, если многие точки разбросаны вдали от прямой, то признак зависит от вовсе не линейно (если вообще зависит) и линейная функция плохо отражает реальную картину. Прояснить данный вопрос нам поможет:

7.3.2. Линейный коэффициент корреляции

7.3. Модель пАрной линейной регрессиих

| Оглавление |