Ваш репетитор, справочник и друг!

Ваш репетитор, справочник и друг!

Математическая статистика – краткий курс для начинающих



7.4. Корреляционная зависимость и причинно-следственная связь


Это разные вещи. …Да, вот так буднично, даже жирным шрифтом не выделил.

Если между признаками  существует сильная корреляционная зависимость,
то это ещё не значит, что между ними есть взаимосвязь
.

Так, если мы возьмём два произвольных вариационных ряда, которые примерно одинаково растут (или убывают), то в любом случае получатся высокие по модулю значения . При этом между признаками может вообще не быть никакой причинно-следственной связи, а-ля  – сезонное размножение сусликов в Монголии и  – скорость свободного падения кирпича с Пизанской башни.

Поэтому причинно-следственная зависимость признака  от  должна быть предварительно обоснована если не экспертным путём, то хотя бы здравым смыслом. Именно поэтому во всех содержательных задачах мы обосновали причинно-следственную связь между признаками. И это нужно обязательно делать, если вы проводите самостоятельное исследование. Пользуясь случаем, рекомендую эту тему для ваших научных и практических работ. Корреляционно-регрессионный анализ особо популярен в гуманитарных науках: социологии, психологии, etc и даже в истории.

Кроме того, величина  может зависеть от  косвенно, опосредованно, и удачный тому пример есть в Википедии: очевидно, что между уличным травматизмом и количеством ДТП существует выраженная корреляционная зависимость, однако, эти показатели прямо не зависят друг от друга, у них есть общая причина – погодные условия (гололед, туман и т.д.). Поэтому логика и ещё раз логика.

С другой стороны, если корреляционная зависимость слабА или отсутствует,
то это ещё не значит, что между признаками нет причинно-следственной связи
.

Во-первых, эмпирические точки могут располагаться вдоль параболы, экспоненты или другой кривой, и, разумеется, в этих случаях мы получим малые значения линейных коэффициентов . Но они будут высокими в рамках нелинейных моделей! На практике оптимальную модель подбирают аналитическим путём – строят различные кривые и находят коэффициенты детерминации. Где коэффициент  выше – та модель и удачнее. Быстрый способ узнать коэффициент «эр» для основных функций – Эксель (см. ролик).
Напоминаю, что при этом нужно обосновать причинно-следственную связь между признаками. Но это ещё не всё. Есть куча зависимостей, где корреляцией даже не пахнет.

Представьте, что вы с разной силой дёргаете ручку игрового автомата, на котором крутятся бананчики, вишенки, семёрки и другие картинки. Есть ли причинно-следственная связь между вашими действиями и тем, что выпало на автомате? Безусловно. Но вот корреляционной зависимости (выпавших картинок от ваших усилий) нет никакой.  Частоты в комбинационной таблице будут расположены хаотично, а при большом количестве испытаний примерно равномерно, и коэффициент  в любой вменяемой модели устремится к нулю.

Таким образом, к некоторым (и даже многим) зависимостям вообще нельзя применять метод корреляционного анализа.  Или же можно, но работать он будет плохо.

Основная предпосылка использования корреляционно-регрессионного анализа состоит в том, что при изменении одного признака – другой должен гипотетически (по нашему предположению и обоснованию) возрастать или убывать.

Ещё раз перечитайте и хорошо ОСМЫСЛИТЕ вышесказанное!

…Молодцы! Теперь проконтролируйте, всё ли вам понятно в этих фразах, подводим итоге по главе:

Основная предпосылка использования корреляционно-регрессионного анализа состоит в том, что при изменении одного признака – другой должен по крайне мере гипотетически возрастать либо убывать. При этом необходимо обосновать причинно-следственную связь между признаками.

Корреляционный анализ оценивает тесноту зависимости признака-результата от признака-фактора (или факторов), а регрессионный анализформу зависимости, путём нахождения оптимальной аппроксимирующей функции, график которой проходит максимально близко к эмпирическим точкам. Подбор вида функции проще всего осуществить графически, визуально анализируя диаграмму рассеяния или корреляционное поле; также анализируются коэффициенты детерминации.

Наиболее распространена модель пАрной линейной регрессии, где теснота зависимости оценивается с помощью линейного коэффициента корреляции, а форма – с помощью уравнения(ий) линейной регрессии, которое задаёт прямую. С помощью этого уравнения интерполируют и прогнозируют среднеожидаемые значения признака-результата при различных значениях признака-фактора. Есть и другие модели регрессии, в том числе множественные (с несколькими признаками-факторами)

С расширенным курсом матстата можно ознакомиться на mathprofi.ru. Всех благ!

7.3.6. Уравнение линейной регрессии X на Y

| Оглавление |




  © mathprofi.ru - mathter.pro, 2010-2022, сделано в Блокноте.