Ваш репетитор, справочник и друг! Математическая статистика – краткий курс для начинающих |
7.3.5. Как решить задачу в случае комбинационной группировкиЭто когда в условии дана комбинационная таблица: Пример 47 Имеются выборочные данные по 40 предприятиям региона: Решение: 1) Определим признак-фактор и признак-результат. Очевидно, что чем больше стоимость основных фондов, тем крупнее предприятие и тем больше сырья оно способно переработать. Однако это не является непреложным правилом, ибо любое, самое крупное предприятие может неэффективно работать или даже простаивать. Тем не менее, общая тенденция состоит в том, что при увеличении стоимости фондов предприятий их средняя суточная переработка растёт. Такая зависимость называется… Правильно! Таким образом, предполагаем наличие прямой корреляционной зависимости суточной переработки сырья (признак-результат) от стоимости основных фондов (признак-фактор ) Частоты комбинационной таблицы располагаются преимущественно по диагонали – от левого верхнего до правого нижнего угла, что подтверждает прямое направление зависимости («чем больше, тем больше»). Теперь определим форму зависимости (линейная, квадратичная, экспоненциальная или какая-то другая).
Простейший способ – графический, построили корреляционное поле и посмотрели. Для этого
нужно немного модифицировать исходную таблицу, а именно перейти от интервальных
вариационных рядов (левый столбец и шапка таблицы) к дискретным, выбрав
в качестве вариант и
середины
соответствующих интервалов: Заодно подсчитаем суммы частот по серым строкам и суммы частот по серым столбцам , не забыв убедиться в том, что итоговые суммы равны
объёму выборки: Обратите внимание, что значения признака-фактора расположены по
вертикали в левом столбце, а значения признака-результата – по
горизонтали в «шапке» таблицы. Именно такое расположение (а не наоборот) чаще всего встречается на практике, хотя оно
не сильно удобно, в частности для построения корреляционного поля: Дальнейшие действия состоят в том, чтобы отыскать уравнение линейной регрессии , график которой проходит максимально близко к эмпирическим точкам (с учётом их «весов» – частот в серых полях комбинационной таблицы), а также оценить тесноту линейной корреляционной зависимости – насколько близко расположены точки к построенной прямой. Эта теснота оценивается с помощью линейного коэффициента корреляции, с него и начнём: 2) Коэффициент корреляции вычислим по знакомой формуле . Сначала разберёмся с признаком-фактором . Для этого из комбинационной таблицы (см. выше)
выпишем значения и
заполним расчётную таблицу: Аналогично, берём игрековые значения из комбинационной таблицы и заполняем расчетную таблицу для
признака-результата : Теперь найдём среднее значение произведения признаков. Для этого вычислим все возможные
произведения и на соответствующие
ненулевые частоты ,
наглядно распишу парочку штук: И мы счастливы: Вычислим коэффициент детерминации: , таким образом, в рамках построенной модели 69,12% вариации суточной переработки сырья обусловлено стоимостью основных фондов. Остальные вариации обусловлено другими факторами. 3) Найдём уравнение линейной регрессии на . Здесь можно использовать уже известные формулы , но есть более академичный вариант. Искомое уравнение имеет
вид: Полученное уравнение показывает, что при увеличении стоимости основных фондов на 1 млрд. руб. суточная переработка сырья увеличивается в среднем на 1,61 тысяч центнеров (смысл коэффициента «а»). Напоминаю, что функция регрессии возвращает нам среднеожидаемые значения «игрек». Найдём пару удобных точек для построения графика: С помощью уравнения спрогнозируем среднюю суточную переработку сырья при стоимости основных фондов в 9 млрд.
руб.: Теперь видео о том, как быстро расправиться с этой задачей: Помимо рассмотренного, существует второе уравнение – 7.3.6. Уравнение линейной регрессии X на Y |
|