Ваш репетитор, справочник и друг!

Ваш репетитор, справочник и друг!

Математическая статистика – краткий курс для начинающих



7.3.5. Как решить задачу в случае комбинационной группировки


Это когда в условии дана комбинационная таблица:

Пример 47

Имеются выборочные данные по 40 предприятиям региона:

Требуется:
1) Определить признак-фактор  и признак-результат  и высказать предположение о наличии и направлении зависимости  от . Построить корреляционное поле и выдвинуть гипотезу о возможной форме зависимости.
2) Найти коэффициенты корреляции и детерминации, сделать выводы.
3) Найти уравнение регрессии  на  и изобразить соответствующую линию на чертеже. Спрогнозировать среднюю суточную переработку сырья, когда стоимость основных фондов предприятий достигнет 9 млрд. руб.

Решение:

1) Определим признак-фактор и признак-результат. Очевидно, что чем больше стоимость основных фондов, тем крупнее предприятие и тем больше сырья оно способно переработать. Однако это не является непреложным правилом, ибо любое, самое крупное предприятие может неэффективно работать или даже простаивать.  Тем не менее, общая тенденция состоит в том, что при увеличении стоимости фондов предприятий их средняя суточная переработка растёт. Такая зависимость называется… Правильно! Таким образом, предполагаем наличие прямой корреляционной зависимости суточной переработки сырья (признак-результат) от стоимости основных фондов (признак-фактор )

Частоты комбинационной таблицы располагаются преимущественно по диагонали – от левого верхнего до правого нижнего угла, что подтверждает прямое направление зависимости («чем больше, тем больше»).

Теперь определим форму зависимости (линейная, квадратичная, экспоненциальная или какая-то другая). Простейший способ – графический, построили корреляционное поле и посмотрели. Для этого нужно немного модифицировать исходную таблицу, а именно перейти от интервальных вариационных рядов (левый столбец и шапка таблицы) к дискретным, выбрав в качестве вариант  и  середины соответствующих интервалов:

Заодно подсчитаем суммы частот по серым строкам  и суммы частот по серым столбцам , не забыв убедиться в том, что итоговые суммы равны объёму выборки:


Довольно часто значения  и  уже подсчитаны и приведены в условии, но так бывает не во всех задачах, и поэтому я насыщаю решение всеми возможными действиями.

Обратите внимание, что значения  признака-фактора расположены по вертикали в левом столбце, а значения признака-результатапо горизонтали в «шапке» таблицы. Именно такое расположение (а не наоборот) чаще всего встречается на практике, хотя оно не сильно удобно, в частности для построения корреляционного поля:

Ранее мы строили эмпирические линии регрессии – это простейший способ изобразить форму корреляционной зависимости. Однако гораздо удобнее привлечь на помощь функции. Анализируя чертёж, приходим к выводу, что эмпирические точки  «выстроились» примерно по прямой, что позволяет предположить наличие линейной корреляционной зависимости   – суточной переработки сырья от  – стоимости основных фондов.

Дальнейшие действия состоят в том, чтобы отыскать уравнение линейной регрессии , график которой проходит максимально близко к эмпирическим точкам (с учётом их «весов» – частот  в серых полях комбинационной таблицы), а также оценить тесноту линейной корреляционной зависимости – насколько близко расположены точки к построенной прямой. Эта теснота оценивается с помощью линейного коэффициента корреляции, с него и начнём:

2) Коэффициент корреляции вычислим по знакомой формуле .
Лично я привык в первую очередь находить средние  и стандартные отклонения . Эти расчёты мы проводили неоднократно.

Сначала разберёмся с признаком-фактором . Для этого из комбинационной таблицы (см. выше) выпишем значения  и заполним расчётную таблицу:

Вычислим среднее значение  млрд. руб. и среднее квадратическое отклонение, как корень из дисперсии, вычисленной по формуле:

Аналогично, берём игрековые значения из комбинационной таблицы и заполняем расчетную таблицу для признака-результата :

после чего рассчитываем нужные показатели:
 тыс. ц;

Теперь найдём среднее значение  произведения признаков. Для этого вычислим все возможные произведения  и  на соответствующие ненулевые частоты , наглядно распишу парочку штук:

Вычислим сумму этих произведений:

и искомую среднюю: .

И мы счастливы:
 – в результате получено положительное число и, согласно шкале Чеддока, существует сильная прямая линейная корреляционная зависимость  суточной переработки сырья от  стоимости фондов.

Вычислим коэффициент детерминации:

, таким образом, в рамках построенной модели 69,12% вариации суточной переработки сырья обусловлено стоимостью основных фондов. Остальные  вариации обусловлено другими факторами.

3) Найдём уравнение  линейной регрессии  на . Здесь можно использовать уже известные формулы , но есть более академичный вариант. Искомое уравнение имеет вид:
, в данной задаче (вычисления приближённые):

, примерно:

Полученное уравнение показывает, что при увеличении стоимости основных фондов на 1 млрд. руб. суточная переработка сырья увеличивается в среднем на 1,61 тысяч центнеров (смысл коэффициента «а»). Напоминаю, что функция регрессии возвращает нам среднеожидаемые значения «игрек».

Найдём пару удобных точек для построения графика:

отметим их на чертеже (красный цвет) и аккуратно проведём линию регрессии на том же чертеже:

С помощью уравнения спрогнозируем среднюю суточную переработку сырья при стоимости основных фондов в 9 млрд. руб.:
 тыс. ц.

Теперь видео о том, как быстро расправиться с этой задачей:

Помимо рассмотренного, существует второе уравнение –

7.3.6. Уравнение линейной регрессии X на Y

7.3.4. Второй способ решения

| Оглавление |




  © mathprofi.ru - mathter.pro, 2010-2022, сделано в Блокноте.