Корреляция случайных величин — различия между версиями
Murtaught (обсуждение | вклад) (Ссылки, таблица) |
|||
Строка 1: | Строка 1: | ||
{{Определение | {{Определение | ||
|definition= | |definition= | ||
− | < | + | Среднеквадратичным отклонением <tex>\sigma_{\eta}</tex> называется величина, равная квадратному корню из [[Дисперсия_случайной_величины | дисперсии]] случайной величины <tex>\eta</tex> |
− | : <tex dpi = "150">Corr(\eta,\xi)={Cov(\eta,\xi) \over \sigma_{\eta} \times \sigma_{\xi}}</tex>, где <tex>\ | + | : <tex>\sigma_{\eta}=\sqrt{D(\eta)}</tex> |
+ | }} | ||
+ | {{Определение | ||
+ | |definition= | ||
+ | Пусть <tex>\eta,\xi</tex> {{---}} две [[Дискретная_случайная_величина | случайные величины]], определённые на одном и том же вероятностном пространстве. Тогда <b> корреляцией случайных величин </b> (англ. correlation) <tex>\eta</tex> и <tex>\xi</tex> называется выражение следующего вида: | ||
+ | : <tex dpi = "150">\mathrm{Corr}(\eta,\xi)={\mathrm{Cov}(\eta,\xi) \over \sigma_{\eta} \times \sigma_{\xi}}</tex>, где <tex>\mathrm{Cov}(\eta,\xi)</tex> {{---}} [[Ковариация_случайных_величин | ковариацией случайных величин]] | ||
}} | }} | ||
== Вычисление == | == Вычисление == | ||
Заметим, что <tex>\sigma_{\xi} = \sqrt{D(\xi)} = E\big((\xi-E(\xi))^2\big)</tex> - среднеквадратичное отклонение. | Заметим, что <tex>\sigma_{\xi} = \sqrt{D(\xi)} = E\big((\xi-E(\xi))^2\big)</tex> - среднеквадратичное отклонение. | ||
− | : <tex dpi = "150">Corr(\eta,\xi)={Cov(\eta,\xi) \over \sigma_{\eta} \times \sigma_{\xi}} = {E\big((\eta-E\eta)(\xi-E\xi)\big) \over {\sqrt{D(\eta)} \times \sqrt{D(\xi)}}} ={E(\xi \times \eta) - E(\xi) \times E(\eta) \over {\sigma_{\eta} \times \sigma_{\xi}}}</tex> | + | : <tex dpi = "150">\mathrm{Corr}(\eta,\xi)={\mathrm{Cov}(\eta,\xi) \over \sigma_{\eta} \times \sigma_{\xi}} = {E\big((\eta-E\eta)(\xi-E\xi)\big) \over {\sqrt{D(\eta)} \times \sqrt{D(\xi)}}} ={E(\xi \times \eta) - E(\xi) \times E(\eta) \over {\sigma_{\eta} \times \sigma_{\xi}}}</tex> |
== Корреляция и взаимосвязь величин == | == Корреляция и взаимосвязь величин == | ||
Строка 16: | Строка 21: | ||
|statement= | |statement= | ||
Корреляция симметрична: | Корреляция симметрична: | ||
− | : <tex>Corr(\eta,\xi) = Corr(\xi,\eta)</tex>. | + | : <tex>\mathrm{Corr}(\eta,\xi) = \mathrm{Corr}(\xi,\eta)</tex>. |
|proof= | |proof= | ||
− | : <tex dpi = "150">Corr(\eta,\xi) = { E(\eta \times \xi) - E(\eta) \times E(\xi) \over \sqrt{D(\eta)} \times \sqrt{D(\xi)} } = { E(\xi \times \eta) - E(\xi) \times E(\eta) \over \sqrt{D(\xi)} \times \sqrt{D(\eta)} } = Corr(\xi,\eta)</tex>. | + | : <tex dpi = "150">\mathrm{Corr}(\eta,\xi) = { E(\eta \times \xi) - E(\eta) \times E(\xi) \over \sqrt{D(\eta)} \times \sqrt{D(\xi)} } = { E(\xi \times \eta) - E(\xi) \times E(\eta) \over \sqrt{D(\xi)} \times \sqrt{D(\eta)} } = \mathrm{Corr}(\xi,\eta)</tex>. |
}} | }} | ||
{{Утверждение | {{Утверждение | ||
|statement= | |statement= | ||
− | Корреляция случайной величины с собой равна 1. | + | Корреляция случайной величины с собой равна <tex>1</tex>. |
|proof= | |proof= | ||
− | : <tex dpi = "150">Corr(\eta,\eta) = { E(\eta \times \eta) - E(\eta) \times E(\eta) \over \sqrt{D(\eta)} \times \sqrt{D(\eta)} } = {D(\eta) \over D(\eta)} = 1</tex> | + | : <tex dpi = "150">\mathrm{Corr}(\eta,\eta) = { E(\eta \times \eta) - E(\eta) \times E(\eta) \over \sqrt{D(\eta)} \times \sqrt{D(\eta)} } = {D(\eta) \over D(\eta)} = 1</tex> |
}} | }} | ||
Строка 35: | Строка 40: | ||
Для доказательства будем использовать [[Ковариация случайных величин#Неравенство Коши — Буняковского | неравенство Коши-Буняковского]]: | Для доказательства будем использовать [[Ковариация случайных величин#Неравенство Коши — Буняковского | неравенство Коши-Буняковского]]: | ||
− | <tex>Cov^2(\eta, \xi) \le \sigma_\eta ^2\sigma_\xi ^2</tex> | + | <tex>\mathrm{Cov}^2(\eta, \xi) \le \sigma_\eta ^2\sigma_\xi ^2</tex> |
Если правая часть не равна <tex>0</tex>, то приходим к следующему неравенству: | Если правая часть не равна <tex>0</tex>, то приходим к следующему неравенству: | ||
− | <tex dpi = "150"> {Cov^2(\eta,\xi)\over(\sigma_\eta ^2\sigma_\xi ^2)} \le 1</tex> | + | <tex dpi = "150"> {\mathrm{Cov}^2(\eta,\xi)\over(\sigma_\eta ^2\sigma_\xi ^2)} \le 1</tex> |
− | <tex>Corr^2(\eta,\xi) \le 1</tex> | + | <tex>\mathrm{Corr}^2(\eta,\xi) \le 1</tex> |
− | <tex>-1 \le Corr(\eta,\xi) \le 1</tex>. | + | <tex>-1 \le \mathrm{Corr}(\eta,\xi) \le 1</tex>. |
}} | }} | ||
Строка 49: | Строка 54: | ||
{{Утверждение | {{Утверждение | ||
|statement= | |statement= | ||
− | Если <tex> Corr(\eta, \xi) = \pm 1 </tex>, то <tex>\eta</tex> и <tex>\xi</tex> линейно зависимы. | + | Если <tex> \mathrm{Corr}(\eta, \xi) = \pm 1 </tex>, то <tex>\eta</tex> и <tex>\xi</tex> линейно зависимы. |
|proof= | |proof= | ||
В доказательстве будем использовать [[Ковариация случайных величин#Неравенство Коши — Буняковского | неравенство Коши-Буняковского]]. <br> | В доказательстве будем использовать [[Ковариация случайных величин#Неравенство Коши — Буняковского | неравенство Коши-Буняковского]]. <br> | ||
− | Так как <tex> Corr(\eta, \xi) = \pm 1 </tex>, тo <tex>Cov^2(\eta,\xi) = \sigma_\eta ^2\sigma_\xi ^2</tex> | + | Так как <tex> \mathrm{Corr}(\eta, \xi) = \pm 1 </tex>, тo <tex>\mathrm{Cov}^2(\eta,\xi) = \sigma_\eta ^2\sigma_\xi ^2</tex> |
− | Из этого следует, что дискриминант этого уравнения <tex>\sigma_\xi ^2t^2+ | + | Из этого следует, что дискриминант этого уравнения <tex>\sigma_\xi ^2t^2+2\mathrm{Cov}(\eta,\xi)t+\sigma_\eta ^2 = 0</tex> равен <tex>0</tex> . |
То есть уравнение имеет единственный корень <tex> t_0 </tex>. | То есть уравнение имеет единственный корень <tex> t_0 </tex>. | ||
− | Получаем, что <tex>\sigma_\xi ^2t_0 ^2+ | + | Получаем, что <tex>\sigma_\xi ^2t_0 ^2+2\mathrm{Cov}(\eta,\xi) t_0+\sigma_\eta ^2 = 0</tex>. |
Из этого следует, что <tex> E\big((\xi-E(\xi) +t_0 \times \eta - t_0 E(\eta))^2\big) = 0 </tex> | Из этого следует, что <tex> E\big((\xi-E(\xi) +t_0 \times \eta - t_0 E(\eta))^2\big) = 0 </tex> | ||
Строка 70: | Строка 75: | ||
{{Утверждение | {{Утверждение | ||
|statement= | |statement= | ||
− | Если <tex>\eta</tex> и <tex>\xi</tex> линейно зависимы, то <tex>Corr(\eta, \xi)= \pm 1 </tex>. | + | Если <tex>\eta</tex> и <tex>\xi</tex> линейно зависимы, то <tex>\mathrm{Corr}(\eta, \xi)= \pm 1 </tex>. |
|proof= | |proof= | ||
Строка 76: | Строка 81: | ||
Тогда мы имеем <tex>E(\xi)=k \times E(\eta) + b</tex> | Тогда мы имеем <tex>E(\xi)=k \times E(\eta) + b</tex> | ||
− | <tex> Cov(\eta, \xi) = E((\eta - E(\eta))(\xi - E\xi))=k \times E\big((\eta-E(\eta))^2\big)=k \times \sigma_\eta ^2 </tex>. | + | <tex> \mathrm{Cov}(\eta, \xi) = E((\eta - E(\eta))(\xi - E\xi))=k \times E\big((\eta-E(\eta))^2\big)=k \times \sigma_\eta ^2 </tex>. |
По свойству дисперсии <tex> \sigma_\xi ^2 = D(\xi) = E\big((\xi-E(\xi))^2\big)= k^2 \times E\big((\eta-E(\eta))^2\big)= k^2 \times \sigma_\eta ^2 </tex> | По свойству дисперсии <tex> \sigma_\xi ^2 = D(\xi) = E\big((\xi-E(\xi))^2\big)= k^2 \times E\big((\eta-E(\eta))^2\big)= k^2 \times \sigma_\eta ^2 </tex> | ||
Получаем, что | Получаем, что | ||
− | <tex dpi = "150">Corr(\eta, \xi)= {Cov(\eta, \xi)\over \sigma_\eta \sigma_\xi}={k\over |k|}</tex>, | + | <tex dpi = "150">\mathrm{Corr}(\eta, \xi)= {\mathrm{Cov}(\eta, \xi)\over \sigma_\eta \sigma_\xi}={k\over |k|}</tex>, |
что и требовалось доказать. | что и требовалось доказать. | ||
Строка 88: | Строка 93: | ||
{{Утверждение | {{Утверждение | ||
|statement= | |statement= | ||
− | Если <tex>\eta,\xi</tex> независимые случайные величины, то <tex>Corr(\eta,\xi) = 0</tex>. | + | Если <tex>\eta,\xi</tex> независимые случайные величины, то <tex>\mathrm{Corr}(\eta,\xi) = 0</tex>. |
|proof= | |proof= | ||
− | Пусть <tex>\eta</tex> и <tex>\xi</tex> - [[Независимые_случайные_величины|независимые величины]]. Тогда <tex>E(\eta \times \xi)=E(\eta) \times E(\xi)</tex>, где <tex>E</tex> - их [[Математическое_ожидание_случайной_величины|математическое ожидание]]. Получаем: | + | Пусть <tex>\eta</tex> и <tex>\xi</tex> {{---}} [[Независимые_случайные_величины|независимые величины]]. Тогда <tex>E(\eta \times \xi)=E(\eta) \times E(\xi)</tex>, где <tex>E</tex> {{---}} их [[Математическое_ожидание_случайной_величины|математическое ожидание]]. Получаем: |
− | : <tex dpi = "150">Corr(\eta, \xi) = {E(\xi) \times E(\eta) - E(\xi) \times E(\eta) \over {E\big((\eta-E(\eta))^2\big) \times E\big((\xi-E(\xi))^2\big)}} = 0</tex> | + | : <tex dpi = "150">\mathrm{Corr}(\eta, \xi) = {E(\xi) \times E(\eta) - E(\xi) \times E(\eta) \over {E\big((\eta-E(\eta))^2\big) \times E\big((\xi-E(\xi))^2\big)}} = 0</tex> |
<b>Но обратное неверно:</b> | <b>Но обратное неверно:</b> | ||
− | Пусть <tex>\eta</tex> - [[Дискретная_случайная_величина|случайная величина]], распределенная симметрично около 0, а <tex>\xi=\eta^2</tex>. <tex>Corr(\eta,\xi)=0</tex>, но <tex>\eta</tex> и <tex>\xi</tex> - зависимые величины. | + | Пусть <tex>\eta</tex> {{---}} [[Дискретная_случайная_величина|случайная величина]], распределенная симметрично около 0, а <tex>\xi=\eta^2</tex>. <tex>\mathrm{Corr}(\eta,\xi)=0</tex>, но <tex>\eta</tex> и <tex>\xi</tex> {{---}} зависимые величины. |
}} | }} | ||
== Примеры == | == Примеры == | ||
− | В общем смысле корреляция - это зависимость между случайными величинами, когда изменение одной влечет изменение распределения другой. | + | В общем смысле корреляция {{---}} это зависимость между случайными величинами, когда изменение одной влечет изменение распределения другой. |
=== Определение корреляции по диаграмме === | === Определение корреляции по диаграмме === | ||
− | [[Файл:Пример_графиков_корреляции.png|600px|thumb|right|3 диаграммы рассеивания двух случайных величин X и Y]] | + | [[Файл:Пример_графиков_корреляции.png|600px|thumb|right|3 диаграммы рассеивания двух случайных величин <tex>X</tex> и <tex>Y</tex>]] |
− | 1. Соответственно, на '''первом графике''' изображена '''положительная корреляция''', когда увеличение Y ведет к постепенному увеличению X. | + | 1. Соответственно, на '''первом графике''' изображена '''положительная корреляция''', когда увеличение <tex>Y</tex> ведет к постепенному увеличению <tex>X</tex>. |
− | 2. '''Второй график''' отображает '''отрицательную корреляцию''', когда увеличение X воздействует на постепенное уменьшение Y. | + | 2. '''Второй график''' отображает '''отрицательную корреляцию''', когда увеличение <tex>X</tex> воздействует на постепенное уменьшение <tex>Y</tex>. |
− | 3. '''Третий график''' показывает, что X и Y связаны слабо, их распределение не зависит от изменения друг друга, поэтому корреляция между ними будет '''равна 0'''. | + | 3. '''Третий график''' показывает, что <tex>X</tex> и <tex>Y</tex> связаны слабо, их распределение не зависит от изменения друг друга, поэтому корреляция между ними будет '''равна 0'''. |
=== Определение корреляции по таблице === | === Определение корреляции по таблице === | ||
− | Рассмотрим 2 случайные величины: курс акций нефтедобывающей компании (X) и цены на нефть (Y). | + | Рассмотрим 2 случайные величины: курс акций нефтедобывающей компании (<tex>X</tex>) и цены на нефть (<tex>Y</tex>). |
{| class="wikitable" | {| class="wikitable" | ||
Строка 119: | Строка 124: | ||
|- | |- | ||
|} | |} | ||
− | Для упрощения вычислений определим X и Y как равновероятные случайные величины. Тогда их математическое ожидание и дисперсию легко посчитать: | + | Для упрощения вычислений определим <tex>X</tex> и <tex>Y</tex> как равновероятные случайные величины. Тогда их математическое ожидание и дисперсию легко посчитать: |
<tex>E(X) = 2014,73</tex> | <tex>E(X) = 2014,73</tex> | ||
Строка 129: | Строка 134: | ||
<tex>D(Y) = 0,959661</tex> | <tex>D(Y) = 0,959661</tex> | ||
− | Используя формулу, <tex dpi = "150">Corr(\eta,\xi)={E(\xi \times \eta) - E(\xi) \times E(\eta) \over {\sigma_{\eta} \times \sigma_{\xi}}}</tex> определяем, что корреляция между величинами X и Y составляет 0,240935496, т.е. 24%. | + | Используя формулу, <tex dpi = "150">\mathrm{Corr}(\eta,\xi)={E(\xi \times \eta) - E(\xi) \times E(\eta) \over {\sigma_{\eta} \times \sigma_{\xi}}}</tex> определяем, что корреляция между величинами X и Y составляет 0,240935496, т.е. 24%. |
== Ссылки == | == Ссылки == |
Версия 00:33, 27 февраля 2016
Определение: |
Среднеквадратичным отклонением дисперсии случайной величины
| называется величина, равная квадратному корню из
Определение: |
Пусть случайные величины, определённые на одном и том же вероятностном пространстве. Тогда корреляцией случайных величин (англ. correlation) и называется выражение следующего вида:
| — две
Содержание
Вычисление
Заметим, что
- среднеквадратичное отклонение.Корреляция и взаимосвязь величин
Значительная корреляция между случайными величинами всегда означает, что присутствует некая взаимосвязь между значениями конкретной выборки, но при другой выборке связь вполне может отсутствовать. Поэтому при нахождении взаимосвязи не нужно делать поспешных выводов о причинно-следственном характере величин, а следует рассмотреть наиболее полную выборку, чтобы делать какие-либо выводы. Коэффициенты корреляции устанавливают лишь статистические взаимосвязи, но не более того.
Свойства корреляции
Утверждение: |
Корреляция симметрична:
|
|
Утверждение: |
Корреляция случайной величины с собой равна . |
|
Утверждение: |
Корреляция лежит на отрезке . |
Для доказательства будем использовать неравенство Коши-Буняковского:
Если правая часть не равна , то приходим к следующему неравенству:
. |
Утверждение: |
Если , то и линейно зависимы. |
В доказательстве будем использовать неравенство Коши-Буняковского. Из этого следует, что дискриминант этого уравнения равен .То есть уравнение имеет единственный корень .Получаем, что .Из этого следует, что Это возможно только тогда, когда Видим, что ; и линейно зависимы. |
Утверждение: |
Если и линейно зависимы, то . |
Предположим, что существует линейная зависимость: . Тогда мы имеем. По свойству дисперсии Получаем, что что и требовалось доказать. , |
Утверждение: |
Если независимые случайные величины, то . |
Пусть независимые величины. Тогда , где — их математическое ожидание. Получаем: и —Но обратное неверно: Пусть — случайная величина, распределенная симметрично около 0, а . , но и — зависимые величины. |
Примеры
В общем смысле корреляция — это зависимость между случайными величинами, когда изменение одной влечет изменение распределения другой.
Определение корреляции по диаграмме
1. Соответственно, на первом графике изображена положительная корреляция, когда увеличение
ведет к постепенному увеличению .2. Второй график отображает отрицательную корреляцию, когда увеличение
воздействует на постепенное уменьшение .3. Третий график показывает, что
и связаны слабо, их распределение не зависит от изменения друг друга, поэтому корреляция между ними будет равна 0.Определение корреляции по таблице
Рассмотрим 2 случайные величины: курс акций нефтедобывающей компании (
) и цены на нефть ( ).X | 2003,6 | 2013,2 | 2007,6 | 2007,4 | 2039,9 | 2025 | 2007 | 2017 | 2015,6 | 2011 |
---|---|---|---|---|---|---|---|---|---|---|
Y | 108,4 | 107,96 | 108,88 | 110,44 | 110,2 | 108,97 | 109,15 | 108,8 | 111,2 | 110,23 |
Для упрощения вычислений определим
и как равновероятные случайные величины. Тогда их математическое ожидание и дисперсию легко посчитать:
Используя формулу,
определяем, что корреляция между величинами X и Y составляет 0,240935496, т.е. 24%.