Корреляция случайных величин — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
(Свойства корреляции)
м (Fix ticket)
(не показано 35 промежуточных версий 6 участников)
Строка 1: Строка 1:
== Определение ==
 
 
{{Определение
 
{{Определение
 
|definition=
 
|definition=
<b>Корреляция случайных величин</b>: пусть <tex>\eta,\xi</tex> две [[Дискретная_случайная_величина | случайные величины]], определённые на одном и том же вероятностном пространстве. Тогда их корреляция определяется следующим образом:
+
<b>Среднеквадратичным отклонением</b> (англ. ''standart deviation'') <tex>\sigma_{\eta}</tex> называется величина, равная квадратному корню из [[Дисперсия_случайной_величины | дисперсии]] случайной величины <tex>\eta</tex>
:  <tex dpi = "150">Corr(\eta,\xi)={Cov(\eta,\xi) \over \sigma_{\eta} \times \sigma_{\xi}}</tex>, где <tex>\sigma_{\eta}=\sqrt{D(\eta)}</tex> называется среднеквадратичным отклонением и равно квадратному корню из [[Дисперсия_случайной_величины | дисперсии]], а <tex>Cov(\eta,\xi)</tex> - [[Ковариация_случайных_величин | ковариацией случайных величин]]
+
: <tex>\sigma_{\eta}=\sqrt{D(\eta)}</tex>
 +
}}
 +
{{Определение
 +
|definition=
 +
Пусть <tex>\eta,\xi</tex> {{---}} две [[Дискретная_случайная_величина | случайные величины]], определённые на одном и том же вероятностном пространстве. Тогда <b> корреляцией случайных величин </b> (англ. correlation) <tex>\eta</tex> и <tex>\xi</tex> называется выражение следующего вида:
 +
:  <tex>\mathrm{Corr}(\eta,\xi)=\dfrac{\mathrm{Cov}(\eta,\xi)}{\sigma_{\eta}\sigma_{\xi}}</tex>, где <tex>\mathrm{Cov}(\eta,\xi)</tex> {{---}} [[Ковариация_случайных_величин | ковариация случайных величин]].
 
}}
 
}}
  
 
== Вычисление ==
 
== Вычисление ==
Заметим, что <tex>\sigma_{\xi} = \sqrt{D(\xi)} = E\big((\xi-E(\xi))^2\big)</tex>
+
Заметим, что <tex>\sigma_{\xi} = \sqrt{D(\xi)} = E\big((\xi-E(\xi))^2\big)</tex> {{---}} среднеквадратичное отклонение.
:  <tex dpi = "150">Corr(\eta,\xi)={Cov(\eta,\xi) \over \sigma_{\eta} \times \sigma_{\xi}} = {E\big((\eta-E\eta)(\xi-E\xi)\big) \over {\sqrt{D(\eta)} \times \sqrt{D(\xi)}}} ={E(\xi \times \eta) - E(\xi) \times E(\eta) \over {\sigma_{\eta} \times \sigma_{\xi}}}</tex>
+
:  <tex>\mathrm{Corr}(\eta,\xi)=\dfrac{\mathrm{Cov}(\eta,\xi)}{\sigma_{\eta} \sigma_{\xi}} = \dfrac{E\big((\eta-E\eta)(\xi-E\xi)\big)}{{\sqrt{D(\eta)} \sqrt{D(\xi)}}} =\dfrac{E(\xi \eta) - E(\xi) E(\eta)}{{\sigma_{\eta} \sigma_{\xi}}}</tex>
 +
 
 +
== Корреляция и взаимосвязь величин ==
 +
Значительная корреляция между случайными величинами всегда означает, что присутствует некая взаимосвязь между значениями конкретной выборки, но при другой выборке связь вполне может отсутствовать. Поэтому при нахождении взаимосвязи не нужно делать поспешных выводов о причинно-следственном характере величин, а следует рассмотреть наиболее полную выборку, чтобы делать какие-либо выводы. Коэффициенты корреляции устанавливают лишь статистические взаимосвязи, но не более того.
  
 
== Свойства корреляции ==
 
== Свойства корреляции ==
Строка 14: Строка 21:
 
|statement=
 
|statement=
 
Корреляция симметрична:
 
Корреляция симметрична:
: <tex>Corr(\eta,\xi) = Corr(\xi,\eta)</tex>.
+
: <tex>\mathrm{Corr}(\eta,\xi) = \mathrm{Corr}(\xi,\eta)</tex>.
 
|proof=
 
|proof=
: <tex dpi = "150">Corr(\eta,\xi) = { E(\eta \times \xi) - E(\eta) \times E(\xi) \over \sqrt{D(\eta)} \times \sqrt{D(\xi)} } = { E(\xi \times \eta) - E(\xi) \times E(\eta) \over \sqrt{D(\xi)} \times \sqrt{D(\eta)} } = Corr(\xi,\eta)</tex>
+
: <tex>\mathrm{Corr}(\eta,\xi) = \dfrac{ E(\eta \xi) - E(\eta) E(\xi)}{\sqrt{D(\eta)} \sqrt{D(\xi)} } = \dfrac{ E(\xi \eta) - E(\xi) E(\eta)}{\sqrt{D(\xi)} \sqrt{D(\eta)} } = \mathrm{Corr}(\xi,\eta)</tex>.
 
}}
 
}}
  
 
{{Утверждение
 
{{Утверждение
 
|statement=
 
|statement=
Корреляция лежит на отрезке <tex>[-1, 1]</tex>:
+
Корреляция случайной величины с собой равна <tex>1</tex>.
 
 
 
|proof=
 
|proof=
Для доказательства используем свойства ковариации
+
: <tex>\mathrm{Corr}(\eta,\eta) = \dfrac{ E(\eta \eta) - E(\eta)  E(\eta)}{\sqrt{D(\eta)\sqrt{D(\eta)} } = \dfrac{D(\eta)}{D(\eta)} = 1</tex>
<tex>Cov^2(\eta, \xi) \le \sigma_\eta ^2\sigma_\xi ^2</tex>
+
}}
из этого выходит <tex> {Cov^2(\eta,\xi)\over(\sigma_\eta ^2\sigma_\xi ^2)} \le 1</tex>  
 
  
при условии, конечно, что знаменатель не обращается в нуль.
+
{{Утверждение
 +
|statement=
 +
Корреляция лежит на отрезке <tex>[-1, 1]</tex>.
  
<tex>Corr^2(\eta,\xi) \le 1</tex>
 
  
<tex>-1 \le Corr(\eta,\xi) \le 1</tex>
 
  
 
}}
 
}}
Строка 38: Строка 43:
 
{{Утверждение
 
{{Утверждение
 
|statement=
 
|statement=
Если <tex> Corr(\eta, \xi) = \pm 1 </tex>, то <tex>\eta</tex> и <tex>\xi</tex> линейно зависимые
+
Если <tex> \mathrm{Corr}(\eta, \xi) = \pm 1 </tex>, то <tex>\eta</tex> и <tex>\xi</tex> линейно зависимы.
 
 
|proof=
 
Для доказательство используем доказательство свойства ковариации. 
 
Так как у нас <tex> Corr(\eta, \xi) = \pm 1 </tex>
 
то это обозначает что <tex>Cov^2(\eta,\xi) = \sigma_\eta ^2\sigma_\xi ^2</tex>
 
равенство на этом неравенстве <tex>\sigma_\xi ^2t^2+2Cov(\eta,\xi)t+\sigma_\eta ^2 \ge 0</tex>  выполняется только при условии что дискриминант равен нулю т.е. имеет один корень <tex> t_0 </tex>.
 
  
Из этого выходят <tex> E((\xi-E\xi +t_0 \eta - t_0 E\eta))=E((V + t_0 W)^2) = 0 </tex>
 
единственная случая это может произойти, если <tex> \xi-E\xi +t_0 \eta - t_0 E\eta = 0</tex>;
 
  
Ясно что <tex>\eta</tex> и <tex>\xi</tex> линейно зависимы.
 
 
}}
 
}}
  
 
{{Утверждение
 
{{Утверждение
 
|statement=
 
|statement=
Если <tex>\eta</tex> и <tex>\xi</tex> линейно зависимы то <tex>Corr(\eta, \xi)= \pm 1 </tex>.
+
Если <tex>\eta</tex> и <tex>\xi</tex> линейно зависимы, то <tex>\mathrm{Corr}(\eta, \xi)= \pm 1 </tex>.
 
 
|proof=
 
Предположим что <tex>\xi = k \eta + b</tex>.
 
Потом, мы имеем что <tex>E\xi=kE\eta + b</tex>; и так
 
<tex> Cov(\eta, \xi) = E((\eta - E\eta)(\xi - E\xi))=kE((\eta-E\eta)^2)=k\sigma_\eta ^2 </tex>.
 
 
 
Кроме того, по свойствам дисперсии,
 
<tex> \sigma_\xi ^2 = D[\xi] = E((\xi-E\xi)^2)= k^2 E((\eta-E\eta)^2)= k^2 \sigma_\eta ^2 </tex>
 
  
Из этого следует, что
 
<tex>Corr(\eta, \xi)= {Cov(\eta, \xi)\over \sigma_\eta \sigma_\xi}={k\over |k|}</tex>,
 
  
ясно что это равно на <tex>\pm 1</tex>, знак зависит от знака <tex>k</tex>.
 
 
}}
 
}}
  
 
{{Утверждение
 
{{Утверждение
 
|statement=
 
|statement=
Если <tex>\eta,\xi</tex> независимые случайные величины, то
+
Если <tex>\eta,\xi</tex> независимые случайные величины, то <tex>\mathrm{Corr}(\eta,\xi) = 0</tex>.
: <tex>Corr(\eta,\xi) = 0</tex>.
 
 
|proof=
 
|proof=
Пусть <tex>\eta</tex> и <tex>\xi</tex> - [[Независимые_случайные_величины|независимые величины]]. Тогда <tex>E(\eta \times \xi)=E(\eta) \times E(\xi)</tex>, где <tex>E</tex> - их [[Математическое_ожидание_случайной_величины|математическое ожидание]]. Получаем:
+
Пусть <tex>\eta</tex> и <tex>\xi</tex> {{---}} [[Независимые_случайные_величины|независимые величины]]. Тогда <tex>E(\eta \xi)=E(\eta) E(\xi)</tex>, где <tex>E</tex> {{---}} их [[Математическое_ожидание_случайной_величины|математическое ожидание]]. Получаем:
: <tex dpi = "150">{E(\xi) \times E(\eta) - E(\xi) \times E(\eta) \over {E\big((\eta-E(\eta))^2\big) \times E\big((\xi-E(\xi))^2\big)}} = 0</tex>
+
: <tex>\mathrm{Corr}(\eta, \xi) = \dfrac{E(\xi) E(\eta) - E(\xi) E(\eta)}{{E\big((\eta-E(\eta))^2\big) E\big((\xi-E(\xi))^2\big)}} = 0</tex>
 
<b>Но обратное неверно:</b>
 
<b>Но обратное неверно:</b>
Пусть <tex>\eta</tex> - [[Дискретная_случайная_величина|случайная величина]], распределенная симметрично около 0, а <tex>\xi=\eta^2</tex>. <tex>Corr(\eta,\xi)=0</tex>, но <tex>\eta</tex> и <tex>\xi</tex> - зависимые величины.
+
Пусть <tex>\eta</tex> {{---}} [[Дискретная_случайная_величина|случайная величина]], распределенная симметрично около <tex>0</tex>, а <tex>\xi=\eta^2</tex>. <tex>\mathrm{Corr}(\eta,\xi)=0</tex>, но <tex>\eta</tex> и <tex>\xi</tex> {{---}} зависимые величины.
 
}}
 
}}
  
 
== Примеры ==
 
== Примеры ==
В общем смысле корреляция - это зависимость между случайными величинами, когда изменение одной влечет изменение распределения другой.
+
В общем смысле корреляция {{---}} это зависимость между случайными величинами, когда изменение одной влечет изменение распределения другой.
 
=== Определение корреляции по диаграмме ===
 
=== Определение корреляции по диаграмме ===
[[Файл:Пример_графиков_корреляции.png|600px|thumb|right|3 диаграммы рассеивания двух случайных величин X и Y]]
+
[[Файл:Пример_графиков_корреляции.png|600px|thumb|right|3 диаграммы рассеивания двух случайных величин <tex>X</tex> и <tex>Y</tex>]]
 
 
1. Соответственно, на '''первом графике''' изображена '''положительная корреляция''', когда увеличение Y ведет к постепенному увеличению X.
 
 
 
2. '''Второй график''' отображает '''отрицательную корреляцию''', когда увеличение X воздействует на постепенное уменьшение Y.
 
  
3. '''Третий график''' показывает, что X и Y связаны слабо, их распределение не зависит от изменения друг друга, поэтому корреляция между ними будет '''равна 0'''.
+
#Соответственно, на '''первом графике''' изображена '''положительная корреляция''', когда увеличение <tex>Y</tex> ведет к постепенному увеличению <tex>X</tex>.
 +
#'''Второй график''' отображает '''отрицательную корреляцию''', когда увеличение <tex>X</tex> воздействует на постепенное уменьшение <tex>Y</tex>.
 +
#'''Третий график''' показывает, что <tex>X</tex> и <tex>Y</tex> связаны слабо, их распределение не зависит от изменения друг друга, поэтому корреляция между ними будет '''равна <tex>0</tex>'''.
  
 
=== Определение корреляции по таблице ===
 
=== Определение корреляции по таблице ===
Рассмотрим 2 случайные величины: курс акций нефтедобывающей компании (X) и цены на нефть (Y).
+
Рассмотрим <tex>2</tex> случайные величины: курс акций нефтедобывающей компании (<tex>X</tex>) и цены на нефть (<tex>Y</tex>).
  
{| border="1"
+
{| class="wikitable"
 
|-
 
|-
! X  || 2003,6 || 2013,2 || 2007,6 || 2007,4 || 2039,9 || 2025 || 2007 || 2017 || 2015,6 || 2011
+
! X   
 +
| <tex>2003,6</tex> || <tex>2013,2</tex> || <tex>2007,6</tex> || <tex>2007,4</tex> || <tex>2039,9</tex> || <tex>2025</tex> || <tex>2007</tex> || <tex>2017</tex> || <tex>2015,6</tex> || <tex>2011</tex>
 
|-
 
|-
! Y || 108,4 || 107,96 || 108,88 || 110,44 || 110,2 || 108,97 || 109,15 || 108,8 || 111,2 || 110,23
+
! Y  
 +
| <tex>108,4</tex> || <tex>107,96</tex> || <tex>108,88</tex> || <tex>110,44</tex> || <tex>110,2</tex> || <tex>108,97</tex> || <tex>109,15</tex> || <tex>108,8</tex> || <tex>111,2</tex> || <tex>110,23</tex>
 
|-
 
|-
 
|}
 
|}
Для упрощения вычислений определим X и Y как равновероятные случайные величины. Тогда их математическое ожидание и дисперсию легко посчитать:
+
Для упрощения вычислений определим <tex>X</tex> и <tex>Y</tex> как равновероятные случайные величины. Тогда их математическое ожидание и дисперсию легко посчитать:
  
 
<tex>E(X) = 2014,73</tex>
 
<tex>E(X) = 2014,73</tex>
Строка 112: Строка 96:
 
<tex>D(Y) = 0,959661</tex>
 
<tex>D(Y) = 0,959661</tex>
  
Используя формулу, <tex dpi = "150">Corr(\eta,\xi)={E(\xi \times \eta) - E(\xi) \times E(\eta) \over {\sigma_{\eta} \times \sigma_{\xi}}}</tex> определяем, что корреляция между величинами X и Y составляет 0,240935496, т.е. 24%.
+
Используя формулу, <tex>\mathrm{Corr}(\eta,\xi)=\dfrac{E(\xi \eta) - E(\xi)E(\eta)}{{\sigma_{\eta} \sigma_{\xi}}}</tex> определяем, что корреляция между величинами <tex>X</tex> и <tex>Y</tex> составляет <tex>0,240935496</tex>, то есть <tex>24\%</tex>.
 +
 
 +
== См. также ==
 +
*[[Дисперсия случайной величины|Дисперсия случайной величины]]
 +
*[[Ковариация случайных величин|Ковариация случайных величин]]
  
== Ссылки ==
+
== Источники информации ==
 
* [http://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D1%80%D1%80%D0%B5%D0%BB%D1%8F%D1%86%D0%B8%D1%8F Википедия {{---}} Корреляция]
 
* [http://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D1%80%D1%80%D0%B5%D0%BB%D1%8F%D1%86%D0%B8%D1%8F Википедия {{---}} Корреляция]
 
* [http://en.wikipedia.org/wiki/Correlation_and_dependence Wikipedia {{---}} Correlation and dependence]
 
* [http://en.wikipedia.org/wiki/Correlation_and_dependence Wikipedia {{---}} Correlation and dependence]

Версия 21:52, 4 марта 2018

Определение:
Среднеквадратичным отклонением (англ. standart deviation) [math]\sigma_{\eta}[/math] называется величина, равная квадратному корню из дисперсии случайной величины [math]\eta[/math]
[math]\sigma_{\eta}=\sqrt{D(\eta)}[/math]


Определение:
Пусть [math]\eta,\xi[/math] — две случайные величины, определённые на одном и том же вероятностном пространстве. Тогда корреляцией случайных величин (англ. correlation) [math]\eta[/math] и [math]\xi[/math] называется выражение следующего вида:
[math]\mathrm{Corr}(\eta,\xi)=\dfrac{\mathrm{Cov}(\eta,\xi)}{\sigma_{\eta}\sigma_{\xi}}[/math], где [math]\mathrm{Cov}(\eta,\xi)[/math] ковариация случайных величин.


Вычисление

Заметим, что [math]\sigma_{\xi} = \sqrt{D(\xi)} = E\big((\xi-E(\xi))^2\big)[/math] — среднеквадратичное отклонение.

[math]\mathrm{Corr}(\eta,\xi)=\dfrac{\mathrm{Cov}(\eta,\xi)}{\sigma_{\eta} \sigma_{\xi}} = \dfrac{E\big((\eta-E\eta)(\xi-E\xi)\big)}{{\sqrt{D(\eta)} \sqrt{D(\xi)}}} =\dfrac{E(\xi \eta) - E(\xi) E(\eta)}{{\sigma_{\eta} \sigma_{\xi}}}[/math]

Корреляция и взаимосвязь величин

Значительная корреляция между случайными величинами всегда означает, что присутствует некая взаимосвязь между значениями конкретной выборки, но при другой выборке связь вполне может отсутствовать. Поэтому при нахождении взаимосвязи не нужно делать поспешных выводов о причинно-следственном характере величин, а следует рассмотреть наиболее полную выборку, чтобы делать какие-либо выводы. Коэффициенты корреляции устанавливают лишь статистические взаимосвязи, но не более того.

Свойства корреляции

Утверждение:
Корреляция симметрична:
[math]\mathrm{Corr}(\eta,\xi) = \mathrm{Corr}(\xi,\eta)[/math].
[math]\triangleright[/math]
[math]\mathrm{Corr}(\eta,\xi) = \dfrac{ E(\eta \xi) - E(\eta) E(\xi)}{\sqrt{D(\eta)} \sqrt{D(\xi)} } = \dfrac{ E(\xi \eta) - E(\xi) E(\eta)}{\sqrt{D(\xi)} \sqrt{D(\eta)} } = \mathrm{Corr}(\xi,\eta)[/math].
[math]\triangleleft[/math]
Утверждение:
Корреляция случайной величины с собой равна [math]1[/math].
[math]\triangleright[/math]
[math]\mathrm{Corr}(\eta,\eta) = \dfrac{ E(\eta \eta) - E(\eta) E(\eta)}{\sqrt{D(\eta)} \sqrt{D(\eta)} } = \dfrac{D(\eta)}{D(\eta)} = 1[/math]
[math]\triangleleft[/math]
Утверждение:
Корреляция лежит на отрезке [math][-1, 1][/math].
Утверждение:
Если [math] \mathrm{Corr}(\eta, \xi) = \pm 1 [/math], то [math]\eta[/math] и [math]\xi[/math] линейно зависимы.
Утверждение:
Если [math]\eta[/math] и [math]\xi[/math] линейно зависимы, то [math]\mathrm{Corr}(\eta, \xi)= \pm 1 [/math].
Утверждение:
Если [math]\eta,\xi[/math] независимые случайные величины, то [math]\mathrm{Corr}(\eta,\xi) = 0[/math].
[math]\triangleright[/math]

Пусть [math]\eta[/math] и [math]\xi[/math]независимые величины. Тогда [math]E(\eta \xi)=E(\eta) E(\xi)[/math], где [math]E[/math] — их математическое ожидание. Получаем:

[math]\mathrm{Corr}(\eta, \xi) = \dfrac{E(\xi) E(\eta) - E(\xi) E(\eta)}{{E\big((\eta-E(\eta))^2\big) E\big((\xi-E(\xi))^2\big)}} = 0[/math]

Но обратное неверно:

Пусть [math]\eta[/math]случайная величина, распределенная симметрично около [math]0[/math], а [math]\xi=\eta^2[/math]. [math]\mathrm{Corr}(\eta,\xi)=0[/math], но [math]\eta[/math] и [math]\xi[/math] — зависимые величины.
[math]\triangleleft[/math]

Примеры

В общем смысле корреляция — это зависимость между случайными величинами, когда изменение одной влечет изменение распределения другой.

Определение корреляции по диаграмме

3 диаграммы рассеивания двух случайных величин [math]X[/math] и [math]Y[/math]
  1. Соответственно, на первом графике изображена положительная корреляция, когда увеличение [math]Y[/math] ведет к постепенному увеличению [math]X[/math].
  2. Второй график отображает отрицательную корреляцию, когда увеличение [math]X[/math] воздействует на постепенное уменьшение [math]Y[/math].
  3. Третий график показывает, что [math]X[/math] и [math]Y[/math] связаны слабо, их распределение не зависит от изменения друг друга, поэтому корреляция между ними будет равна [math]0[/math].

Определение корреляции по таблице

Рассмотрим [math]2[/math] случайные величины: курс акций нефтедобывающей компании ([math]X[/math]) и цены на нефть ([math]Y[/math]).

X [math]2003,6[/math] [math]2013,2[/math] [math]2007,6[/math] [math]2007,4[/math] [math]2039,9[/math] [math]2025[/math] [math]2007[/math] [math]2017[/math] [math]2015,6[/math] [math]2011[/math]
Y [math]108,4[/math] [math]107,96[/math] [math]108,88[/math] [math]110,44[/math] [math]110,2[/math] [math]108,97[/math] [math]109,15[/math] [math]108,8[/math] [math]111,2[/math] [math]110,23[/math]

Для упрощения вычислений определим [math]X[/math] и [math]Y[/math] как равновероятные случайные величины. Тогда их математическое ожидание и дисперсию легко посчитать:

[math]E(X) = 2014,73[/math]

[math]E(Y) = 109,42[/math]

[math]D(X) = 104,9361[/math]

[math]D(Y) = 0,959661[/math]

Используя формулу, [math]\mathrm{Corr}(\eta,\xi)=\dfrac{E(\xi \eta) - E(\xi)E(\eta)}{{\sigma_{\eta} \sigma_{\xi}}}[/math] определяем, что корреляция между величинами [math]X[/math] и [math]Y[/math] составляет [math]0,240935496[/math], то есть [math]24\%[/math].

См. также

Источники информации