Korelacija

Iz Wikipedije, slobodne enciklopedije
Idi na navigaciju Idi na pretragu
Da biste grafički prikazali korelaciju, možete koristiti pravougaoni koordinatni sistem sa osama koje odgovaraju obe varijable. Svaki par vrijednosti označen je određenim simbolom. Takav dijagram se naziva dijagram raspršenja .

Korelacija (od latinskog correlatio "odnos"), ili korelaciona zavisnost - statistički odnos dve ili više slučajnih varijabli (ili veličina koje se kao takve mogu smatrati sa nekim prihvatljivim stepenom tačnosti). U ovom slučaju, promjene vrijednosti jedne ili više ovih veličina prate sistematsku promjenu vrijednosti druge ili drugih veličina[1] .

Matematička mjera korelacije dvije slučajne varijable je odnos korelacije [2] ili koeficijent korelacije (ili )[1] . Ako promjena jedne slučajne varijable ne dovodi do pravilne promjene druge slučajne varijable, već dovodi do promjene druge statističke karakteristike date slučajne varijable, tada se takav odnos ne smatra korelacijom, iako je statistički[3 ] .

Prvi put je termin korelacija u naučni opticaj uveo francuski paleontolog Georges Cuvier u 18. vijeku. Razvio je "zakon korelacije" dijelova i organa živih bića, uz pomoć kojeg je moguće obnoviti izgled fosilne životinje, raspolažući samo dijelom njenih ostataka. U statistici je riječ "korelacija" prvi upotrijebio engleski biolog i statističar Francis Galton krajem 19. stoljeća[4] .

Korelacija i odnos veličina

Značajna korelacija između dvije slučajne varijable uvijek je dokaz postojanja neke statističke veze u datom uzorku, ali ta veza ne mora biti promatrana za drugi uzorak i biti uzročna. Često primamljiva jednostavnost istraživanja korelacije tjera istraživača na lažne intuitivne zaključke o postojanju uzročne veze između parova znakova, dok koeficijenti korelacije uspostavljaju samo statističke odnose. Na primjer, gledajući požare u određenom gradu, može se naći vrlo visoka korelacija između štete uzrokovane požarom i broja vatrogasaca koji su učestvovali u gašenju požara, a ta korelacija će biti pozitivna. Iz ovoga, međutim, ne proizlazi da „povećanje broja vatrogasaca dovodi do povećanja pričinjene štete“, a još više, neće biti uspješnih pokušaja da se šteta od požara minimizira eliminacijom vatrogasnih jedinica[5 ] . Korelacija ove dvije veličine može ukazivati ​​na postojanje zajedničkog uzroka, iako sami fenomeni nemaju direktnu interakciju. Na primjer, zaleđivanje uzrokuje i povećanje ozljeda zbog padova i povećanje nesreća među vozilima. U ovom slučaju će biti u korelaciji dvije veličine (povrede uslijed pada pješaka i saobraćajne nesreće), iako one nisu u uzročno-posledičnoj vezi jedna s drugom, već imaju samo vanjski zajednički uzrok – poledicu .

Istovremeno, nedostatak korelacije između ove dvije veličine ne znači da ne postoji veza između njih. Na primjer, ovisnost može imati složenu nelinearnu prirodu koju korelacija ne otkriva.

Neki tipovi koeficijenata korelacije mogu biti pozitivni ili negativni. U prvom slučaju pretpostavlja se da možemo utvrditi samo prisustvo ili odsustvo veze, au drugom i njen smjer. Ako se pretpostavi da je na vrijednosti varijabli postavljen strogi odnos reda , onda je negativna korelacija korelacija u kojoj je povećanje jedne varijable povezano sa smanjenjem druge. U ovom slučaju, koeficijent korelacije će biti negativan. Pozitivna korelacija pod takvim uslovima je ona u kojoj je povećanje jedne varijable povezano sa povećanjem druge varijable. Također je moguće da ne postoji statistička veza - na primjer, za nezavisne slučajne varijable .

Indikatori korelacije

Metoda za izračunavanje koeficijenta korelacije zavisi od vrste skale kojoj varijable pripadaju. Dakle, za mjerenje varijabli intervalnim i kvantitativnim skalama potrebno je koristiti Pirsonov koeficijent korelacije (korelacija momenata rada). Ako barem jedna od dvije varijable ima ordinalnu skalu, ili nije normalno raspoređena , potrebno je koristiti Spearmanovu rang korelaciju, ili (tau) Kendall. U slučaju kada je jedna od dvije varijable dihotomna , koristi se dvoredna korelacija, a ako su obje varijable dihotomna , koristi se korelacija četiri polja. Izračunavanje koeficijenta korelacije između dvije ne-dihotomne varijable ima smisla samo kada je odnos između njih linearan (jednosmjeran).

Parametrijski pokazatelji korelacije

Kovarijansa

Važna karakteristika zajedničke distribucije dvije slučajne varijable je kovarijansa (ili korelacijski moment ). Kovarijansa je zajednički centralni moment drugog reda[6] . Kovarijansa je definirana kao matematičko očekivanje proizvoda odstupanja slučajnih varijabli[7] :

,

gdje - matematičko očekivanje (u literaturi na engleskom jeziku oznaka od očekivane vrijednosti ).

Kovarijansna svojstva :

  • Kovarijansa dvije nezavisne slučajne varijable i jednaka je nuli[8] .
  • Apsolutna vrijednost kovarijanse dvije slučajne varijable i ne prelazi geometrijsku sredinu njihovih varijansi : [9] .
  • Kovarijansa ima dimenziju jednaku proizvodu dimenzije slučajnih varijabli, odnosno veličina kovarijanse zavisi od mernih jedinica nezavisnih veličina. Ova karakteristika kovarijanse otežava je korištenje za korelacijske analize[8] .

Koeficijent linearne korelacije

Da bi se eliminisao nedostatak kovarijanse, uveden je linearni koeficijent korelacije (ili Pearsonov koeficijent korelacije ), koji su razviliCarl Pearson , Francis Edgeworth i Raphael Weldon 1890-ih. Koeficijent korelacije se izračunava pomoću formule [10][8] :

gdje , Je prosječna vrijednost uzoraka.

Koeficijent korelacije varira od minus jedan do plus jedan [11] .

Koeficijent linearne korelacije povezan je sa koeficijentom regresije u obliku sljedećeg odnosa: gdje - koeficijent regresije, - standardna devijacija odgovarajućeg faktorskog atributa [12] . Odnos koeficijenta regresije prema standardnoj devijaciji Y je nezavisan od Y jedinica.

Neparametarske korelacijske metrike

Kendallov koeficijent korelacije ranga

Koristi se za identifikaciju odnosa između kvantitativnih ili kvalitativnih indikatora, ako se mogu rangirati. Vrijednosti indikatora X postavljaju se uzlaznim redoslijedom i dodjeljuju im se rangovi. Vrijednosti Y indikatora se rangiraju i izračunava Kendall koeficijent korelacije:

,

gdje ...

- ukupan broj opservacija koje prate trenutna zapažanja sa velikom vrijednošću rangova Y.

- ukupan broj zapažanja nakon tekućih zapažanja sa nižom vrijednošću rangova Y. (jednaki rangovi se ne uzimaju u obzir!)

Ako se proučavani podaci ponavljaju (imaju iste rangove), tada se u proračunima koristi Kendallov korigirani koeficijent korelacije:

- broj povezanih činova u redu X i Y, respektivno.

Spearmanov koeficijent korelacije ranga

Stepen zavisnosti dvije slučajne varijable (osobine) i može se okarakterisati na osnovu analize dobijenih rezultata ... Svaki indikator i dodelio čin. Vrijednosni rangovi raspoređeni prirodnim redom ... Rang napisano kao i odgovara rangu tog para za koji čin je jednako sa ... Na osnovu dobijenih činova i izračunavaju se njihove razlike a izračunava se Spearmanov koeficijent korelacije:

Vrijednost koeficijenta se mijenja od −1 (nizovi rangova su potpuno suprotni) do +1 (nizovi rangova su potpuno isti). Vrijednost nula označava da su karakteristike neovisne.

Koeficijent korelacije Fehnerovih znakova

Izračunava se broj podudarnosti i nepodudarnosti znakova odstupanja vrijednosti indikatora od njihove prosječne vrijednosti.

C je broj parova za koje se poklapaju znaci odstupanja vrijednosti od njihovih srednjih vrijednosti.

H je broj parova kod kojih se znaci odstupanja vrijednosti od njihove srednje vrijednosti ne podudaraju.

Višestruki koeficijent korelacije

Koeficijent korelacije više rangova (konkordancija)

- broj grupa koje su rangirane.

Broj varijabli.

- čin -faktor y -jedinice.

značaj:

, onda se hipoteza da nema veze odbacuje.

U slučaju srodnih rangova:

Svojstva koeficijenta korelacije

ako kao skalarni proizvod dvije slučajne varijable uzmemo kovarijansu , tada će norma slučajne varijable biti jednaka , a posljedica nejednakosti Cauchy - Bunyakovsky bit će:
...
  • Koeficijent korelacije je ako i samo ako i linearno zavisna (isključujući događaje nulte vjerovatnoće, kada je nekoliko tačaka "izbijeno" iz prave linije što odražava linearnu zavisnost slučajnih varijabli):
,
gdje ... Štaviše, u ovom slučaju znakovi i poklopiti:
...
  • Пусть случайные величины такие, что , . Тогда: , где - условное математическое ожидание.
  • Если независимые случайные величины, то . Обратное в общем случае неверно.

Корреляционный анализ

Корреляционный анализ — метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более переменными. Корреляционный анализ тесно связан с регрессионным анализом (также часто встречается термин « корреляционно-регрессионный анализ », который является более общим статистическим понятием), с его помощью определяют необходимость включения тех или иных факторов в уравнение множественной регрессии, а также оценивают полученное уравнение регрессии на соответствие выявленным связям (используя коэффициент детерминации )[1][2] .

Ограничения корреляционного анализа

Множество корреляционных полей. Распределения значений с соответствующими коэффициентами корреляций для каждого из них. Коэффициент корреляции отражает «зашумлённость» линейной зависимости (верхняя строка), но не описывает наклон линейной зависимости (средняя строка), и совсем не подходит для описания сложных, нелинейных зависимостей (нижняя строка). Для распределения, показанного в центре рисунка, коэффициент корреляции не определен, так как дисперсия y равна нулю.
  1. Применение возможно при наличии достаточного количества наблюдений для изучения. На практике считается, что число наблюдений должно не менее чем в 5-6 раз превышать число факторов (также встречается рекомендация использовать пропорцию, не менее чем в 10 раз превышающую количество факторов). В случае если число наблюдений превышает количество факторов в десятки раз, в действие вступает закон больших чисел , который обеспечивает взаимопогашение случайных колебаний [13] .
  2. Необходимо, чтобы совокупность значений всех факторных и результативного признаков подчинялась многомерному нормальному распределению . В случае если объём совокупности недостаточен для проведения формального тестирования на нормальность распределения, то закон распределения определяется визуально на основе корреляционного поля . Если в расположении точек на этом поле наблюдается линейная тенденция, то можно предположить, что совокупность исходных данных подчиняется нормальному закону распределения [14] .
  3. Исходная совокупность значений должна быть качественно однородной [13] .
  4. Сам по себе факт корреляционной зависимости не даёт основания утверждать, что одна из переменных предшествует или является причиной изменений, или то, что переменные вообще причинно связаны между собой, а не наблюдается действие третьего фактора[5] .

Область применения

Данный метод обработки статистических данных весьма популярен в экономике , астрофизике и социальных науках (в частности в психологии и социологии ), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение , агрохимия , гидробиология , биометрия и прочие. В различных прикладных отраслях приняты разные границы интервалов для оценки тесноты и значимости связи.

Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.

См. также

Примечания

Литература

  • Гмурман В. Е. ru uk . Теория вероятностей и математическая статистика: Учебное пособие для вузов. — 10-е издание, стереотипное. — Москва: Высшая школа, 2004. — 479 с. — ISBN 5-06-004214-6 .
  • Елисеева И. И. , Юзбашев М. М. Общая теория статистики: Учебник / Под ред. И. И. Елисеевой. — 4-е издание, переработанное и дополненное. — Москва: Финансы и Статистика, 2002. — 480 с. — ISBN 5-279-01956-9 .
  • Общая теория статистики: Учебник / Под ред. Р. А. Шмойловой . — 3-е издание, переработанное. — Москва: Финансы и Статистика, 2002. — 560 с. — ISBN 5-279-01951-8 .
  • Суслов В. И., Ибрагимов Н. М., Талышева Л. П., Цыплаков А. А. Эконометрия. — Новосибирск: СО РАН, 2005. — 744 с. — ISBN 5-7692-0755-8 .

Ссылки