Przypuśćmy, że interesują nas dwie zmienne metryczne (mam nadzieję, że znasz to pojęcie, jeśli nie odszukaj informację na ten temat). Jedną jest wskaźnik BMI (Body Mass Index - wiesz co to takiego?) drugą czas uzyskany w biegu na 100m. Jakiego związku między tymi zmiennymi można się spodziewać? Oczekiwałbym, że im wyższy jest wskaźnik BMI, tym więcej czasu potrzebuje człowiek na pokonanie określonego dystansu. Dlaczego? Cóż! BMI oznacza relację między masą a wzrostem (wysokie wyniki wskazują na otyłość). Nadmiar kilogramów zapewne spowalnia biegacza. "Teorię" wyjaśniającą więc mamy. Pozostaje sprawdzić hipotezę wynikającą z tej naiwnej teorii.
Co będzie nam potrzebne? Po pierwsze wskaźniki. Do obliczenia BMI potrzebna będzie informacja od osób badanych na temat ich masy ciała i wzrostu. Wystarczy zapytać, choć lepiej byłoby każdego zmierzyć i zważyć. Do obliczenia czasu w biegu na sto metrów potrzebna będzie bieżnia i stoper. Po drugie - próba. Na kim przeprowadzimy badanie? Powiedzmy - na uczniach szkoły ponadpodstawowej. Ilu uczniów należy zbadać? Oczywiście są formuły matematyczne, które pozwalają to wyliczyć. Na ten moment przyjmijmy na niby, że wystarczy 20 osób.
Czy o czymś zapomnieliśmy? No jasne! O korelacji! A co to takiego?
Korelacja jest wystandaryzowaną kowariancją. W tym momencie zupełnie nic Ci to nie mówi ale nie przejmuj się. Zaraz się dowiesz.
Wariancja to miara zmienności cechy. Jeśli w jakimś zbiorze obserwacji zobaczysz, że wszystkie one są identyczne, to wariancja wynosi zero (cecha nie ma żadnej zmienności - jest stałą a nie zmienną). Jeśli natomiast obserwacje są różne, to im większe różnice między obiektami zbioru, tym większa jest wariancja. Z definicji każda zmienna ma wariancję!
Jeśli zmienna jest metryczna, wówczas wariancję można zapisać w postaci liczby. Liczbą tą jest średni kwadrat indywidualnego odchylenia od średniej w zbiorze. Słowem - mierzysz wynik każdej z 20 osób w biegu na sto metrów. Liczysz średnią arytmetyczną dla tego zbioru. Każdej osobie obliczasz różnicę między jej wynikiem a średnim w zbiorze a potem każdą różnicę podnosisz do kwadratu. Następnie sumujesz wszystkie kwadraty, by podzielić sumę kwadratów przez liczbę badanych osób. Wyliczyłeś/aś w ten sposób wariancję osiągnięć biegowych dla badanego zbioru danych, czyli całkowitą zmienność interesującej nas cechy. Jako że BMI jest również zmienną metryczną, to nic nie stoi na przeszkodzie, by w analogiczny sposób i dla tej zmiennej wyliczyć wariancję.
W literaturze używa się też innej miary zmienności dla zmiennych metrycznych - jest nią odchylenie standardowe. Odchylenie standardowe jest po prostu pierwiastkiem z wariancji. Przyjęło się w opisach rozkładu zmiennych metrycznych podawać średnią i odchylenie standardowe. Użycie w opisie wyników badań wartości średniej bez podania odchylenia standardowego jest poważnym błędem. Dlaczego? Oto dwie serie pomiarów określonej zmiennej 4, 4, 4, 4 oraz 1, 1, 7, 7. Porównując tylko średnie możesz uznać, że obie serie są identyczne a przecież gołym okiem widać, że czymś się różnią. Tym czymś jest rozproszenie wyników wokół średniej - w pierwszej serii nie ma zmienności a w drugiej jest i to spora.
Jeśli naukowiec obserwuje zmienność jakiegoś zjawiska, to zwykle rozważa również źródła tej zmienności albo jej konsekwencje. Słowem - szuka związków między zmiennymi.
Przypomnij sobie, że w badaniu naukowym wyjaśniamy zmienność zjawisk zmiennością innych zjawisk. W naszym przypadku będziemy wyjaśniać zmienność osiągnięć w biegu na 100m zmiennością wskażnika BMI. Jeśli występuje związek między wynikami w biegu a BMI, to znaczy że część wariancji czasu w biegu można wyjaśnić wariancją BMI. Mówimy, że zmienne te charakteryzuje współzmienność czyli kowariancja. Oczywiście możesz znaleźć wzór na kowariancję. Jeśli to zrobisz - brawo! Nas jednak interesuje korelacja, a ta jest po prostu pochodną kowariancji. Z pewnych względów wygodniej jest posługiwać się korelacją a nie kowariancją (i na tym poprzestańmy).
Miarą korelacji jest współczynnik korelacji. Jest liczba w przedziale od -1 do 1, zapisywana jako ułamek dziesiętny (zwykle z dokładnością do 2-3 miejsc po przecinku). Jeśli współczynnik korelacji wynosi w badanym zbiorze 0, to oznacza że wartości jednej zmiennej są przyporządkowane losowo wartościom drugiej zmiennej. Nie występuje w takim zbiorze związek między zmiennymi. Jeśli współczynnik korelacji jest powyżej zera, to oznacza, że im wyższą wartość przybiera jedna zmienna, tym wyższą wartość przybiera druga. Jeśli współczynnik jest poniżej zera, to im wyższa jest wartość jednej zmiennej, tym niższa drugiej. Im mocniej wartość współczynnika odbiega od zera na plus albo na minus, tym silniejszy jest związek między zmiennymi.
Kowariancja i korelacja opisują związki probablistyczne a nie funkcyjne. O funkcji powiemy, gdy określonej wartości zmiennej X można przypisać jedną i tylko jedną wartość zmiennej Y. W przypadku zależności probalistycznych jednej wartości X może odpowiadać więcej niż jedna wartość Y, a więc wartościom zmiennej X są przyporządkowane ściśle określone wartości średnie zmiennej Y.
Graficzną reprezentacją funkcji jest zawsze linia prosta lub krzywa wpisana w układ współrzędnych, natomiast graficzną prezentacją zależności probablistycznej jest chmura punktów - mniej lub bardziej zbliżonych do linii obrazującej funkcję. Można powiedzieć, że im więcej obserwacji w zbiorze lokuje się blisko linii określonej funkcji, tym silniejsza jest korelacja. Korelacja dwóch zmiennych może być tożsama z funkcją, jeśli wszystkie obserwacje w zbiorze lokują się na linii obrazującej ową funkcję. Jeśli w zbiorze danych występuje korelacja między zmiennymi, to w chmurze współrzędnych opisujących elementy próby można wyznaczyć linię funkcji, która lepiej niż pozostałe opisuje zależność między zmiennymi (jest to linia regresji).
Istnieje kilka współczynników korelacji do wykorzystania w badaniach empirycznych. Najbardziej znany jest współczynnik korelacji Pearsona (zwany niekiedy współczynnikiem korelacji według momentu iloczynowego). Jest to współczynnik wzorcowy, z którym porównuje się alternatywne współczynniki korelacji. Oznacza się go symbolem r. Współczynnik korelacji Pearsona jest testem parametrycznym, co oznacza, że jego użycie jest sensowne po spełnieniu kilku warunków (metryczny poziom skali pomiarowej, obie zmienne mają rozkład normalny lub w jednakowy sposób odbiegają od normalności, wariancje obu zmiennych są podobne, próba jest duża - minimum 30-50 osób). Jeśli te warunki nie są spełnione, to zaleca się użycie nieparametrycznego współczynnika korelacji (np. współczynnika korelacji Spearmana lub Kendalla dla danych rangowych - trzeba wówczas przeliczyć dane metryczne na rangi). W przypadku współczynnika korelacji testowana jest hipoteza zerowa mówiąca że w populacji generalnej korelacja między zmiennymi wynosi 0 (czyli brak jakiegokolwiek związku między zmiennymi). Ogólnie można powiedzieć, że im bardziej współczynnik w próbie odbiega na plus albo na minus od zera, tym hipoteza zerowa jest mniej prawdopodobna. Wyznaczenie prawdopodobieństwa hipotezy zerowej wymaga odniesienia obliczonej wielkości korelacji do liczebności próby.
Procedurę dokładnego obliczania wartości p dla współczynnika korelacji pominę. Obliczenia zrobi za nas program statystyczny lub specjalny kalkulator istotności korelacji, jeśli wpiszemy "w okienka" korelację i liczebność zbioru. Program statystyczny wymaga wprowadzenia wszystkich surowych danych do arkusza kalkulacyjnego ale odpłaci nam automatycznym wyliczeniem wszystkiego co trzeba a często jeszcze zilustruje korelację eleganckim wykresem. Kalkulator statystyczny wymaga uprzedniego obliczenia "na piechotę" współczynnika korelacji, co bywa uciążliwe. Jeśli więc w zbiorze musimy wyliczyć zależności między dużą liczbą zmiennych a sama próba jest duża, to rozsądną opcją jest użycie programu statystycznego, lecz jeśli próba jest niewielka a zmiennych mało, to można rozważyć wykonanie obliczeń korelacji samodzielnie a potem sprawdzenie istotności za pomocą kalkulatora statystycznego lub przy użyciu tablic statystycznych.
Współczynnik korelacji Pearsona ma ciekawą właściwość - jeśli podniesiemy go do kwadratu i pomożymy przez 100%, to uzyskana liczba powie nam jaki procent obserwacji w zbiorze lokuje się na linii regresji, czyli w stosunku do jakiego odsetka próby można dokładnie przewidzieć wartości jednej zmiennej na podstawie wartości drugiej zmiennej. Jest to tak zwany współczynnik determinacji - bardzo użyteczny wskaźnik, określający moc predykcji formułowanych na podstawie badań.
Do tej pory mówiliśmy o współczynniku korelacji Pearsona i jego odpowiednikach dla skali rangowej (współczynnik Spearmana czy Kendalla). Co jednak, gdy interesuje nas korelacja pomiędzy cechami jakościowymi? O tym również mówiliśmy, tyle że w poprzednim artykule dotyczącym testu chi-kwadrat. Jeśli nasze dane są jakościowe (nominalne), to możemy użyć kilka pochodnych wartości chi-kwadrat, które można interpretować jak współczynnik korelacji. Była mowa o współczynniku V Cramera. Dodajmy jeszcze współczynnik C Pearsona. Ten ostatni ma dość istotną wadę - nie osiąga wartości 1 a im mniej pól ma tabela, tym jego wartość maksymalna jest niższa, np dla tabel 2x2 wartość Cmax wynosi 0,707. Jeśli więc chcielibyśmy zapewnić porównywalność współczynników C obliczonych dla tabel różnych wielkości, to musielibyśmy znaleźć dla każdej tabeli Cmax i wartość C dla danej tabeli podzielić przez Cmax uzyskując w ten sposób skorygowaną wartość C (Cskor, którą można interpretować jak r Pearsona).
Istnieją też nie tak rzadkie przypadki, gdy jedna zmienna mierzona jest na poziomie metrycznym a druga jest rangowa lub nominalna. W pierwszym przypadku musimy przeliczyć zmienną metryczną na rangi i użyć korelacji dla skali rangowej albo obie zmienne sprowadzić do postaci nominalnej i policzyć chi-kwadrat oraz pochodne współczynniki korelacji (V lub C). Jeśli jedna zmienna jest metryczna a druga nominalna to tę metryczną musimy sprowadzić do postaci nominalnej i wyliczyć korelację na podstawie testu chi-kwadrat; ewentualnie, gdy cecha nominalna jest dwuwartościowa, można skorzystać ze współczynnika korelacji dwuseryjnej lub korelacji punktowo-dwuseryjnej (oba są przekształceniami formuły r Pearsona).
Współczynnik korelacji, jaki by to nie był współczynnik, obrazuje siłę związku między zmiennymi w badanym zbiorze (czyli w próbie). Podobnie jak w przypadku każdej innej statystyki obliczonej dla konkretnej próby, pojawia się zatem problem wiarygodności uogólnienia tej statystyki na populację generalną. Oznacza to, że na badaczu ciąży obowiązek udokumentowania reprezentatywności próby (przypomnę o warunkach: losowego pobrania próby z populacji generalnej oraz wystarczającej liczebności próby) a także wyliczenia lub określenia na podstawie tablic statystycznych poziomu istotności korelacji (współczynnik p, określający prawdopodobieństwo hipotezy zerowej, która mówi, że w populacji generalnej współczynnik korelacji wynosi 0). Za istotne uznamy najczęściej korelacje dla których p<0,05.
Podając współczynnik korelacji (r) musimy zawsze podać liczbność próby (N) oraz wartość współczynnika istotności (p). Dobrym zwyczajem jest ilustrowanie współczynnika korelacji wykresem korelacyjnym (chmura punktów w układzie współrzędnych obrazująca zależność) a w przypadku zmiennych nominalnych prezentacja wykresu lub tabeli pozwalającej zobrazować wykrytą tendencję.