W niektórych analizach istnieje potrzeba zredukowania dużej liczby różnych cech do mniejszej liczby ogólnych kategorii. Narzędziem przydatnym jest wówczas analiza czynnikowa. Czasem badacz konstruujący jakieś narzędzie badawcze zakłada, że będzie ono mierzyć określoną liczbę cech i do każdej z nich przygotowuje osobny zestaw wielu wskaźników. Problem polega na tym, że nie wiadomo, czy owe wskaźniki rzeczywiście odpowiadają tym cechom, do pomiaru których zostały wymyślone. Tu również przydatna będzie analiza czynnikowa. Czym jest przywołana tu metoda analizy? Tego dowiesz się czytając ten artykuł.
Podstawowe założenie stojące u podstaw tej metody jest dość proste. Otóż zakładamy, że jeśli wartości wielu różnych cech są wzajemnie skorelowane (każda cecha koreluje z każdą inną z interesującego nas zestawu), to korelacje, o których mowa wynikają z tego, iż każda z interesujących nas cech (zmiennych jawnych - tak je nazywamy, bo możemy je zaobserwować lub ocenić choćby pośrednio) jest skorelowana z jedną nieobserwowalną cechą (nazywamy ją zmienną ukrytą, gdyż nie jest przedmiotem pomiaru, lecz o jej istnieniu możemy tylko wnioskować na podstawie korelacji między zmiennymi jawnymi).
Podam teraz uproszczony przykład. Obserwując ludzi możesz dojść do wniosku, że (1) jeśli ktoś mówi zwykle dzień dobry na powitanie, to z reguły (2) mówi też przepraszam, gdy kogoś czymś urazi oraz (3) ustępuje w tramwaju miejsca osobom starszym i (4) elegancko ubiera się idąc do teatru. Wszystkie te zachowania są wzajemnie skorelowane, choć trudno powiedzieć, że jedno zachowanie jest przyczyną innego. Jeśli ktoś przejawia jedno, to przeważnie przejawia też inne a jeśli ktoś nie przejawia określonego zachowania, to przeważnie nie przejawia też pozostałych. Oczywiście od reguły są wyjątki ale ogólna tendencja jest taka, jak podałem. Pomyśl, skąd takie uporządkowanie ludzkich zachowań? Odpowiedź jest dość oczywista osoby, które przejawiają podane zachowania odebrały "dobre wychowanie", czyli są "dobrze wychowane". Osobom, które nie przejawiają tego typu zachowań brakuje cech indywidualnej - dobrego wychowania. Wskazaliśmy w ten sposób ukryte źródło zmienności zachowań społecznych - nie obserwując procesu wychowawczego tych ludzi, możemy z treści ich konkretnych zachowań wywnioskować jakie odebrali wychowanie.
Analiza czynnikowa takiemu wnioskowaniu nadaje podstawę matematyczną. Nie mam zamiaru nękać Was formułami matematycznymi. Podam jednak kilka kluczowych pojęć dla omawianej metody statystycznej. Podstawą jest pojęcie korelacji, które powinieneś/powinnaś już znać (jeśli nie, to cofnij się do odpowiedniego artykułu na tym blogu). Drugim ważnym pojęciem jest czynnik, czyli hipotetyczna (ukryta, latentna, nieobserwowana) zmienna, która wyjaśnia zmienność cech bezpośrednio objętych badaniem (np. odpowiedzi na określone pytania kwestionariusza). Trzecim pojęciem jest ładunek czynnikowy - można go rozumieć jako współczynnik korelacji pomiędzy zmienną jawną a czynnikiem.
W analizie czynnikowej badacz musi sam podjąć decyzję o tym, jaką techniką wyodrębniania czynników się posłuży (jest ich kilka i mogą prowadzić do nieco różnych rozwiązań, najbardziej popularnym wariantem jest metoda głównych składowych (principal components) oraz metoda czynników głównych (principal factors). Mimo podobieństw matematycznie są to różne metody. Pomijam jednak szczegółowe rozważanie tej kwestii. Wystarczy na ten moment wiedzieć, że pierwsza z tych metod prowadzi z reguły do wyodrębnienia większej liczby czynników aniżeli ta druga.
Innym ważnym pojęciem w analizie czynnikowej jest wartość własna (eigenvalue). Jest to ważna wielkość, ponieważ od niej zależy decyzja o tym, ile czynników można wydobyć z macierzy korelacji zmiennych poddawanych analizie. Zwykle bierze się pod uwagę liczbę czynników o wartościach własnych powyżej 1. Czym więc są wartości własne? Są one miarą tego, w jakim stopniu wariancja obserwowanych zmiennych wyjaśnia dany czynnik. Każdy czynnik o wartości własnej >1 wyjaśnia więcej wariancji niż pojedyncza obserwowana zmienna. Gdyby zatem z pięciu zmiennych jawnych utworzył się jeden czynnik o wartości własnej równej 2, to wyjaśniałby on 2/5 zmienności tych pięciu zmiennych. Gdyby kolejny czynnik w tej samej analizie miał wartość własną 1, to oba czynniki wyjaśniałyby 3/5 zmienności z tych pięciu jawnych zmiennych. Wykonując analizę czynnikową badacz musi na wstępie zdecydować czynniki o jakiej wartości własnej mają znaleźć się w rozwiązaniu czynnikowych (zwykle zaznacza się wartość >1, choć czasem odstępuje się od tej reguły).
Kolejnym pojęciem jest rotacja czynników. Polega ona na wyznaczeniu wartości czynnikowych w sposób, który najbardziej pasuje do zadanego rozwiązania czynnikowego. Owe rozwiązania mogą być dwojakiego rodzaju - ortogonalne (czynniki są wzajemnie niezależne) albo ukośne (czynniki są wzajemnie skorelowane). Badacz musi zdecydować przed analizą, jakiego rozwiązania poszukuje. Musi więc dysponować jakąś "teorią", która pozwoli mu w tej materii podjąć decyzję. Jeśli takiej teorii nie ma, to bezpieczniej przyjąć rozwiązanie ukośne - jeśli czynniki w rzeczywistości są niezależne, to mimo użycia rotacji ukośnej i tak pojawią się jako niezależne. Użycie rotacji ortogonalnej do opisania nieortogonalnej struktury rzeczywistej byłoby zniekształceniem rzeczywistości. Najbardziej popularną metodą rotacji ortogonalnej jest metoda Varimax, a najbardziej popularną metodą rotacji ukośnej jest metoda Oblimin (obie są dostępne w pakiecie SPSS, w innych programach różnie bywa i czasem mamy w opcjach tylko rotacje ortogonalne).
Rezultaty analizy czynnikowej przedstawiane są za pomocą macierzy czynnikowej. Jest to prostokątna tabela, w kolumnach której opisane są kolejne czynniki wyodrębnione w analizie przy użyciu ładunków czynnikowych odpowiadającym poszczególnym zmiennym jawnym (jeden wiersz w tabeli to jedna zmienna jawna, a jedna kolumna pionowa to jeden czynnik). Ładunki czynnikowe są standaryzowanymi współczynnikami regresji zmiennych jawnych względem czynników. Im bardziej odbiega o zera (na plus lub na minus) ładunek czynnikowy, tym silniejszy jest związek czynnika z daną zmienną jawną. Zmienne o najwyższych ładunkach względem danego czynnika pozwalają najwięcej wywnioskować na temat jego natury.
Przykład ze strony https://www.theanalysisfactor.com
Zauważ dwa czynniki (factor 1 i factor 2). W lewej kolumnie masz nazwy zmiennych. Przedmiotem badania był status socjo-ekonomiczny respondentów. Okazał się on kategorią niejednorodną, bo ujawniły się dwa a nie jeden ogólny czynnik. Dochody, wykształcenie i prestiż zawodu utworzyły jeden czynnik a wartość posiadanego lokum, liczba skwerów miejskich w sąsiedztwie i nasilenie przestępczej przemocy w sąsiedztwie utworzyły drugi czynnik. Nawiasem mówiąc coś w tych danych jest nie tak. Mam na myśli znaki w ostatnim wierszu tabeli, które są dodatnie (co by oznaczało, że przestępczość agresywna lokuje się w pobliżu bogatych domostw i najlepszych terenów rekreacyjnych). Prawdopodobnie autorzy tego przykładu zapomnieli o minusie przed ładunkiem czynnikowym. Zastanów się, jaką nazwę wymyślić dla każdego z tych czynników?
Na dzisiaj to tyle!