Piotr Kwiatkowski pedagog » Jednokierunkowa (jednoczynnikowa) analiza wariancji (ANOVA)-2

Analiza wariancji (ANOVA) jest jedną z najbardziej popularnych technik statystycznych. Jest więc przykładem tego co stare i sprawdzone. Użyteczność jej jest ogromna, ponieważ można ją wykorzystać nie tylko w badaniach eksperymentalnych, do których nadaje się idealnie, lecz również w analizie danych z sondaży, gdzie pozwala na dokonywanie porównań międzygrupowych.

Pojęciem kluczowym dla procedury ANOVA jest wariancja czyli miara zmienności danych w zbiorze (była już o niej mowa w innym tekście). Jeśli dane są przedziałowe lub ilorazowe czyli metryczne zwane też mierzalnymi (dysponujemy wartością zero i standardową jednostką pomiaru), wówczas wariancja oznacza średni kwadrat odchylenia od średniej w zbiorze (pierwiastek wariancji nazywamy odchyleniem standardowym). Przyjęto, że wariancję dla populacji generalnej (wszystkie osoby spełniające kryteria wyboru) liczy się inaczej niż wariancję dla próby (części populacji generalnej). W przypadku próby liczebność zbioru (N) pomniejszamy o jeden (N-1). W literaturze znajdziemy też informację, że jeśli próba jest duża (cokolwiek to znaczy), wówczas wariancję liczy się bez pomniejszania liczby obserwacji o jeden.

Miara ta może być rozbita na dwie części – na wariancję wyjaśnioną przynależnością do dwóch lub więcej grup (wariancja międzygrupowa) oraz pozostałą część, której nie wyjaśnia przynależność do grup (wariancja wewnątrzgrupowa, nazywana też wariancją błędu). Stosunek wariancji międzygrupowej do wariancji błędu (czyli – mówiąc inaczej – stosunek wariancji wyjaśnionej do wariancji niewyjaśnionej przynależnością do grup) jest podstawą wnioskowania o istotności różnic między grupami.

Najprostsze przykłady (tylko dla ilustracji istoty metody)

Badamy cztery osoby – dwie kobiety i dwóch mężczyzn – jakimś testem np. wiedzy o technice. Zamierzamy dowiedzieć się, czy kobiety i mężczyzmi różnią się poziomem wiedzy o technice.

Sytuacja pierwsza. Okazuje się, że mężczyźni uzyskali wynik 4 i 4 a kobiety 3 i 3. Co to oznacza w kategoriach „wariancyjnych”? Kobiety różnią się od mężczyzn wiedzą techniczną a przynależność do grup płciowych jest tutaj jedynym źródłem zmienności, ponieważ kobiety nie różnią się między sobą wiedzą o technice, podobnie jak mężczyźni (wariancja wewnątrz badanych grup wynosi więc zero).

Wyobraźmy sobie teraz inną sytuację. Kobiety uzyskały wyniki 3 i 4 a mężczyźni również 3 i 4. Oznacza to, że wariancja między grupami wynosi zero (gdyż obie grupy są takie same – średnia 3,5) ale wariancja wewnątrz grup istnieje. W tym przypadku można o niej powiedzieć, że wariancja wewnątrz grup jest równa całkowitej wariancji w zbiorze. W naszej próbie nie ma zatem żadnego związku między płcią a wiedzą techniczną.

A teraz trzecia sytuacja. Kobiety miały wyniki 2 i 4 a mężczyźni 3 i 5. W tym przypadku istnieje zarówno wariancja międzygrupowa (średnia dla podzbioru kobiet wynosi 3 a dla mężczyzn 4), jak i wariancja wewnątrzgrupowa (ponieważ w każdym podzbiorze mamy jakieś zróżnicowanie wyników).

W sytuacjach podobnych do tej ostatniej potrzebne będzie testowanie statystyczne, które odpowie na pytanie, czy wariancja międzygrupowa w próbie jest na tyle duża w porównaniu z wariancją wewnątrzgrupową, że tę pierwszą można z niewielkim prawdopodobieństwem popełnienia błędu uznać za odzwierciedlenie prawidłowości występującej w populacji generalnej.

Oczywiście próby liczące po dwie osoby są zbyt małe, by jakikolwiek test statystyczny mógł być wiarygodny (w zasadzie nie ma sensu obliczanie testów, gdy porównywane podgrupy są mniejsze niż 10 obserwacji (w niektórych testach za absolutne minimum przyjmuje się 5 obserwacji dla każdej podgrupy).

Teraz pora omówić procedurę obliczania testu statystycznego dla analizy wariancji. Obliczeń dokonamy za pomocą programu statystycznego. Zalecam zapoznanie się z procedurą wykonania obliczeń przy użyciu specjalnego kalkulatora statystycznego w internecie oraz całkiem samodzielnie metodą papier-ołówek. Każdy podręcznik statystyki zawiera opis i wzory do zastosowania.

Najpierw musimy przygotować zbiór danych do obliczeń. Możemy przygotować go w dowolnym arkuszu kaltulacyjnym, który pozwala na zapis w formacie excela (xls, xlsx) albo bezpośrednio. Pamiętajmy, że każdy program statystyczny wymaga, aby zmienne zajmowały kolumny pionowe a poszczególne przypadki – wiersze poziome.

W naszym przykładzie zbiór będzie zawierał tylko dwie zmienne (czyli dwie kolumny) oraz 24 osoby badane (czyli dwadzieścia cztery wiersze). Przyjmijmy, że badania mają sprawdzić związek płci z poziomem agresywności słownej dzieci w początkowych klasach szkoły podstawowej czyli będziemy szukać różnicy pomiędzy chłopcami a dziewczętami pod względem średniego poziomu agresji słownej. Każde dziecko podlega obserwacji i odnotowane jest krzyczenie na inne dziecko, używanie obelg lub dokuczanie. Liczba takich zachowań w ciągu tygodnia jest wskaźnikiem nasilenia agresji. Niżej podaję (fikcyjne) wyniki obserwacji.