Czy istnieje związek między karaniem fizycznym dzieci przez rodziców a agresywnością dzieci w przedszkolu? Skoro takie pytanie przyszło nam do głowy, to znaczy, że domyślamy się lub intuicyjnie czujemy, że coś jest na rzeczy. W świetle wiedzy o frustracyjnym i naśladowczym tle agresji możemy sformułować przypuszczenie (nazywamy je hipotezą), że dzieci doświadczające rodzicielskich kar fizycznych częściej przejawiają agresję wobec innych dzieci w przedszkolu. Możemy bowiem uznać karę fizyczną za źródło frustracji (tłumi ona zachowanie atrakcyjne dla dzieci, pogarsza samopoczucie dziecka, które czuje się niekochane). Z drugiej strony karanie samo w sobie jest czynnością agresywną, gdyż jego celem lub akceptowaną konsekwencją jest spowodowanie cierpienia. Rodzic karzący staje się więc modelem, czyli dostarcza wzorca zachowania agresywnego lub agresywnej intencji. Mamy więc przynajmniej dwa mechanizmy psychologiczne, które uzasadniają naszą hipotezę. Ta oczywiście jest dość trywialna ale chodzi tu o przykład a nie pomysł na miarę Nobla. Warto wziąć sobie do serca regułę nakazującą wyprowadzać hipotezy z teorii - hipoteza może wprost wynikać z istniejącej teorii, może rozszerzać, uzupełniać lub uszczegółowiać jakąś teorię, może też być stawiana z zamiarem sfalsyfikowania jakiegoś twierdzenia teorii (jeśli taka hipoteza się potwierdzi, będzie to wskazywać na niedorzeczność tego twierdzenia).
Teraz wypadałby opracować projekt badania, które pozwoli ocenić słuszność postawionej hipotezy. Najpierw jednak musimy zastanowić się, jak zmierzyć dziecięce doświadczanie kar fizycznych oraz agresję dzieci wobec rówieśników w przedszkolu. Pomiar to bardzo istotne zagadnienie w badaniu naukowym. Chcemy więc, by nasz pomiar był precyzyjny i trafny - chodzi o to, by (1) skutecznie odróżnić dzieci karane od niekaranych oraz dzieci agresywne wobec innych dzieci w przedszkolu od dzieci nieagresywnych; albo (2) aby dokładnie określić nasilenie kar fizycznych i nasilenie agresji dzieci w przedszkolu. W pierwszym podejściu traktujemy kary fizyczne i agresję dziecka jako kategorie jakościowe (nominalne), podczas gdy w drugim przypadku potraktujemy je jako kategorie ilościowe (stopniowalne lub metryczne). Przyjęło się używać pojęcia skali pomiarowej - określającego dokładność pomiaru. Skale dzielimy na cztery rodzaje: nominalne (jakościowe), porządkowe (rangowe), przedziałowe (interwałowe) i ilorazowe (stosunkowe). Trzy ostatnie określamy jako skale ilościowe, zaś dwie ostatnie z nich jako metryczne (metryczne, gdyż nasilenie zmiennej jest określane przy użyciu standardowych jednostek pomiaru).
Opiszmy teraz każdą skalę. Skala nominalna oznacza przypisanie obiektu do jednej z dwóch lub więcej kategorii jakościowych (np. do grupy kobiet, albo do grupy mężczyzn). Skala porządkowa oznacza użycie liczby opisującej miejsce obiektu w szeregu rangowym (rankingu). Możemy więc pokazać, który obiekt jest większy, mniejszy, czy równy z innym obiektem pod względem nasilenia danej cechy, lecz nie możemy podać, o ile obiekty się różnią między sobą, gdyż nie mamy jednostki pomiaru. Skala przedziałowa pozwala określić dokładnie różnice między obiektami, gdyż pomiar jest dokonany z zastosowaniem standardowej jednostki pomiaru i przy odniesieniu tejże do wartości umownego zera (wartości na tej skali mogą być dodatnie i ujemne, co ogranicza zakres operacji arytmetycznych wykonalnych na danych tego rodzaju - nie można na przykład określić, ile razy jeden obiekt jest większy lub mniejszy od innego, lecz wskazać jedynie o ile standardowych jednostek jest on mniejszy lub większy). Skala ilorazowa jest równie dokładna, jak skala przedziałowa, lecz ma nad nią istotną przewagę - zamiast zera umownego w użyciu jest tutaj zero bezwzględne, co pozwala na wykonanie wszystkich możliwych działań arytmetycznych na danych (np. można określić, ile razy jeden obiekt jest większy od drugiego).
Przed wykonaniem badania musimy zdecydować, na którym poziomie będziemy prowadzić pomiar. Z naszej hipotezy wynika, że w grę wchodzi poziom nominalny (jakościowy), czyli że wystarczy odseparować dzieci agresywne od nieagresywnych oraz dzieci karane fizycznie od dzieci niekaranych fizycznie, i pogrupować je tak, by policzyć, ile jest dzieci agresywnych-karanych, agresywnych-niekaranych, nieagresywnych-karanych oraz nieagresywnych-niekaranych. Stosunkowo łatwo będzie nam określić agresywność dzieci. Najprościej poprosić nauczycieli o wskazanie dzieci zachowujących się agresywnie wobec innych dzieci. Można też zastosować obserwację próbek zdarzeń, czyli zaaranżować dzieciom sytuację, która będzie sprzyjać ujawnianiu agresji i zaobserwować, które dzieci "reagują" na tę manipulację a które nie. Znacznie poważniejszym wyzwaniem jest natomiast trafne wskazanie, które z dzieci jest karane fizycznie przez rodziców a które dziecko nie podlega takim oddziaływaniom. Domyślasz się zapewne, że pytanie rodziców, o to czy biją swoje dzieci, może być mocno obciążone czynnikiem aprobaty społecznej. Odpytywanie samych dzieci na tę okoliczność może budzić etyczne wątpliwości, a tzw. testy projekcyjne (w rodzaju diagnozy przemocy wobec dziecka na podstawie analizy rysunków) niektórzy uważają za wątpliwe z naukowego punktu widzenia. Ale! Kto powiedział, że badanie naukowe ma być łatwe? W wolnej chwili zastanów się, jak rozwiązać ten problem diagnostyczny. A na ten moment przyjmijmy, że został on już rozwiązany i udało się trafnie wytypować dzieci doświadczające kar fizycznych i dzieci bez takich doświadczeń w rodzinie.
Zgodnie z hipotezą oczekujemy, że w naszym zbiorze danych podzielonym na cztery kombinacje według dychotomicznych wartości obu zmiennych nominalnych, powinny liczebnie dominować dwie kategorie - agresywne-karane oraz nieagresywne-niekarane, co oznaczałoby, że dzieci karane są z reguły agresywne a dzieci niekarane są z reguły nieagresywne. Wyjątki od powyższej reguły, czyli przypadki niezgodne z treścią hipotezy powinny, powinny być w próbie stosunkowo rzadkie (dzieci agresywne-niekarane i nieagresywne-karane są owymi wyjątkami od reguły).
Jeśli tak właśnie jest, to niewykluczone, że nasza hipoteza jest słuszna ale... zasadne jest teraz pytanie o wiarygodność naszego wniosku w tej sprawie. Przypomnijmy, że nasze pomiary wykonaliśmy w tzw. próbie. Oznacza to, że nie wzięliśmy pod uwagę wszystkich dzieci na świecie, lecz niewspółmiernie mały ich podzbiór. To nakazuje teraz zapytać, czy uzyskany przez nas rozkład liczebności pomiędzy czterema kombinacjami agresji i karania nie wynika przypadkiem z działania czynnika losowego. Ktoś mógłby uznać, że nasze wyniki są po prostu dziełem przypadku a nie odzwierciedleniem prawidłowości, występującej w populacji generalnej. Jedynym sposobem umożliwiającym odparcie takiego zarzutu jest przeprowadzenie testu statystycznego, który może wykazać, że prawdopodobieństwo niewystąpienia w populacji generalnej prawidłowości analogicznej do zaobserwowanej w próbie jest bardzo małe. Zwykle za istotne przyjęło się uznawać wyniki, dla których to prawdopodobieństwo jest mniejsze niż 0,05.
W ten sposób doszliśmy do pojęcia istotności statystycznej, które w badaniach ilościowych należy do absolutnie kluczowych. Jest to synonim wiarygodności uogólnienia wniosku z badań wykonanych w próbie na populację generalną.
Procedura matematyczna prowadząca do określenia poziomu istotności nazywa się testem statystycznym. Istnieje oczywiście wiele testów statystycznych a wiedza o tym, jaki test wybrać do jakich badań, jest niezbędna każdemu badaczowi. Nie będę szczególnie rozwijać tego wątku w tym miejscu. Wystarczy powiedzieć, że decyzja wynika z typu skali pomiarowej i liczebności próby, oraz - w przypadku testów zwanych parametrycznymi - jest jeszcze kilka innych warunków, dotyczących cech rozkładu zmiennych. Jednak aby ocena istotności statystycznej miała jakikolwiek sens, konieczne jest spełnienie dwóch innych - całkiem podstawowych - warunków. Po pierwsze, próba musi być pobrana w sposób losowy, co znaczy, że każdy z obiekt z populacji generalnej powinien mieć taką samą szansę znalezienia się w próbie, co każdy inny obiekt na danym etapie losowania (w ten sposób redukujemy wpływ błędów systematycznych na wynik badania). Po drugie, próba musi być odpowiednio liczna (w ten sposób redukujemy obciążenie rezultatów błędami losowymi, które niejako giną w masie). Losowa próba odpowiednio liczna określana jest jako próba reprezentatywna. W odniesieniu do naszego przykładu pomyśl, jak przeprowadzić losowanie dzieci przedszkolnych do próby?
Sam poziom istotności podawany jest w postaci ułamka dziesiętnego i oznacza się go literą p. Im mniejsza jest owa wartość p wyznaczona przez test statystyczny, tym bardziej istotny wynik. Niekiedy wartość p definiowana jest jako prawdopodobieństwo słuszności hipotezy zerowej. Hipoteza zerowa to również słowo-klucz w badaniach ilościowych. Hipoteza zerowa jest twierdzeniem o nieistnieniu w populacji generalnej tego, co zostało założone w hipotezie badawczej. Tu musimy zauważyć, że hipotezy zerowej nie można udowodnić za pomocą statystyki. Wynika to z tego, że wnioskowanie statystyczne ma charakter indukcyjny, co oznacza, że nie można w nim dowieść nieistnienia czegoś w ogóle na podstawie tego, że to "coś" nie ujawniło się w badanym wycinku rzeczywistości (czyli w tzw. próbie). Pamiętaj więc, aby nigdy nie formułować hipotez badawczych w postaci założeń o nieistnieniu czegoś, bo to kompletnie nie ma sensu.
Brzmi to śmiesznie ale nie da się udowodnić, że nie ma krasnoludków. Nie mamy przecież realnej możliwości przeskanowania całej ziemi na obecność gnomów, więc możemy zbadać jedynie próbki. Jeśli w próbkach nie wykryliśmy takich stworzeń, to wcale nie znaczy, że nie ma ich w obszarze nie objętym naszą obserwacją. Gdybyśmy jednak gdzieś znaleźli poszukiwanego kurdupla w czerwonej czapeczce, to w świetle indukcji byłby to dowód na istnienie krasnali w ogóle. (teraz pewnie widzisz związek logo z treścią artykułu)
Dajmy jednak spokój baśniowym stworkom i weźmy na tapetę inny - dla niektórych absolutnie fundamentalny problem - równość między ludźmi. Dla głoszących pogląd o równości kobiet i mężczyzn w sferze intelektu - zła wiadomość. Porównując losową próbę mężczyzn z losową próbą kobiet nie będą w stanie udowodnić braku różnic między kobietami i mężczyznami w populacji generalnej (w zakresie czegokolwiek). Nie twierdzę, że któraś z płci jest głupsza, a jedynie podpowiadam, że równości w głupocie, czy w mądrości, nie da się dowieść statystycznie. Sytuacja się zmienia, jeśli w badaniu zaobserwujemy jakieś różnice między płciami, wówczas statystyka pozwoli nam stwierdzić, czy różnice te są systematyczne w stopniu, który hipotezę o nieistnieniu różnicy między płciami w populacji generalnej pozwala odrzucić z niewielkim ryzykiem popełnienia błędu (owo ryzyko pomyłki przy uogólnieniu określa wzmiankowana wyżej wartość p).
Warto przy okazji dodać, że w nauce zasadniczo żadne pojedyncze badanie nie dowodzi czegokolwiek. Oczekuje się wielokrotnego potwierdzenia rezultatów badań pochodzących z wielu różnych ośrodków naukowych. Badacze są bowiem programowo nieufni, wątpienie jest bowiem jedną z właściwości ich krytycznego umysłu a świadome lub nieświadome "pomaganie" wynikom, lub nawet ordynarne oszustwa niektórych badaczy są dokumentowane. Replikacja badań ogranicza skalę tej patologii. W powszechnym użyciu są więc tak zwane metaanalizy. Są to zestawienia wielu różnych badań, dotyczących na przykład określonej zależności między zmiennymi, pozwalające określić, czy prawidłowość ujawnia się systematycznie, czy sporadycznie w różnych badaniach, i jaka jest przeciętnie siła tej zależności, oraz - przy uwzględnieniu kontekstu - określić w jakich warunkach zależność jest silniejsza a w jakich słabnie.
W następnym artykule pokażę sposób weryfikowania hipotezy sformułowanej na początku niniejszego artykułu. Poznasz jeden z prostszych ale bardzo użytecznych testów statystycznych - test chi-kwadrat.