Ocena brak

Uwagi nad sposobami doboru prób oraz niektórymi metodami optymalizacji statystycznej przydatnymi w badaniach jakościowych

Autor /Jaro Dodano /29.05.2011

W naukach społeczno-ekonomicznych i psychologicznych większość wniosków o charakterze ogólnym wysnuwa się zwykle na podstawie prób, których liczebność jest znacznie większa od stu. Wśród naukowców przeważa przekonanie, że tylko badania przeprowadzone na dużych statystycznie populacjach losowych prowadzą do trafnych wniosków i prognoz. Inna rozpowszechniona opinia na temat metod badawczych, wynikająca z założeń klasycznej statystyki, dotyczy proporcji między liczbą badanych obiektów a ilością analizowanych właściwości, ujętych w wielozmiennych analizach, na przykład w regresji wielorakiej czy analizie czynnikowej. W celu uniknięcia tak zwanego „szumu informacyjnego” modele wielozmienne realizuje się na dużych populacjach o charakterze losowym. Wówczas liczba obserwacji jest trzy-, pięcio-, a nawet dziesięciokrotnie większa niż liczba zmiennych w modelu. Duże próby losowe są faktycznie reprezentatywne, niemniej jednak bardzo kosztowne.

Zdarzają się sytuacje, kiedy sama docelowa populacja generalna jest mało liczna (na przykład rynki specyficznych usług lub rzadko zamawianych towarów, populacje menedżerów o określonych kwalifikacjach lub osób o wyjątkowych zdolnościach wymaganych przy niektórych zawodach), dotarcie zaś do poszczególnych jednostek, będących przedmiotem badania bywa nadzwyczaj trudne i kosztowne. Postępowanie badawcze wymaga zwykle równoczesnej analizy wielu zmiennych. Często z takim problemem spotykają się na przykład psychologowie, którzy wykonują analizy jakościowe.

Celem badań jakościowych w sensie statystycznym z jednej strony może być poszukiwanie relacji współzmienności lub związków przyczynowo-skutkowych między różnymi zmiennymi, mierzonymi często na różnych skalach pomiarowych, a z drugiej opis pewnych zjawisk, które nie zawsze mają charakter mierzalny w sensie czysto matematycznym. Zwykle są to badania prowadzone przez dłuższy czas na pewnej populacji, którą w socjologii nazywa się panelem badawczym. Zdarza się, że owa populacja nie może być zbyt liczna ze względu na charakter badań (na przykład w przypadku niektórych jakościowych długotrwałych badań psychologicznych) lub ze względu na utrudniony dostęp do populacji generalnej.

W celu rozwiązania niektórych problemów związanych z prognozowaniem zjawisk jakościowych można zastosować z jednej strony nowoczesne metody statystyki eksperymentalnej – oparte na teorii planowania eksperymentów optymalnych, z drugiej zaś – socjologiczną teorię losowania sieciowego interpersonalnego w połączeniu z losowaniem sekwencyjnym (Kowal 2002). Badacz, pod pewnymi warunkami, zamiast przeprowadzać kosztowne badania na dużej próbie losowej - z powodzeniem może zastosować eksperyment na małej próbie, z wykorzystaniem teorii optymalnych planów eksperymentu, która może mieć zastosowanie w dwóch szczególnych przypadkach :

1) liczba doświadczeń n w eksperymencie jest statystycznie mała (n < 30)

2) mamy do czynienia z eksperymentem nasyconym lub prawie nasyconym, gdy liczba doświadczeń n w eksperymencie jest statystycznie duża (n > 30), lecz liczba parametrów które należy oszacować jest równa lub nieznacznie mniejsza od zaplanowanej liczby doświadczeń n.

W przeprowadzanych badaniach jakościowych materiał badawczy możemy teoretycznie potraktować jako próbkę eksperymentalną (w sensie statystycznym). Przy uogólnianiu wniosków można wykorzystać pewnego rodzaju plany dyskretne, kiedy częstość wystąpienia w próbie różnych obiektów ma charakter dyskretny (ilość obiektów ma przeliczalny lub skończony zbiór wartości), a właściwości obiektów mierzone są na skalach nieciągłych (np. postawy konsumentów wobec reklamowanych produktów lub usług, rodzaje asortymentów oferowanych produktów, pewne rodzaje zachowań jednostek, styl bycia, różne symbole itd.), głównie na skalach jakościowych i porządkujących (Kowal 2002, Wawrzynek 1997).

Metody badawcze można dobrać do takich sytuacji, w których badacz dysponuje już pewną nieliczną, często specyficzną populacją próbną i nie zawsze ma możliwość znacznego jej poszerzenia, a celem badania jest m. in. określenie zależności przyczynowo-skutkowych między zmiennymi zależnymi (na przykład między skutecznością reklamy, jej pozytywnym odbiorem przez konsumentów) a grupą zmiennych niezależnych (segmentem rynku, rodzajami stosowanych rekwizytów i symboli, barwą itd.). Algorytm oparty na teorii planowania eksperymentów optymalnych umożliwia sprawdzenie, na ile wartościowa jest owa próba pod względem posiadanych wyników i struktury oraz do jak licznej, dużej próby losowej może być porównana (Kowal 2002). Jeżeli odpowiednie warunki nie zostaną jeszcze spełnione, można dobrać kilka jednostek do próby, najlepiej metodą losowania sieciowego interpersonalnego w połączeniu z metodą sekwencyjną i znów sprawdzić strukturę analizowanej populacji.

Postępowanie powtarza się, aż do uzyskania żądanych wartości wybranej funkcji kryterium optymalności oraz (albo) do momentu, kiedy próbka będzie reprezentatywna ze względu na strukturę i zależności pewnych cech kontrolnych (na przykład ze względu na wiek i płeć). Dla wybranego zbioru zmiennych oblicza się wartość funkcji kryterium, która informuje badacza, czy populacja ma cechy optymalności, czy próbę należy powiększyć o nowe jednostki. Wspomnianą funkcją kryterium może być na przykład funkcja A- lub D-optymalności - próbka jest idealnie optymalna jesli A- lub D-efektywność osiąga wartość 1, a nie jest optymalna przy wartościach bliskich zera. Jeśli odpowiednie warunki matematyczne zostaną spełnione, można przystąpić do prognozowania zmiennej zależnej metodą regresji. Dla badania jest istotne, aby jednostki znajdujące się w próbie stanowiły dobrą (adekwatną) reprezentację pewnego problemu o charakterze społecznym, psychologicznym lub ekonomicznym (Kowal, Bożejko i in. 2002).

Problemy braków danych i reprezentatywności próby przy szacowaniu wskaźników struktury zjawisk jakościowych

Coraz częściej badania jakościowe i badania występowania zjawisk jakościowych przeprowadza się na większych populacjach, np. przez Internet lub sieć telefoniczną. . W takich badaniach często pojawia się problem niedostatecznego lub zbyt dużego udziału reprezentacji pewnych grup respondentów, np. nie pracujących kobiet w określonym wieku. Jeżeli dysponujemy już dużą próbą losową, w której stwierdziliśmy "nadreprezentację" pewnych kategorii, a "niedoreprezentację" innych, możemy zweryfikować wynik na dwa sposoby.

Załóżmy, że na podstawie próby chcemy oszacować na przykład procent oglądalności jakiegoś programu telewizyjnego.

Pierwszy sposób polega na tym, żeby w sposób losowy usunąć przypadki, których jest w pewnej kategorii kontrolnej za dużo. W typowych badaniach społeczno-ekonomicznych dotyczących występowania (lub nie) pewnych zjawisk (kodowanych zwykle zero-jedynkowo), cechami kontrolnymi są zwykle wiek i płeć (czasem również dochody na osobę w rodzinie) oraz ich kombinacje. Jeżeli próba właściwa jest liczna, powyżej kilkuset osób, usunięcie losowo pewnej liczby przypadków nie będzie wielką stratą. Nazwijmy taka próbę - "uciętą". Na podstawie wspomnianej próby oszacujemy procent oglądalności wybranego programu ogółem i w poszczególnych kategoriach kombinowanych.

Drugi sposób weryfikacji naszej prognozy oglądalności polega na tym, że tworzymy w próbie właściwej (bez usuwania przypadków) kategorie kombinowane z cech kontrolnych, na przykład z wieku i płci. Potraktujemy każdą kategorię jako 100% i dla każdej z nich obliczymy procent oglądalności, czyli na przykład obliczymy procent oglądalności wybranego programu dla kobiet w wieku 15-24 lat, 25-34 lat itd., podobne obliczenia przeprowadzimy dla mężczyzn. Załóżmy, że z obliczeń wynika, że 10% kobiet w wieku 25-34 lat ogląda nasz program. Następnie utworzymy teoretyczny szereg rozdzielczy lub tablice krzyżowe o liczebnościach kategorii kontrolnych identycznych z rozkładem znanym z literatury fachowej, np. ze sprawozdań GUS. Poszczególne kategorie kombinowane potraktujemy znowu jako 100%, a na podstawie miar struktury obliczonych z badań sondażowych obliczymy odpowiednie liczebności.

Załóżmy, że liczebność ogółem w próbie teoretycznej wynosi 1000, a liczebność kobiet w wieku 25-34 lat w próbie teoretycznej wyniesie 100, a zatem 10% z nich, czyli 10 pań w wieku 25-34 lat może oglądać nasz program, co stanowi (10/1000)*100=1% badanej populacji. W ten sposób obliczymy skorygowane udziały oglądalności dla każdej kategorii. Oczywiście tak obliczone wskaźniki struktury nie są faktycznymi wynikami z próby właściwej, nie są już wynikami sondażowymi - są wynikami skorygowanymi, pewną prognozą oglądalności i na podstawie wyników sondażowych, i na podstawie wiedzy o strukturze populacji.

Procenty oglądalności dla poszczególnych kategorii, jak również oglądalność ogółem obliczone na podstawie próby "uciętej" oraz obliczone drugim sposobem - z korektą względem rozkładu znanego - nie powinny różnić się istotnie statystycznie, co dobrze byłoby potwierdzić testem statystycznym (Kowal 2002).

Podobne prace

Do góry