+48 512 364 075

Statystyka nie gryzie. Cześć 3 – Testowanie hipotez na przykładzie kości do gry

Jerzy Lukomski

W kolejnym odcinku statystyki, która nie gryzie, chciałbym Wam przybliżyć zagadnienie testowania hipotez. Zacznijmy od tego czym jest testowanie hipotez w statystyce i w projektach Six Sigma. Wyobraźmy sobie, że w fazie Measure projektu wytypowaliśmy najbardziej prawdopodobne zmienne wpływające na nasz proces, a następnie zmierzyliśmy je w wybrany sposób. Na podstawie zebranych danych w fazie Analizy chcielibyśmy potwierdzić, czy wytypowane zmienne maja istotnie statystyczny wpływ na nasz proces, czy nie. W tym momencie właśnie z pomocą spieszy nam testowanie hipotez.

Autor: Jerzy Łukomski

Wg definicji jest to zestaw narzędzi, które powiedzą nam jak bardzo pewni możemy być podejmowanych decyzjii jaka jest możliwość popełnienia błędu. W świecie biznesu zawsze istnieje szansa popełnienia błędu, ale ponieważ nie wszystko jesteśmy w stanie przewiedzieć ryzyko to bywa ignorowane. Ponieważ Six Sigma opiera się na liczbach, danych ifaktach nie możemy dłużej udawać, że nie widzimy tego ryzyka. W celu omówienia samego mechanizmu testowania nie można obejść się bez podstawowych pojęć z tym związanych. Zacznijmy od przedziału ufności, który jest zakresem w którym mieści się średnia wartość badanej cechy określana na podstawie próby pobranej z populacji. Dzięki przedziałowi ufności możemy zdefiniować wielkość błędu, o ile uzyskany wynik może odbiegać od wartości rzeczywistej. Im większa i bardziej reprezentatywna próba tym węższy jest przedział ufności i mniejszy zakres odchylenia wartości zbadanej w próbie w stosunku do wartości rzeczywistej np. producent płyt CD chce sprawdzić średnią wagę swoich płyt w procesie produkcji w zakresie zgodności z docelową wartością (niech będzie 10 gramów). Po pobraniu 50 elementów z procesu okazało się, że średnia wynosi więcej, czyli 15 gramów. Czy to oznacza, że proces produkcji jest zły? Okazuje się, że niekoniecznie ponieważ może okazać się, że zbudowany dla zebranych danych przedział ufności jest w zakresie 8 – 17 gramów co oznacza, że pobrana próbka miała akurat średnią 15 gramów, ale nie ma żadnych statystycznych przesłanek, że kolejna pobrana próbka nie będzie miała średniej 10 gramów (przedział od 8 do 17)  (rysunek poniżej). Kolejnym ważnym pojęciem jest poziom istotności określany jako poziom wartości p (p-value) poniżej którego odrzucamy hipotezę zerową i przyjmujemy hipotezę alternatywną. Poziom istotności zazwyczaj waha się pomiędzy 90%, a 99% w zależności od tego w jakim środowisku prowadzony jest projekt i ile to może kosztować biznes (im większe ryzyko tym poziom istotności  powinien być wyższy).. Rysunek ilustrujący działanie przedziałów ufności poniżej.

Czytaj: Wynik, który uzyskamy w pomiarach może znajdować się statystycznie w dowolnym punkcie uzyskanego przedziału ufności. Im niższy poziom istotności tym węższy przedział ufności, a to dlatego, że dopuszczamy sobie większą możliwość popełnienia błędu. Czyli jest ryzyko odrzucenia hipotezy poprawnej.

Wspomniałem wcześniej o hipotezie zerowej. Mechanika działania testowania hipotez opiera się właśnie na odrzuceniu lub braku podstaw do odrzucenia hipotezy zerowej.  Hipoteza zerowa zawsze brzmi „w danych, które badamy nie ma różnicy statystycznej”. Hipotezę zerową traktujemy jako prawdziwą, dopóki nie uzyskamy informacji statystycznych dostatecznych do zmiany stanowiska, czyli przyjęcia hipotezy alternatywnej brzmiącej „w danych, które badamy występuje różnica”. Przykład stawiania hipotez na kolejnym diagramie:

Podczas testowania hipotez z idealna sytuacją mamy do czynienia w momencie, gdy przyczyny, które były „winne” zaistniałym wynikom procesu „skazaliśmy” (przyjęta hipoteza alternatywna), a przyczyny, które były „niewinne” zaistniałym wynikom procesu „uwolniliśmy” (brak podstaw do odrzucenia hipotezy zerowej).

Jak to w życiu bywa możemy popełnić błąd i w testowaniu hipotez wyróżniamy ich dwa rodzaje. Po pierwsze (błąd I rodzaju) uznajemy za winną przyczynę, która w rzeczywistości nie ma wpływu na proces. Jest to błąd o gorszych biznesowych skutkach dlatego, że możemy zacząć poprawiać  nie tam gdzie trzeba i to docelowo może nam jeszcze bardziej pogorszyć proces i utrudnić  ostatecznie znalezienie rzeczywistych przyczyn. Błąd II rodzaju występuje wtedy „wypuścimy” przyczynę, która w rzeczywistości miała istotny statystycznie wpływ na proces. Jest to błąd, który biznesowo ma mniej odczuwalne skutki dlatego, że w najgorszym razie wyniki procesu się  po prostu nie poprawią. W testowaniu hipotez w zależności od rodzaju danych, ilości zmiennych i celu analizy wykorzystujemy różne testy:

Podstawowe terminy mamy za sobą, więc wróćmy do tytułowej kości do gry. Wyobraźmy sobie, że mamy 5 kości do gry i chcemy sprawdzić, czy te kości są w porządku (tzn. czy wszystkie zachowują się tak samo podczas gry). Jak wiemy prawdopodobieństwo wyrzutu każdej z liczb na kości sześciościennej jest jednakowe. W związku z tym, aby sprawdzić, czy kości się od siebie statystycznie nie różnią możemy wybrać na każdej kości dowolną cyfrę i testować, jaka jest proporcja wyrzutu wybranej liczby do pozostałych. Ponieważ chcemy testować proporcje, a próbek (w tym przypadku kości) jest więcej niż 2, musimy zastosować Chi-Square Test. Jako narzędzie do przeprowadzenia testu polecam Minitab, gdyż w sposób czytelny prezentuje wyniki przeprowadzonych analiz wraz ze wsparcie graficznym. Ciekawe w teście Chi-Square jest to, że ilość rzutów dla każdej kości nie musi być  taka sama, aby można było porównać proporcje w sposób istotny statystycznie. Po przeprowadzeniu rzutów dla kości wyszły nam następujące wyniki:

  • 1 kość 30 rzutów, proporcja wynosi 4:26
  • 2 kość 40 rzutów, proporcja wynosi 10:30
  • 3 kość 50 rzutów, proporcja wynosi 7:43
  • 4 kość 35 rzutów, proporcja wynosi 6:29
  • 5 kość 45 rzutów, proporcja wynosi 13:32

Pierwszy rzut oka na proporcje wskazuje, że kość numer 2 i 5 ma inny stosunek wybranej liczby do pozostałych. Po wpisaniu danych do Minitab naszym oczom ukażą się następujące wyniki:

Przede wszystkim patrzymy na P-Value wynoszące 0,289, co oznacza, że hipotezę zerową  możemy odrzucić jedynie z 71% prawdopodobieństwem. Przy założonym poziomie istotności wynoszącym 95% jest to zbyt mało, aby przyjąć  hipotezę alternatywna mówiącą  o tym, że co najmniej jedna kość do gry jest różna od pozostałych. Aby odrzucić hipotezę zerową, p-value musiałoby wynosić mniej niż 0,05 . W kolumnach mamy wyniki poszczególnych kości w układzie:

  • obserwowany  rezultat,
  • oczekiwany statystycznie rezultat,
  • relatywna różnica pomiędzy obserwowanym i oczekiwanym rezultatem.

Wartość Chi-Sq jest sumą poszczególnych różnic pomiędzy obserwowanym i oczekiwanym rezultatem, tak więc im wyższa wartość Chi-Sq tym P-Value będzie niższe.

Tłumacząc wyniki na język biznesowy, nie ma podstaw statystycznych, aby na podstawie zaobserwowanych danych odrzucić hipotezę zerową co oznacza, że kości które badaliśmy są statystycznie bez różnicy tak więc nie mają wpływu na wynik rzutu.

Możliwość komentowania jest wyłączona.

Kontakt
Interesują Cię nasze szkolenia? Skontaktuj się z nami: tel.:+48 512 364 075 e-mail: szkolenia@octigo.pl Formularz kontaktowy

Biuletyn

 

Chcesz wiedzieć, o czym piszemy na blogu, co nas fascynuje, co nowego dzieje się w Octigo? Zapisz się na nasz biuletyn.

Wypełniając powyższy formularz, zgadzam się na przetwarzanie podanych danych do celów marketingowych przez firmę Octigo sp. z o.o. Twój e-mail będzie przechowywany wyłącznie w naszej bazie, w każdej chwili możesz wycofać zgodę na przetwarzanie Twoich danych, Twój e-mail nie jest udostępniany innym podmiotom, wysyłamy biuletyn e-mailowy nie częściej niż 1-2 razy w miesiącu.

 
 
Profil na Google+ PMI, PMBOK, PMP, PgMP are registered mark of the Project Management Institute, Inc.