„My, konsumenci przepowiedni ekspertów, jesteśmy pod wpływem ekspertów z tych samych powodów, z których nasi pradziadowie odwoływali się do szamanów i wyroczni: naszej niekontrolowanej potrzeby wiary w kontrolowalny świat. (…) Kto chciałby wierzyć, że w przypadku najważniejszych pytań moglibyśmy równie dobrze rzucać monetą, co konsultować się z wybitnym ekspertem.” s. 63 Tetlock przepytał 284 ekspertów z różnych dziedzin ekonomii i polityki.
Eksperci zostali poproszeni o udzielenie odpowiedzi na temat przyszłości politycznej wybranych krajów, zmian PKB, stóp procentowych, rozprzestrzeniania się broni masowego rażenia, kursu NASDAQ oraz akcji firm z sektora nowych technologii i inne. Lącznie zadano im ponad 27 tysięcy pytań. Odpowiedzi podzielono na eksperckie i dyletanckie. Ekspercka była, gdy pytanie zadano ekspertowi z dziedziny pytania, dyletancka, gdy na pytanie odpowiadał ktoś nie specjalizujący się w danej dziedzinie.
Autor ustalił, że nie ma korelacji w ocenach ekspertów między wykształceniem, tytułem naukowym, popularnością, doświadczeniem.
Dla przykładu poniżej można zapoznać się z prognozami dla Polski z 1992 roku:
„Mimo, że schematy terapii szokowej były zróżnicowane w aspekcie rygoru wykonania i wrażliwości na zagadnienia bezpieczeństwa, polityka miała wystarczająco wspólnych cech, aby być w centrum gorących debat postkomunistycznej literatury. Lewicowi analitycy nie ukrywali swojej irytacji wobec zachęcania do terapii szokowej doradzanej państwom borykających się z przejściem od gospodarki centralnie sterowanej do wolnorynkowej. Obawiali się, że polityka fiskalna i monetarna przyjęta przez polski rząd doprowadzi do destabilizacji politycznej, a nie ekonomicznego rozwoju. Nieunikniona reakcja na spodziewane skoki inflacji i bezrobocia miała utorować drogę dla demagogów – „polskich Peronów” – którzy dokonaliby w Polsce to, co zrobił Peron w Argentynie: cofnął ją o dekady. Ci analitycy przeszacowali trud i niestabilność wynikającą z przemian nie tylko w Polsce, ale i w wielu innych gospodarkach, włączając Czechy, Węgry, Estonię i Litwę. (…)” s.95
Jak wiemy, te przepowiednie nie sprawdziły się. Nie sprawdziło się też całkiem wiele innych prognoz, które przytacza autor na temat rozwoju społeczeństw, konfliktów militarnych, czy gospodarki.
W poprzednim wpisie Mity na temat metody eksperckiej omawiałem metody usprawnienia szacowania eksperckiego. Później jednak natrafiłem na powyższe badanie, które utwierdziło mnie w przekonaniu, że coś jest nie tak z najczęściej wymienianą przez PMBOK Guide techniką zarządzania projektami (expert judgment). Wiedzieliście, że termin „expert judgment” występuje w PMBOK Guide 108 razy?!
Wynik kalibracji i dyskryminacji subiektywnych ocen eksperckich, s.50.
Kalibracja (CI) rozumiana jest jako zdolność do podania prawdopodobieństwa zdarzenia takiego, jak rzeczywiste prawdopodobieństwo zdarzenia. Czyli, gdy ekspert powie, że na 80% PKB wzrośnie do jakiegoś poziomu, to faktycznie istnieje 80% szans na to. Dyskryminacja (DI) to zdolność do trafnego podania, że dane zdarzenie na pewno się wydarzy lub nigdy się nie wydarzy. W tym wypadku ekspert zero-jedynkowo ocenia wydarzenie. Powyższy rysunek pokazuje wiarygodność ocen ekspertów w tych dwóch wymiarach. Główny podział to eksperci kontra dyletanci. Jak widać poziom jakości kalibracji i dyskryminacji obu grup jest zbliżony. Dalej widać, że te wskaźniki dla długo i krótkoterminowych prognoz pokazują nadal podobny poziom wiarygodności szacunków. To samo dotyczy obszarów ekspertyz.
Kolejne analizy pokazują, że wiarygodność ekspertów jest niemal taka sama jak łącznego zbioru dyletantów i ekspertów. Oraz nieznacznie tylko wyższa od strategii szympansa. Strategia szympansa polega na przypisaniu równych prawdopodobieństw dla każdego wariantu prognozy. Pocieszeniem jest jedynie to, że ludzcy eksperci byli dużo lepsi w dyskryminacji od strategii szympansa, która nawet nie próbowała jednoznacznie określać możliwości wydarzenia się zdarzeń, bowiem dawała równe prawdopodobieństwo wszystkim prognozom. Natomiast szympans lepiej radził sobie w wymiarze kalibracji, wiarygodniej oceniając zdarzenia wyjątkowo rzadkie.
Poniżej można zobaczyć wykres stopnia kalibracji różnych grup badanych: ekspertów, dyletantów, szympansa i innych. Linia prosta pokazuje kalibrację doskonałą, gdy obiektywne prawdopodobieństwo równa się subiektywnemu. Jak widać dyletanci dla zdarzeń o rozmaitych prawdopodobieństwach pokrywają się idealnie z ekspertami. A dla zdarzeń rzadkich szympans jest dużo lepszy niż ludzie.
Porównanie kalibracji różnych ludzi (pierwszy wykres) oraz modeli statystycznych (drugi wykres) s.55.
Tetlock zadawał pytania natury politycznej i ekonomicznej. Badał ekspertów z różnych organizacji i przedsiębiorstw. Jednak dostrzegam tu sporą analogię. W projektach regularnie szacuje się rzeczy niepewne. Regularnie takich ocen dokonują ludzie, których uważamy za ekspertów. I regularnie projekty się spóźniają, przekraczają budżety, nie dostarczają rezultatów.
Badania dowodzą, że doświadczenie, wykształcenie, specjalizacja, czy sława nie mają wpływu na jakość ocen eksperckich. A modele statystyczne (o czym Tetlock też pisze w książce) bywają niekiedy dużo lepsze od ludzkich.
Przez kilka lat na szkoleniach podawałem przykład eksperymentu, który wykonaliśmy w pewnej firmie. Dzisiaj rozumiem, jak opacznie rozumiałem wnioski z niego. Otóż przeanalizowaliśmy około 30 projektów, które najpierw zostały oszacowane przez analogię do statystyk historycznych. A następnie każdy z nich był szacowany ekspercko podejściem bottom-up. Cieszyłem się, ponieważ szacowanie przez analogię jednego projektu zajęło kilka godzin, natomiast szacowanie buttom-up około miesiąca. Po analizie okazało się, że choć różnice szacunków były duże, to błędy in plus i in minus znosiły się. W efekcie suma błędów wyniosła tylko 2%. Symbolicznie pokazuje to tytułowy rysunek.
Z tego eksperymentu wywiodłem wniosek, że szacowanie przez analogię jest bardzo tanią i wiarygodną metodą. Wystarczy mieć historyczne dane. Teraz rozumiem, że jest odwrotnie. Szacowanie przez analogie okazało się być równie złą metodą, co eksperckie! Przypomniałem sobie, że później te projekty spóźniały się jak wszystkie inne. Część z nich została nawet skasowana. Szacowanie przez analogie jest lepsze dlatego, że dostarcza równie błędnych prognoz przy mniejszym koszcie.
Cytaty pochodzą z książki Philipa E. Tetlock „Expert Political Judgement”