Pułapka resulting: dlaczego oceniasz menedżerów za pomocą narzędzia, które nie mierzy tego, co myślisz

Większość zarządów ocenia menedżerów narzędziem, które mierzy stan świata w dniu zamknięcia projektu — nie jakość myślenia, które do niego doprowadziło. Annie Duke nazywa ten błąd resulting (Duke, 2018). Jego koszt jest podwójny: raz przy podjęciu decyzji, drugi raz przy wyciąganiu z niej wniosków. Poniższy artykuł pokazuje, jak go zidentyfikować i co z tym zrobić.

Wyobraź sobie dwóch menedżerów. Pierwszy przeprowadził dokładną analizę rynku, skonsultował decyzję z ekspertami, zidentyfikował alternatywy i wybrał opcję o najwyższym oczekiwanym zwrocie przy akceptowalnym poziomie ryzyka. Wynik: projekt upadł z powodu nieprzewidywalnej zmiany regulacyjnej. Drugi działał na przeczuciu, ominął due diligence, przeprowadził projekt ekspresowo. Wynik: trafił na falę rynkową i zarobił 30% ponad cel. W większości polskich zarządów drugi zostanie oceniony wyżej — albo awansuje, albo dostanie wyższą premię. Ta zamiana jest błędem o własnej nazwie.

Wynik projektu mierzy losowość równie skutecznie jak kompetencje

Wynik projektu to funkcja dwóch zmiennych: jakości procesu decyzyjnego i losowości — a w krótkich horyzontach czasowych losowość dominuje. Tyszka, odwołując się do Franka Knighta, ilustruje to przykładem urny: menedżer, który wybiera urnę dającą 90% szans na sukces, postępuje racjonalnie nawet wtedy, gdy wyciągnie pechową czarną kulę. Konkluzja brzmi precyzyjnie: „decyzje podejmowane przy największej staranności i rozwadze mogą się zakończyć fatalnie" — co oznacza, że kryterium racjonalności procesu nie może być tożsame z jakością jego skutku (Tyszka, 2010).

W biznesowych warunkach niepewności, które Gigerenzer opisuje jako Large World — środowisko, w którym część istotnych zmiennych jest ukryta, informacje niekompletne, a złożone modele eksperckie ulegają nadmiernemu dopasowaniu do szumu historycznych danych — wynik jest częściej dziełem przypadku niż kompetencji (Gigerenzer, 2014). Wyciąganie z niego wniosków o jakości menedżera jest epistemicznie równie zasadne, co ocenianie gracza w pokera po tym, co wylosował na rzece, ignorując to, jak grał na flopie.

Resulting nie neguje wartości wyników jako sygnału — neguje ich wartość jako sygnału w warunkach, w których większość organizacji faktycznie ich używa. Literatura wskazuje dwa warunki, które muszą być spełnione jednocześnie, żeby wynik był diagnostyczny: wysoka powtarzalność decyzji (duża próba) oraz stabilność środowiska (niska losowość). Tetlock wskazuje, że wiarygodna ocena trafności prognozisty wymaga dużej liczby prognoz w porównywalnych warunkach (Tetlock & Gardner, 2015). Warren Buffett spełnia oba warunki — dekady decyzji, publicznie dokumentowany proces w corocznych listach do akcjonariuszy. Przeciętny dyrektor operacyjny oceniany na podstawie dwóch lub trzech dużych projektów w ciągu roku — nie spełnia żadnego. Resulting jest błędem nie dlatego, że wyniki nigdy nic nie mówią, lecz dlatego, że organizacje używają ich jako miary jakości w warunkach, gdzie próba jest za mała, a losowość za duża, żeby sygnał był rzetelny.

Resulting nie jest błędem leniwych — jest błędem wszystkich

Resulting nie jest lenistwem intelektualnym — jest konsekwencją tego, że mózg buduje przyczynowość retrospektywnie, używając dostępnych wyników jako kotwicy. Duke opisuje eksperymenty warsztatowe, w których uczestnicy otrzymują identyczny opis procesu decyzyjnego, różniący się jedynie zakończeniem. Choć procedura była ta sama w obu grupach, sama informacja o wyniku całkowicie zmieniała ocenę jakości procesu — i Duke podkreśla, że badani mają wrażenie, iż wynik mówi im coś „istotnego i znaczącego" o samej decyzji (Duke, 2018). To wrażenie jest złudzeniem, ale złudzeniem o głębokim mechanizmie.

Na resulting nakłada się pokrewny błąd pewności wstecznej (hindsight bias), który nie dotyczy oceny procesu, lecz zniekształcenia pamięci co do przewidywalności zdarzeń. Fischhoff, pionier badań nad tym zjawiskiem, udowodnił już w 1975 roku, że po wystąpieniu zdarzenia badani systematycznie zawyżają prawdopodobieństwo, jakie ex ante przypisywali temu zdarzeniu (Fischhoff, 2011). Kahneman i Duke wskazują, że te dwa błędy działają kumulatywnie: hindsight bias dostarcza fałszywych „dowodów" na to, że wynik był do przewidzenia, co legitymizuje outcome bias i prowadzi do surowego ukarania menedżera za decyzję, która w momencie podejmowania była optymalna (Kahneman, Sibony i Sunstein, 2021). W praktyce zarządowej efekt jest podwójny — menedżer zostaje oceniony jako niekompetentny, a zarząd wychodzi z przekonaniem, że wyciągnął słuszne wnioski.

Baron i Hershey, którzy w 1988 roku sformalizowali pojęcie outcome bias w literaturze naukowej, pokazali eksperymentalnie, że oceniający zmieniają swoją ocenę jakości procesu decyzyjnego wyłącznie pod wpływem informacji o wyniku — nawet gdy proces był identyczny (za: Baron, 2008). Późniejsza metaanaliza Aiyer i współpracowników (2023) potwierdza trwałość tego efektu. Andersen i Hjortskov w badaniu menedżerów sektora publicznego wykazali, że bias ten nie zanika wraz z doświadczeniem zawodowym ani z dostępem do większej ilości informacji (Andersen & Hjortskov, 2016). Doświadczeni dyrektorzy są podatni na resulting w takim samym stopniu jak niedoświadczeni stażyści — bo mechanizm jest kognitywny, nie kompetencyjny.

„Jeśli tego dokumentu nie ma, wynik nic nie powie o jakości decyzji. Powie tylko o stanie świata w dniu, gdy projekt dobiegł końca."

Resulting awansuje szczęściarzy i hamuje menedżerów, którzy myślą

Systematyczne nagradzanie za wyniki zamiast za jakość procesu nie jest jedynie niesprawiedliwe wobec konkretnych menedżerów — jest mechanizmem, który selektywnie degraduje pulę talentów i odwraca incentives w całej organizacji. Sibony, współpracując z Kahnemanem przy badaniach McKinsey obejmujących 1500 decyzji inwestycyjnych, dokumentuje, że jakość procesu decyzyjnego ma o 6,9 punktu procentowego większy wpływ na ROI niż sama szczegółowość analizy danych (Sibony, 2020). Innymi słowy: organizacje, które skupiają się na tym, co wyszło, zamiast na tym, jak decydowano, zostawiają na stole realną wartość finansową — mierzalną, nie metaforyczną.

Konsekwencje kadrowe są równie poważne. Sibony argumentuje, że ocenianie menedżerów wyłącznie przez wyniki prowadzi do selekcji opartej na fuksie: na szczyt piramidy organizacyjnej trafiają nie osoby o najwyższej jakości procesu decyzyjnego, lecz te, które miały statystycznie szczęśliwą passę (Sibony, 2020). Organizacja myli łut szczęścia z talentem i dojrzałym osądem — i odpowiednio alokuje kapitał, premie oraz władzę. Równolegle utalentowani menedżerowie, którzy podejmowali rozważne decyzje w trudnych warunkach, lecz nie trafili na sprzyjającą falę rynkową, marnują się w średnim szczeblu zarządzania.

Skutek długoterminowy jest jednak najpoważniejszy. W kulturach, które karzą za zły wynik bez względu na jakość procesu, racjonalni menedżerowie uczą się szybko: opłaca się wybierać projekty łatwe do obrony, nie projekty o najwyższej oczekiwanej wartości. Sibony opisuje to jako gaming the system — menedżerowie poświęcają energię na pozycjonowanie się w miejscach, gdzie sukces jest niemal gwarantowany, zamiast podejmować trudne wyzwania strategiczne (Sibony, 2020). Resulting nie tylko błędnie ocenia przeszłość — aktywnie kształtuje przyszłe zachowania w kierunku dokładnie odwrotnym do tego, czego organizacja potrzebuje.

Opłaca się wybierać projekty łatwe do obrony, nie projekty o najwyższej oczekiwanej wartości. Resulting nie tylko błędnie ocenia przeszłość — aktywnie kształtuje przyszłość.

KPI i MBO mierzą ekspozycję na ryzyko rynkowe, nie jakość procesu

Większość narzędzi oceny menedżerskiej — KPI, MBO, oceny roczne powiązane z wynikiem — mierzy ekspozycję na ryzyko i szczęście rynkowe, nie jakość procesu decyzyjnego. Jest to konsekwencja prostego faktu: wynik jest obserwowalny, a proces — bez dodatkowej infrastruktury — nie jest. Organizacje mierzą to, co łatwo zmierzyć, i przekonują siebie, że mierzą to, co chcą mierzyć.

Skala błędu jest udokumentowana empirycznie w kilku niezależnych kontekstach. Badania nad polskimi analitykami finansowymi przeprowadzone przez Tyszkę i Zielonkę pokazują, że rzeczywista trafność prognoz profesjonalistów wynosiła zaledwie 33% — przy subiektywnej pewności siebie na poziomie 58% (Tyszka, 2010). Eksperci radzili sobie gorzej niż przypadek, podczas gdy utrzymywali silne przekonanie o własnych kompetencjach. To klasyczny portret systemu, który ocenia wyniki bez audytu procesu: pewność siebie rośnie niezależnie od trafności, bo nikt nie prowadzi rzetelnej punktacji.

33%

trafność prognoz profesjonalnych analityków finansowych przy subiektywnej pewności siebie na poziomie 58% — eksperci radzili sobie gorzej niż przypadek

Tyszka & Zielonka, za: Tyszka (2010)

Nisbett dokumentuje analogiczny problem w rekrutacji: trafność prognostyczna półgodzinnej rozmowy kwalifikacyjnej wynosi niespełna 0,10 — niewiele więcej niż rzut monetą — mimo że menedżerowie konsekwentnie przeceniają tę metodę kosztem danych o korelacji rzędu 0,3–0,5 (Nisbett, 2016).

Jak audytować jakość procesu decyzyjnego — trzy kryteria operacyjne

Jakość decyzji można oceniać przed poznaniem wyniku, jeśli organizacja zdefiniuje, czego szuka — i zrobi to zanim wynik będzie znany. To nie jest postulat rewolucji procesowej. To kwestia trzech konkretnych kryteriów, które literatura decision science wypracowała i przetestowała poza środowiskiem akademickim: w tradingu, meteorologii, medycynie i sporcie.

Pierwsze kryterium: jakość informacji wejściowych. Dobry proces decyzyjny zaczyna się od weryfikowalnego pytania: jakich danych użyto, skąd pochodziły i czy uwzględniono perspektywy zaprzeczające dominującej tezie? McKinsey, w kontekście dużych decyzji strategicznych, operacjonalizuje to przez sprawdzenie, czy w dyskusji dopuszczono głosy sprzeczne z pozycją liderów oraz czy eksperci dobrani byli ze względu na kompetencje, a nie rangę hierarchiczną (Sibony, 2020). Taleb proponuje narzędzie jeszcze prostsze: decision journal — krótki zapis daty, kontekstu, rozważanych alternatyw i poziomu pewności w momencie podejmowania decyzji, który pozwala na obiektywny audyt ex-post i eliminuje zniekształcenie, jakie wprowadza późniejsza znajomość wyniku. Dokumentację tę powinien weryfikować podmiot niezależny od autora decyzji — komitet ryzyka, CFO lub dedykowany panel — co oddziela rzetelną analizę od performatywnego raportowania. Sezer i współpracownicy wykazali eksperymentalnie, że samo ujawnienie intencji decydenta przed poznaniem wyniku istotnie redukuje efekt outcome bias u oceniających (Sezer, Zhang, Gino i Bazerman, 2016).

Drugie kryterium: eksplicytność rozumowania. Tetlock, badając superprognozistów, wykazał, że wysoka jakość procesu objawia się w konkretnych, mierzalnych zachowaniach: wyrażaniu prognoz w formie numerycznego prawdopodobieństwa zamiast mglistych określeń, dekompozycji złożonych problemów na możliwe do oszacowania składowe oraz stosowaniu perspektywy zewnętrznej — czyli ustaleniu base rate, częstotliwości podobnych zdarzeń w przeszłości, zanim uwzględni się specyfikę danej sytuacji (Tetlock & Gardner, 2015). Firma Susquehanna International Group wdrożyła tę logikę w praktyce: premie traderów są uzależnione od rzetelności procesu analitycznego, nie wyłącznie od wyniku transakcji. Meteorologia dostarcza dowodu na skuteczność tego podejścia w skali systemowej — systematyczny pomiar jakości procesu prognostycznego pozwolił National Hurricane Center zwiększyć trafność prognoz o 350% w ciągu 25 lat.

+350%

wzrost trafności prognoz osiągnięty przez National Hurricane Center dzięki systematycznej ocenie jakości procesu — nie wyników — w ciągu 25 lat

Tetlock & Gardner (2015)

Trzecie kryterium: mechanizm aktualizacji przekonań. Organizacja wysokiej jakości decyzyjnej nie traktuje decyzji jako punktu końcowego — traktuje ją jako hipotezę do weryfikacji. Tetlock wskazuje, że superprognozisci wyróżniają się częstotliwością i stylem aktualizacji: robią wiele małych korekt w miarę napływu nowych danych, zamiast trwać przy pierwotnej ocenie lub zmieniać ją radykalnie i rzadko (Tetlock & Gardner, 2015). W praktyce zarządowej przekłada się to na jedno konkretne pytanie, które organizacja powinna zadawać regularnie: czy założenia, na których opierała się ta decyzja, nadal obowiązują — i jeśli nie, co z tego wynika?

Zakończenie

Resulting jest pułapką szczególnie kosztowną dlatego, że jest niewidoczna dla tych, którzy w nią wpadają. Zarząd, który nagradza menedżera za dobry wynik projektu realizowanego w warunkach wysokiej niepewności, jest przekonany, że ocenia kompetencje. W rzeczywistości ocenia szczęście — i nie ma żadnego powodu, by myśleć inaczej, dopóki nie ma dostępu do dokumentacji procesu sprzed poznania wyniku.

Argument dla CFO sceptycznego wobec tej zmiany brzmi nie „przestań mierzyć wyniki", lecz „zacznij mierzyć również proces — żebyś wiedział, co robić, gdy wyniki są złe i czy masz powód świętować, gdy są dobre." Precedens istnieje: banki i fundusze hedgingowe od lat bronią przed regulatorami decyzji o złych wynikach przez demonstrację rzetelności procesu. To nie jest rewolucja kulturowa — to rozszerzenie języka oceny o wymiar, który dotychczas był nieobserwowalny z przyczyn organizacyjnych, nie epistemicznych.

Pierwszy krok jest prosty i nie kosztuje nic. Przed każdą istotną decyzją — inwestycyjną, personalną, strategiczną — poproś menedżera o pisemne uzasadnienie: jakie dane wejściowe wykorzystano, jakie alternatywy rozważono, jakie założenia są krytyczne i z jakim prawdopodobieństwem scenariusz bazowy się ziści. Jeśli tego dokumentu nie ma, wynik nic nie powie o jakości decyzji. Powie tylko o stanie świata w dniu, gdy projekt dobiegł końca.

Organizacje, które to rozumieją, nie rezygnują z pomiaru wyników. Uzupełniają go o pomiar procesu — i dzięki temu wiedzą, czego właściwie uczą się z sukcesów i porażek swoich menedżerów.

Bibliografia

Aiyer, S., Kam, H., Ng, K., Young, N., Shi, J., & Feldman, G. (2023). Outcomes affect evaluations of decision quality: Replication and extensions of Baron and Hershey's (1988) outcome bias experiment 1. International Review of Social Psychology, 36. https://doi.org/10.5334/irsp.751

Andersen, S., & Hjortskov, M. (2016). Cognitive biases in performance evaluations. Journal of Public Administration Research and Theory, 26, 647–662. https://doi.org/10.1093/jopart/muv036

Baron, J. (2008). Thinking and deciding (4. wyd.). Cambridge University Press.

Duke, A. (2018). Thinking in bets: Making smarter decisions when you don't have all the facts. Portfolio/Penguin.

Fischhoff, B. (2011). Judgment and decision making. Earthscan.

Gigerenzer, G. (2014). Risk savvy: How to make good decisions. Viking.

Kahneman, D., Sibony, O., & Sunstein, C. R. (2021). Noise: A flaw in human judgment. Little, Brown Spark.

Nisbett, R. E. (2016). Mindware: Narzędzia skutecznego myślenia (A. Nowak-Młynikowska, Tłum.). Wydawnictwo Smak Słowa.

Sezer, O., Zhang, T., Gino, F., & Bazerman, M. H. (2016). Overcoming the outcome bias: Making intentions matter. Organizational Behavior and Human Decision Processes, 137, 13–26. https://doi.org/10.1016/j.obhdp.2016.07.001

Sibony, O. (2020). You're about to make a terrible mistake: How biases distort decision-making and what you can do about it. Little, Brown Spark.

Tetlock, P. E., & Gardner, D. (2015). Superforecasting: The art and science of prediction. Crown.

Tyszka, T. (2010). Decyzje: Perspektywa psychologiczna i ekonomiczna. Wydawnictwo Naukowe Scholar.