sobota, 22 maja 2010

Odkładając na półkę: „How to lie with statistics”

Cover of "How to Lie with Statistics"Cover of How to Lie with Statistics

Dawno nie odkładałem na półkę książki z wpisem na blogu. Cóż, ‘blog w moim życiu’, to coś co wciąż się zmienia i jeszcze kilka miesięcy temu czułem większą potrzebę wypowiedzi, niż obecnie. Tym razem jednak piszę. Dlatego, że o książce już wspomniałem. I dlatego, że muszę ją odłożyć nie na własną półkę, a na biblioteczną – ta różnica odległości i późniejszej dostępności ma znaczenie.

Książkę czytałem z przyjemnością i z przyjemnością relacjonowałem ją podczas lektury. Teraz przyjemność jest mniejsza, bo wszystko wydaje mi się oczywiste. Właściwie wniosek z tej lektury jest jeden – matematyka powinna być na maturze, a w tej matematyce nacisk powinien paść na statystykę. No… powiedzmy!

Powiedzmy, bo książka wskazuje typowe ‘oszustwa’ z wykorzystaniem statystyki (czy raczej: przy odwołaniu do statystyki), nie uczy jej jednak i nie zastępuje osobistego krytycyzmu. Raczej bawi (dużo żartów rysunkowych Irvinga Geisa) i przytacza trafiające do wyobraźni przykłady.

Na co więc uważać? Rozdział po rozdziale:
-- Dobór próbek (The Sample with the Built-in Bias). Ale z tym chyba wszyscy jesteśmy na bieżąco śledząc notowania kandydatów do urzędu prezydenckiego. Nawet dzisiaj słyszałem o wynikach sondażu, na ‘próbie telefonicznej’. Próbę dobrano starannie (z tego co zrozumiałem), ale sam fakt oparcia się na abonentach telefonii stacjonarnej może wypaczyć wyniki.
-- „Średnie” (The Well-Chosen Average), czyli coś o co ciągle walczę, a niektórzy nawet walczą na ulicach. Ciągle, bo mówiąc o płacach często mówi się o średniej arytmetycznej brutto, co jest wartością zapewne prawidłowo wyliczoną, ale z punktu widzenia odbioru przeciętnego pracownika zawyżoną. (Raz: bo brutto, i zwykle jako suma dochodów, a nie płaca podstawowa ‘na rękę’; dwa, bo płace nie mają rozkładu normalnego i średnia arytmetyczna jest wyraźnie wyższa od dominanty i mediany.)
--Wykresy bez podanej skali (The Little Figures That Are Not There), które wiele sugerują, a niewiele mówią…
-- Na różnice na poziomie błędu statystycznego (często w dodatku miar trudnych do określenia - Much Ado about Practically Nothing). Ilustrację problemu stanowi wyciąganie wniosku o większych szansach życiowych dziecka z różnicy 4 punktów IQ między rówieśnikami…
-- Rozciąanie i ściąganie wykresów (The Gee-Whis Graph), czyli bardziej wyrafinowanej metodzie manipulowania* wykresami niż brak skali. Tu skala jest, ale zwiększa się, lub zmniejsza wykres w zależności od potrzeb ilustratora.
-- Pole powierzchni (The One-Dimensional Picture). “Ładne” są wykresy, gdzie nie słupek, a miniaturka obiektu związanego z daną statystyką, przyjmuje odpowiednią wielkość. Tak, ładne, tyle że pole powierzchni zmienia się jako kwadrat rozmiaru liniowego. A więc ‘dwa razy’ wyższa lokomotywa (powiedzmy), ilustrująca dwa razy większy przewóz kolejowy (pozostając przy hipotetycznym przykładzie), faktycznie oznacza pole większe czterokrotnie. O ile zwracamy uwagę na liczby, to nie jest problem, ale przecież zwykle to sam obraz porusza wyobraźnię**…
-- Dane, które nie dotyczą tematu (The Semittached Figure), ale robią wrażenie (bądź ich źródło robi wrażenie). Ale to chyba oczywiste?
-- Korelacja nie musi oznaczać (sugerowanego) związku przyczynowego (Post Hoc Rides Again). Przypomina mi to anegdotyczny przykład (choć nie wiem, czy prawdziwy) dotyczący korelacji dzietności Szwedów z populacją bocianów w tym kraju. (Obie wartości miały maleć w podobnym tempie. Ale kto wyciągnąłby z tego wniosek, że brakuje bocianów do donoszenia dzieci?)
Podano jeszcze wiele innych, bardzo wyraźnych ‘zmyłek’ statystycznych (How to Statisticulate to rozdział wprost poświęcony celowym manipulacjom), ale poza wyostrzoną uwagą, nie ma na nie rady. Można, co najwyżej, zadać sobie czytając statystyki kilka pytań, które autor poleca (How to Talk Back to a Statistic): Kto tak mówi? (czy dane są wiarygodne); Skąd oni to wiedzą? (czy próbka jest wystarczająca); Czego brakuje? (czy dane są kompletne z punktu widzenia ilustrowanego problemu); Czy ktoś nie zmienił tematu? (w końcu to prosta zmyłka); i wreszcie: Czy to ma sens?

Sama książka została napisana w latach 50-tych (należy do całej serii zwracającej uwagę na różne możliwe formy manipulacji, na które warto zważać w życiu konsumenta i obywatela) i trudno mi cokolwiek do niej dzisiaj dodać. Tak też postąpił wydawca. Podczas lektury pukałem się czasem w czoło – bo kto dzisiaj nabierze się na reklamę odwołującą się do statystyki? Może w latach 50-tych, gdy naukę otaczano wręcz kultem – myślałem sobie. Ale później przypomniałem sobie krążące w mediach statystyki, które nie wiadomo skąd się wzięły, jakimi technikami je opracowano (a czasem wprost wiadomo, że nikt nie docierał do danych źródłowych, co nadal nie przeszkadza w powoływaniu się na nie). O ile więc jednym z wniosków jest waga nauczania statystyki w szkołach, o tyle większym problemem wydaje się wyrywkowy krytycyzm. Wierzy się w to, co pasuje do wyobrażeń i oczekiwań, odrzuca to, co do nich nie pasuje. Ale tego nie oduczy żadna książka.

---
Darell Huff How to lie with statistics, ilustracje: Irving Geis, W.W. Norton & Company, 1993 (pierwsze wydanie 1954)

*) Właściwie to powinna nastąpić tu uwaga generalna. Tytuł to: „Jak kłamać z wykorzystaniem statystyki”, co sugeruje celowe wprowadzanie w błąd. Tymczasem chodzi o bardzo różne zjawiska – od rzeczywiście celowego wprowadzenia w błąd, poprzez manipulację propagandową, położenie nacisku na wybrany aspekt sprawy, na niedokształceniu i nieumiejętności zrozumienia statystyki skończywszy. Książka zasadniczo nie uwzględnia najprostszego ‘kłamstwa z wykorzystaniem statystyki’, czyli zmyślenia statystyki. To jednak wybór zrozumiały, bo uwzględnienie klasycznych kłamstw rozsadziłoby tę małą książeczkę (140 stron).
**) Przykład z pociągami wymyśliłem na poczekaniu, nie mogąc załączyć ilustracji z książki z piecami hutniczymi. Obecnie rzadko widuje się tego typu wykresy, może dlatego, że typowe wykresy słupkowe bardzo łatwo tworzą programy komputerowe, a przeskalowanie rysunku wymaga więcej pracy. Próbowałem odnaleźć w pamięci przykład – owszem, pamiętam świetnie taki obrazek, który wbił mi się w pamięć, ilustrował on nierównowagę sił między Polską i Niemcami w 1939 roku (przedstawione w celu ilustracji bohaterstwa żołnierzy) przy pomocy sylwetek żołnierzy, czołgów, dział, samolotów…


Reblog this post [with Zemanta]

Brak komentarzy: