Průměr a medián jsou dva základní statistické nástroje pro určení centrální hodnoty v souboru dat. Zatímco průměr je hodnota, která se vypočítá jako součet všech hodnot dělený jejich počtem, medián je prostřední hodnota seřazených dat.
Oba údaje mohou vypovídat o „typické“ hodnotě, ale liší se tím, jak reagují na extrémní hodnoty. Pokud máme ve vzorku hodnoty, které jsou výrazně vyšší nebo nižší než ostatní, může být průměr zavádějící, zatímco medián zůstane stabilnější.
Někdy je vhodnější průměr
Průměr se často používá v situacích, kdy je rozložení dat symetrické a bez extrémů. Typickým příkladem je průměrný čas strávený u určitých úkolů nebo průměrné hodnocení studentů ve třídě. Když rozložení hodnot odpovídá normální křivce (tedy když má většina hodnot podobnou tendenci), je průměr vhodným způsobem, jak shrnout střední hodnotu dat.
Pro lepší pochopení, kdy je vhodné použít průměr a kdy medián, je nejprve nutné vysvětlit si pojmy symetrické rozložení dat a normální křivka:
- Symetrické rozložení dat znamená, že data jsou rozložena rovnoměrně kolem střední hodnoty. To znamená, že na obou stranách od středu se nachází stejný počet hodnot a obě strany mají stejnou „váhu“. Příkladem symetrického rozložení dat je házení mincí. Pravděpodobnost padnutí panny nebo orla je stejná, takže po dostatečném počtu hodů se výsledky symetricky rozloží kolem střední hodnoty.
- Normální křivka (někdy nazývaná Gaussova křivka) je grafickým znázorněním symetrického rozložení dat, kde většina hodnot leží blízko středu a s rostoucí vzdáleností od středu se počet hodnot snižuje. Tvar křivky připomíná zvon. Mnoho jevů v přírodě a společnosti se touto křivkou řídí – například výška lidí, IQ nebo chyby měření.
Gaussova křivka
Průměr je vhodným ukazatelem centrální hodnoty, pokud je rozložení dat symetrické a neobsahuje extrémní hodnoty. Pokud data odpovídají normální křivce, průměr přesně reprezentuje střední hodnotu. Pokud je rozložení dat asymetrické nebo obsahuje extrémní hodnoty, je lepším ukazatelem centrální hodnoty medián. Extrémní hodnoty mohou zkreslit průměr a způsobit, že nebude přesně reprezentovat typickou hodnotu.
Na data s extrémními hodnotami je lepší medián
V případě dat s extrémními hodnotami je tedy lepší použít medián, protože je ovlivněn pouze polovinou hodnot. Medián se často používá při analýze údajů o cenách nemovitostí v určité oblasti, protože jeden nebo dva velmi drahé domy mohou zvýšit průměrnou cenu všech domů. Medián vlastně odstraňuje vliv extrémních hodnot na celkové vyjádření centrální tendence, což průměr nedokáže.
Představte si situaci, kdy vejde Bill Gates do baru plného průměrných lidí. Když se zeptáte na průměrný příjem v baru, bude to astronomická částka, protože extrémní hodnota příjmu Billa Gatese velmi razantně zvýší průměr.
Pokud bychom ale pro tutéž situaci použili medián, dostaneme hodnotu, která bude více odpovídat realitě ostatních návštěvníků baru. Právě tento příklad ukazuje, jak může medián lépe reprezentovat typickou hodnotu ve skupině s extrémními hodnotami.
Právě proto ekonomické analýzy často využívají medián – protože bohatství či příjem obyvatel bývají značně nerovnoměrně rozložené. Medián lépe reprezentuje hodnotu typickou pro jednotlivce, zatímco průměr by mohl kvůli několika nadprůměrně bohatým lidem naznačovat vyšší životní úroveň.
HDP na obyvatele
Proti tomu hrubý domácí produkt na obyvatele je prezentován jako průměrná hodnota, což znamená, že se celkový HDP země vydělí počtem obyvatel. Tento ukazatel je jednoduchý na pochopení a dobře vyjadřuje, jak produktivní je ekonomika na jednotlivce, nebo kolik bohatství na obyvatele ekonomika teoreticky generuje. Proto se používá jako univerzální měřítko pro porovnávání ekonomické úrovně mezi zeměmi.
Tento způsob výpočtu má však svá omezení, zejména proto, že HDP na obyvatele nezohledňuje nerovnoměrné rozdělení bohatství mezi jednotlivými vrstvami obyvatelstva. V ekonomikách s velkými majetkovými rozdíly může mít například malé procento nejbohatších občanů mnohem vyšší příjmy než zbytek populace, což vyžene průměrnou hodnotu HDP na obyvatele nahoru.
Tento ukazatel tedy nemusí odrážet reálnou životní úroveň průměrného obyvatele, zvláště pokud v zemi existuje výrazná majetková nerovnost. V některých případech může být vhodnější použít mediánový příjem nebo jiné ukazatele, které lépe reprezentují typickou životní úroveň většiny populace.
Který ukazatel tedy zvolit?
Klasickou ukázkou nesprávného použití může být tento příklad: když já sním tři porce sekané, zatímco Kuba Čížek a Petr Urban nedostanou ani jednu, v průměru jsme každý snědli jednu porci. Tedy jsme se docela dobře najedli, ačkoli Kubovi a Petrovi kručí v žaludku. Pokud se ale podíváme na medián, jehož hodnota je v tomto případě nula, odpovídá to více skutečnému stavu většiny redakce.
V průměru se všichni tři dobře najedli
Rozhodnutí mezi průměrem a mediánem závisí na tom, co chceme pomocí statistiky zjistit. Pokud nás zajímá celková výše určitého ukazatele, může být lepší použít průměr. Jestliže se ale snažíme najít hodnotu, která je typická pro běžného jednotlivce, například průměrnou velikost domu v oblasti, kde je několik velmi velkých domů, bude medián výstižnější.
Pokud se hodnoty výrazně liší, pak je medián spolehlivější, jelikož případné extrémy tolik neovlivňují výsledky. Průměr je užitečnější, když máme víceméně rovnoměrné rozložení hodnot, nebo jestliže potřebujeme výsledky na úrovni celku (například u průměrného zisku celé firmy). Když jde o rozhodnutí, zda použít medián nebo průměr, je vždy užitečné se nejprve zamyslet nad povahou dat a konkrétním účelem analýzy.
Rozhodování mezi průměrem a mediánem je nakonec otázkou vhodnosti vzhledem k účelu analýzy. Medián chrání před zkreslením způsobeným extrémními hodnotami, zatímco průměr může přinést hodnotné informace o celkovém rozložení. Klíčem je vědět, jaký pohled na data chceme prezentovat, a podle toho zvolit správnou statistickou metodu.
Zdroje: cso.ie, towardsdatascience.com, surveymethods.com, statology.org.