Spojitá data

ANOVA

Jde o zkratku anglických slov ANalysis Of VAriance – tedy ANOVA.  ANOVOu se porovnávají aritmetické průměry vybraných skupin. Pomocí této analýzy můžeme ověřit, zda pozorované veličiny se od sebe statisticky liší. Tedy, porovnávají se vzájemné polohy dat pozorovaných skupin. Podmínkou pro použití ANOVY je normalita dat. Normalitu mohu ověřit pomocí testu normality.

K čemu můžeme ANOVU použít?

Poměrně snadno můžeme získat odpovědi na otázky typu:

  • Trvá obsluha klienta na všech pobočkách stejně dlouho?
  • Mají letadla různých společností stejné zpoždění?
  • Existuje destinace do které se zavazadla ztrácejí častěji než do jiné?
  • Vyrábějí zaměstnanci přibližně stejné množství výrobku nebo někdo méně?

Příklad:

Chceme porovnat jestli je rozdíl ve zpoždění vlaků přijíždějících z různých směrů. Máme celkem čtyři směry a v každém jsme měřili týden. Předpokládáme, že data jsou normální. Avšak je vždy nutné data ověřit testem normality. V Minitabu si najdeme následující cestu:

V rolovacím okně vybereme Response data are in a separate…., jelikož data máme v různých datových sloupcích. Sloupce vybereme s kolonce Responses. V podmenu Graphs si můžeme vybrat, jaké grafy chceme zobrazit. A dáme OK.

Příklad jak připravit plovoucí okno pro ANOVU.

Zajímají nás poloha dat (mediány, průměry atd.), proto volím graf boxplot. Na první pohled je zřejmé, že se datové vzorky liší. Zejména data naměřená u vlaku ze směru Mělník.

ANOVA, Chí - kvadrát, Kruskal - Wallis
ANOVA a následná analýza.

Interval plotem porovnáme kolísání, jak uvnitř, tak i mimo skupiny. V tomto případě je kolísání uvnitř skupin shodné na rozdíl od kolísání vně skupin. Tedy můžeme zamítnout nulovou hypotézu.

Analýza interval plotu.

Ještě je dobré si situaci potvrdit výpisem z analýzy, kdy nás hlavně zajímá hodnota P-Value, která je v tomto případě rovna 0. To znamená, že zamítám nulovou hypotézu, že všechny průměry jsou stejné a přijímám alternativní. Minimálně jeden průměr se statisticky liší.

Na jaký výstup se u ANOVy zaměřit.

Test Normality

Zda jsou data normální či nikoliv, mohu velice snadno ověřit pomocí testu normality. Cestu k němu naleznete na obrázku níže. Poté v plovoucím okně stačí jen vybrat datový sloupec, který chcete testovat a dát ok.

Umístění testu normality v Minitabu.

Následně se vám objeví graf podobný tomu na obrázku dole. Nejdůležitějším údajem v legendě grafu je P-Value, která mi odpovídá na otázku: Jsou data normální?

  • Hodnota P-Value > 0.05, tak s největší pravděpodobností normální jsou
  • Hodnota P-Value < 0.05, tak s největší pravděpodobností normální nejsou
Analýza
Výsledek testu normality v programu Minitab. Data na obrázku, tak s největší pravděpodobností mají normální rozdělení.

 

Kruskal – Wallis Test

Tento test je používaný k porovnání dvou a více nezávislých vzorků dat stejných nebo různých velikostí. Je to neparametrická metoda, tudíž není vyžadována normalita dat. Porovnáváme vzájemnou polohu dat. Kruskal – Wallis je obdobou ANOVY, avšak pro neprarametrická rozdělení, proto platí i formulace výše uvedených otázek pro které je možno získat testem odpovědi. Na rozdíl od ANOVY neporovnává aritmetické průměry skupin, ale mediány. Tedy jedná se slabší test než je ANOVA, jelikož je zde vyšší pravděpodobnost chybného rozhodnutí na základě analýzy.

Příklad:

Chceme porovnat jestli je rozdíl ve zpoždění vlaků přijíždějících z různých směrů. Máme celkem čtyři směry a v každém jsme měřili týden. Avšak je vždy nutné data ověřit testem normality. V Minitabu si najdeme následující cestu:

Ověření normality dat skupin vzorků dat.

Z výsledků vyplývá, že druhá skupina má P-Value pouze 0.016 a tedy nemá normální rozdělení a k statistickému porovnání je třeba využít Kruskal-Wallisův test. Nalezneme ho v Minitabu pod následující cestou:

V tomto testu se neporovnávají průměry, ale mediány, je tedy o něco slabší než ANOVA. Z výsledků však vyplývá, že P-Value je rovna 0 a tudíž skupiny se statisticky odlišují.

Výsledek testu Kruskal-Wallis v programu Minitab.

Test rovnosti rozptylů

Neboli test for equal variances, tímto testem porovnáváme kolísání dat mezi dvěma nebo více vzorky dat. Tento test se používá v případě, že potřebujeme porovnat rozptyly skupin dat a to zejména pokud mají stejnou polohu. Poloha je dána většinou průměrem, ten může být v toleranci, avšak jednotlivá měření již být nemusí a v souboru dat může být větší množství případů, kdy byly naměřeny hodnoty mimo hranice procesu.

Příklad:

Chceme porovnat jestli je rozdíl v kolísání ve zpoždění vlaků přijíždějících z různých směrů. Máme celkem čtyři směry a v každém jsme měřili týden. Avšak je vždy nutné data ověřit testem normality. V Minitabu si najdeme následující cestu:

Určení normality dat.

Z výsledků vyplývá, že druhá skupina má P-Value pouze 0.016 a tedy nemá normální rozdělení. Nachází-li se v souboru skupin, alespoň jedna, která nemá normální rozdělení, sledujeme Levene’s Test, jinak Barlettův test (Multiple Comparison). Test rovnosti rozptylů nalezneme v Minitabu pod následující cestou:

Vyhodnocení testu rovnosti rozptylů.

P-value je menší než 0.05 a tedy zamítáme hypotézu, že všechny skupiny mají stejné kolísání. Rozptyly nejsou homogenní.

Diskrétní data

Chí – kvadrát

Někdy můžete také tento test nalézt pod názvem test dobré shody. Test se používá při porovnávání podílů počtů např. produktů, prodejů, defektů, zmetků, podíly investic, chyb na produktu nebo na formuláři.

  • Nulová hypotéza H0 je vždy : Podíly se sobě ve skupinách rovnají
  • Alternativní hypotéza H1: Podíl alespoň jedné ze skupin je statisticky odlišný od podílu některé jiné skupiny

Příklad:

Máme čtyři prodejce a chceme si porovnat jejich výkony a případně ověřit, zda nepracují pod své možností. Máme k dispozici data za poslední rok, která udávají kolik prodejce uzavřel obchodů a kolik obchodů zůstalo pouze příležitostmi. Data vypadají následovně:

Příklad přípravy dat.

Test nalezneme pomocí cesty:

Cesta v programu Minitab pro test Chí-kvadrát.

Následně v plovoucím okně vybereme sloupce s uzavřenými obchody a neúspěšnými příležitostmi a kolonky Rows, vybereme naše prodejce a dáme OK.

Příprava plovoucího okna pro Chí-kvadrát.

Následuje výsledek v textové podobě. Na první pohled je zřejmé, že se obchodníci od sebe statisticky liší. To zjistíme dle hodnoty P-Value. Ta je v tomto případě 0 a tedy menší než 0.05, tudíž zamítám nulovou hypotézu.

Dále můžeme z dat vyhodnotit potenciál všech prodejců. Třeba hned první Karel uzavřel za rok 2130 obchodů (na obrázku bod1), a tudíž pracoval nad svůj očekávaný potenciál, který je uveden jako druhý bod a má hodnotu 2024, třetí bod udává příspěvek do statistiky Chí-kvadrát, dále lze říci, že Petr a Hugo pracovali nad svůj potenciál, kdežto Robert nikoliv.

Vyhodnocení testu Chí-kvadrát v programu Minitab.