Korelace

Tento pojem pochází původně z latiny a znamená vzájemný vztah mezi dvěma veličinami (v našem případě to mohou být procesy). Vztah je popisován, tak že pokud nastane změna u jedné veličiny, tak se pak změna musí projevit i u druhé, jelikož obě na sobě závisejí.  Avšak korelace ještě neznamená kauzalitu, tedy příčinnost (vztah mezi příčinou a následkem).

Mírou nebo ukazatelem korelace mezi dvěma spojitými veličinami je koeficient r. Koeficient nabývá hodnot v intervalu [-1;1], kdy hodnota r= -1 mě informuje o dokonalém záporném lineárním vztahu, hodnota r=0 mě informuje o neexistenci lineárního vztahu a hodnota r=1 indikuje dokonale čistý lineární vztah. Tato metoda bývá používána ve fázi Analyze.

Regresní a korelační analýza
Příklady možných korelací.

Korelačních vztah lze vyjádřit graficky, ale grafická podoba musí být ještě otestována, abychom zjistili významnost hodnoty r. Testuje se pomocí hypotézy a hodnoty P-Value. Pokud je P-Value < 0.5, tak korelační koeficient statisticky významný a mezi zkoumanými veličinami existuje lineární vztah.

Na příkladu si ověříme jestli existuje lineární vztah mezi počtem prodejů jednotlivých prodejců a délky jejich prodejní praxe. Nejprve si data zobrazíme graficky a následně teorii ověříme. Z obrázku níže je jasně vidět možnost lineárního vztahu.

Korelační graf v programu Minitab.

Hodnotu koeficientu a významnost zjistíme následující cestou v programu Minitab.

Hodnota korelačního koeficientu.

Nejprve hodnota r nám říká, že jde takřka o dokonalý lineární vztah, který máme i potvrzený hodnotou P-Value =0, která nám říká, že koeficient je statisticky významný. Tedy můžeme říci, že mezi počtem prodejů a délkou praxe prodejců existuje lineární vztah. Jinými slovy čím delší praxe tím více prodaným produktů.

Regresní analýza

Regresní analýzou zjišťujeme závislost našeho vstupu (X1,X2….) na výstupu (Y).  Cílem regresní analýzy je odhadnout tento vztah co nejpřesněji. Oproti korelační analýze nehledáme pouze lineární vztah. Tedy naměřenými daty se proloží křivka, aby co nejlépe vystihla chování vzorku naměřených dat. V ideálním a nejjednodušším případě se bude jednat o lineární vztah, lineární regresi.

Při výběru správné regresní funkce se používá metoda nejmenších čtverců, tedy hledáme funkci, která leží nejblíže hodnotám našeho vzorku dat. Funkce, jak už bylo zmíněno nemusí být pouze lineární, ale třeba kvadratická, kubická či logaritmická. Ukazatelem správnosti modelu je tzv. koeficient determinace R2.

  • Koeficient determinace R2 – ukazatel adekvátnosti modelu, tu vyjadřuje v procentních bodech a říká nám kolik procent variability výstupu (Y) je způsobeno našimi vstupy (X1,X2….) či vstupem.
  • Koeficient determinace upravený R2 (adj) – upravený koeficient determinace, který zohledňuje počet prediktorů v modelu. Takto upravený koeficient je vhodné používat zejména při porovnávání modelů s různým počtem prediktorů.

Pro analýzu musí být splněny předpoklady normálního rozdělení a nezávislosti reziduí. V Minitabu nalezneme pod následující cestou.

V plovoucím okně po zadání vstupů a výstupů je nezbytné zadat i typ očekávaného regresního modelu. V prvním případě jsme vybrali model lineární, kdy R2 je 88.2% a regresní rovnice, která popisuje naši závislost délky praxe na počtu prodejů je Počet prodejů = -5.013 + 3.767 * Délka praxe.

regresní přímka
Lineární regresní přímka a její údaje v programu Minitab.

Při volbě kvadratického modelu, zjistíme, že pro náš příklad je tento model o něco vypovídavější, kdy R2 se rovná 89.1% a rovnice regrese je  Počet prodejů = -1.843 + 1.968 * Délka praxe + 0.1831 * Délka praxe2.

regresní přímka
Kvadratický model regresní přímka a její údaje v programu Minitab.

Při volbě kvadratického modelu, zjistíme, že pro náš příklad je tento model opět o něco vypovídavější, kdy R2 se rovná 91.2% a rovnice regrese je  Počet prodejů = 6.749 + 5.990 * Délka praxe + 2.015 * Délka praxe2 – 0.1200 * Délka praxe3.

Regresní a korelační analýza
Kubický model regresní přímky a její údaje v programu Minitab.