Ocena brak

Statystyka - analiza korelacji i regresji

Autor /weronika Dodano /15.03.2011

Wymagany Adobe Flash Player wesja 10.0.0 lub nowsza.

praca w formacie pdf Statystyka - analiza korelacji i regresji

Transkrypt





















©

Materiały do wykładu 7 ze Statystyki

©

¢

¨

£

§

¦

¤

¥

¤

£

¢

 

¡

 

Analiza ZALE NOŚCI pomiędzy CECHAMI
(Analiza KORELACJI i REGRESJI)
• korelacyjny wykres rozrzutu (korelogram)
• rodzaje zale ności (brak, nieliniowa, liniowa)
pomiar siły zale ności liniowej (współczynnik korelacji
Pearsona, współczynnik korelacji rang Spearmana)
• liniowa funkcja regresji

Badamy jednostki statystyczne pod kątem dwóch ró nych
cech - cechy X oraz cechy Y.
Pytanie jakie sobie stawiamy to:
czy istnieje zale ność pomiędzy cechą X i cechą Y ?
Je eli taka zale ność istnieje, to poszukujemy odpowiedzi na
kolejne pytania:
• jaki jest charakter tej zale ności oraz
• jaka jest jej siła ?

Zale ność korelacyjna pomiędzy cechami X i Y
charakteryzuje się tym, e wartościom jednej cechy
są przyporządkowane ściśle określone wartości
średnie drugiej cechy.
Informacja statystyczna niezbędna do zbadania zale ności
pomiędzy cechami X i Y przyjmuje najczęściej 2 formy:
szereg(i) szczegółowy par informacji o cechach X
oraz Y; ma on postać ciągu par { (xi , yi) } ,
szereg rozdzielczy w postaci tzw. tablicy
korelacyjnej.



 

















©

Materiały do wykładu 7 ze Statystyki

©

¢

¨

£

§

¦

¤

¥

¤

£

¢

 

¡

 

Korelacyjny wykres rozrzutu
KORELOGRAM
Je eli obie cechy X i Y są mierzalne, to analizę zale ności
rozpoczynamy od sporządzenia korelogrmamu.
Korelogram jest to wykres punktowy par { (xi , yi) }.
(Excel nazywa taki wykres: „wykresem XY”).
W kartezjańskim układzie współrzędnych x0y pary te odpowiadają
punktom o współrzędnych

(x

y

) (x

y ) L ( xn yn )

PRZYKŁADY korelogramów (ka

dy punkt oznaczono x)

(a)

(b)

(c)

(d)



 

















©

Materiały do wykładu 7 ze Statystyki

©

¢

¨

£

§

¦

¤

¥

¤

£

¢

 

¡

 

Je eli otrzymamy bezładny zbiór punktów,
który nie przypomina kształtem wykresu znanego związku
funkcyjnego, to powiemy e pomiędzy cechami X i Y nie ma
zale ności. Ilustruje to rysunek (a).
Na rysunku (b) widać, e smuga punktów układa się w kształt
paraboli. Powiemy zatem, e istnieje zale ność pomiędzy
cechami X i Y i jest to związek nieliniowy; zale ność
nieliniowa.
Na rysunkach (c) i (d) smuga punktów układa się wzdłu linii
prostej. Powiemy zatem, e istnieje zale ność pomiędzy
cechami X i Y i jest to związek liniowy; zale ność liniowa.
Rysunki (e) i (f) ilustrują przypadki błędów we wnioskowaniu
o zale ności cech X i Y na podstawie korelogramu.
Rysunek (e) – za mało danych. Zebrano dane (punkty
obwiedzione kwadratem) i z korelogramu wynika brak
zale ności. W rzeczywistości jest zale ność liniowa.
Rysunek (f) – nietypowe dane. Trzy ostatnie punkty
(odseparowane) to dane nietypowe. Sugerują zale ność
nieliniową (parabola). Po odrzuceniu tych nietypowych
informacji widać, e jest wyraźna zale ność liniowa.
(e)
(f)















©

©

¢

¨

£

§

¦

¤

¥

¤

£

¢

 

¡

 

Współczynnik korelacji (Pearsona) rxy obliczamy dla cech
ilościowych wg następującego wzoru:

C(X Y )
rxy =
sx s y
gdzie:
C(X,Y) – kowariancja pomiędzy cechami X i Y
sx (sy) – odchylenie standardowe cechy X (cechy Y)
Kowariancja jest kluczowym parametrem rozkładu dwóch cech w
badaniu zale ności cech ilościowych X i Y. Wylicza się ją wg
następującego wzoru (dla szeregu(ów) szczegółowego):

C(X Y ) =

n

∑ (x − x )( y
n
i

i

− y)

i=

Współczynnik korelacji (Pearsona)

rxy

spełnia zawsze warunek:

− ≤ rxy ≤
Współczynnik korelacji (Pearsona) jest miarą symetryczną, tzn.

rxy = ryx



WSPÓŁCZYNNIK KORELACJI (Pearsona)

 

Pomiar KIERUNKU i SIŁY zale ności liniowej
Szeregi szczegółowe



Materiały do wykładu 7 ze Statystyki

 

















©

©

¢

¨

£

§

¦

¤

¥

¤

£

¢

 

¡

 

INTERPRETACJA współczynnika korelacji rxy
Znak współczynnika rxy mówi nam o kierunku zale

ności. I tak:
• znak plus – zale ność liniowa dodatnia, tzn. wraz ze wzrostem
wartości jednej cechy rosną średnie wartości drugiej z cech,
• znak minus – zale ność liniowa ujemna, tzn. wraz ze wzrostem
wartości jednej cechy maleją średnie wartości drugiej z cech.

Wartość bezwzględna współczynnika korelacji, czyli |rxy|,
mówi nam o sile zale ności. Je eli wartość bezwzględna |rxy|:
• jest mniejsza od 0,2, to praktycznie brak związku liniowego
pomiędzy badanymi cechami,
• 0,2 – 0,4 - zale ność liniowa wyraźna, lecz niska,
• 0,4 – 0,7 - zale ność liniowa umiarkowana,
• 0,7 – 0,9 - zale ność liniowa znacząca,
• powy ej 0,9 - zale ność liniowa bardzo silna.

PRZYKŁAD 1
W grupie 7 studentów badano zale ność pomiędzy oceną z egzaminu ze
statystyki (Y), a liczbą dni poświęconych na naukę (X).

nr
studenta

ocena
z egzaminu
(Y)

liczba dni
nauki
(X)

i
1
2
3
4
5
6
7

yi
2,0
2,5
2,5
4,0
5,0
3,0
2,0

xi
5
13
16
28
42
16
6



Materiały do wykładu 7 ze Statystyki

















©

©

¢

¨

£

§

¦

¤

¥

¤

£

¢

 

¡

 

6,0

ocena (Y )

5,0
4,0
3,0
2,0
1,0
0,0
0

5

10

15

20

25

30

35

40

45

dni nauki (X )

Widać tutaj wyraźną zale ność liniową (dodatnią).
Obliczamy współczynnik korelacji (Pearsona).
UWAGA ! Liczebność populacji jest mała (n=7). U yjemy tak małego
przykładu tylko dlatego, aby sprawnie zilustrować procedurę liczenia.
Obliczanie średnich, wariancji oraz kowariancji.

( yi − y ) (xi − x )

i

yi

1
2
3
4
5
6
7

2,0
2,5
2,5
4,0
5,0
3,0
2,0

5
13
16
28
42
16
6

-1,0
-0,5
-0,5
1,0
2,0
0,0
-1,0

-13
-5
-2
10
24
-2
-12

1,00
0,25
0,25
1,00
4,00
0,00
1,00

169
25
4
100
576
4
144

13,0
2,5
1,0
10,0
48,0
0,0
12,0

razem 21,0

126

x

x

7,50

1022

86,5

n=

xi

x=

=

y=

=

 

Sporządzamy korelogram.



Materiały do wykładu 7 ze Statystyki









©

©

¢

¨

£

§

¦

¤

¥

¤

£

¢

 

¡

 

C( X Y ) =



sy =



=



sx =



sy =

 

=



sx =

Materiały do wykładu 7 ze Statystyki

=
=

=

Współczynnik korelacji (Pearsona) wynosi dla danych z przykładu 1:

C(X Y )
rxy =
=
sx s y

×

=+

INTERPRETACJA
W badanej grupie studentów wystąpiła bardzo silna dodatnia
(znak plus) zale ność liniowa pomiędzy czasem nauki
(cecha X), a uzyskaną oceną z egzaminu (cecha Y).
Oznacza to, e wraz ze wzrostem czasu poświęconego na naukę rosła w tej
grupie uzyskiwana ocena.















©

©

¢

¨

£

§

¦

¤

¥

¤

£

¢

 

¡

 

Współczynnik korelacji rang (Spearmana) rS u ywamy w
przypadku gdy:
1. choć jedna z badanych cech jest cechą jakościową
(niemierzalną), ale istnieje mo liwość uporządkowania
(ponumerowania) wariantów ka dej z cech;
2. cechy mają charakter ilościowy (mierzalny), ale liczebność
zbiorowości jest mała (n0) o |a| jednostek lub
• spadnie (je eli a 0) - je eli liczba dni nauki wzrośnie
o jednostkę (o 1 dzień), to ocena z egzaminu wzrośnie o 0,085 (inaczej: ka dy
dzień nauki podnosi średnio ocenę o 0,085)
wyraz wolny (b=1,47) - stały, niezale ny od liczby dni nauki (x=0) poziom
uzyskanej oceny z egzaminu to 1,47 (poni ej niedostatecznej)
Otrzymaną funkcję regresji, wykreśloną na korelogramie pokazano na
rysunku:
6,0

ocena (Y )

5,0
4,0

y = 0,085x + 1,47
2

3,0

R = 0,976

2,0
1,0
0,0
0

5

10

15

20

25

30

35

40

45

dni nauki (X )

Wykorzystanie funkcji regresji do prognozowania
Słuchacz o numerze 8 (przypomnijmy, e badanie przeprowadzono dla n=7
studentów) poświęcił na naukę 20 dni (x8=20).
Jakiej oceny mo e spodziewać się (średnio) przy takim nakładzie czasu na
naukę ?

y =

⋅x +

=

×

+

=

Poświęcając 20 dni na naukę słuchacz mo e spodziewać się (średnio !!!)
oceny 3,17 czyli „dst+”.



Materiały do wykładu 7 ze Statystyki















©

©

¢

¨

£

§

¦

¤

¥

¤

£

¢

 

¡

 

2

współczynnik zbie ności (ϕ )
2

współczynnik determinacji (R )
• średni błąd szacunku (pierwiastek z tzw. wariancji resztowej)
2

Współczynnik zbie ności (ϕ ):
n

∑(y

− yi )

∑(y

ϕ =

i

− y)

i=
n

i

≤ϕ ≤

gdzie

i=

2

Im ϕ jest bli szy 0, tym dopasowanie jest lepsze.
2

Współczynnik determinacji (R ):

R = −ϕ

≤R ≤

gdzie

Przy zale ności liniowej mo na go wyznaczyć równie jako:

R = rxy
2

lub

R = ryx

Im R jest bli szy 1, tym dopasowanie jest lepsze.



Podstawowymi miarami „dobroci” dopasowania linii regresji do danych
empirycznych są:



Problem oceny dopasowania był ju częściowo omawiany (wykład 6) przy okazji
analitycznego wygładzania szeregu czasowego za pomocą liniowej funkcji trendu.

 

Ocena dopasowania funkcji regresji
do danych empirycznych



Materiały do wykładu 7 ze Statystyki











©

©

¢

¨

£

§

¦

¤

¥

¤

£

¢

 

¡

 

i=

n−k

gdzie:
k – liczba szacowanych parametrów funkcji regresji
(tutaj k=2; szacujemy dwa parametry: a i b )
2
Jest to pierwiastek z wariancji resztowej (Se ).

Nazwa bierze się od reszty (ei), którą definiuje się jako:
ró nicę pomiędzy wartością empiryczną, a wartością teoretyczną
cechy zale nej Y:

ei = yi − yi
PRZYKŁAD 5
Ocena dopasowania funkcji regresji dla danych z przykładu 1.

y=

⋅ xi +

( yi − y ) ( yi − yi ) ( yi − y ) ( yi − yi )
 

yi =

 

i

yi

xi

yi

1
2
3
4
5
6
7

2,0
2,5
2,5
4,0
5,0
3,0
2,0

5
13
16
28
42
16
6

1,90
2,58
2,83
3,85
5,04
2,83
1,98

-1,0
-0,5
-0,5
1,0
2,0
0,0
-1,0

0,10
-0,08
-0,33
0,15
-0,04
0,17
0,02

1,00
0,25
0,25
1,00
4,00
0,00
1,00

0,0100
0,0064
0,1089
0,0225
0,0016
0,0289
0,0004

x

x

x

x

x

7,50

0,1787

razem



− yi )



Se = Se =

i



∑(y



n

 

Średni błąd szacunku (Se):



Materiały do wykładu 7 ze Statystyki

 

 

















©

©

¢

¨

£

§

¦

¤

¥

¤

£

¢

 

¡

 

Współczynnik zbie ności
n

∑(y
ϕ =

i

i=
n

− yi )
=

∑(y

i

=

− y)

i=

Współczynnik determinacji

R = −ϕ = −

=

lub wg innego wzoru

R = rxy = (

)

=

Uwaga! Ró nice w wartości współczynnika determinacji wynikają z błędów zaokrągleń
na etapie liczenia współczynników: zbie ności i korelacji

Średni błąd szacunku
n

∑(y − y )
i

i

i=

Se =

n−k

=

=



W celu wyrobienia sobie poglądu nt. wielkości tego błędu odniesiemy go
średniego poziomu cechy Y:

Se

y

×

=

×

=

Uwaga! Nie mo na u yć znanego współczynnika zmienności (Vx) poniewa średnia
wartość reszt jest teoretycznie równa 0. Wystąpiłoby zatem dzielenie przez zero.

PODSUMOWANIE (przykład 5)
Wszystkie policzone miary dopasowania potwierdzają bardzo dobre
dopasowanie funkcji regresji do danych empirycznych.



Materiały do wykładu 7 ze Statystyki





 

















©

Materiały do wykładu 7 ze Statystyki

©

¢

¨

£

§

¦

¤

¥

¤

£

¢

 

¡

 

PRZYKŁAD 6
Na zakończenie wyznaczymy funkcję regresji dla danych z przykładu 3.
Badaniu poddano tam 400 studentów. Wcześniej otrzymaliśmy tam:

n=

y=

x=

sx =

rxy =

C( X Y ) =
Parametry funkcji regresji wynoszą:

C(X Y )
a=
=
sx

b = y − ax =

=



×

=

Funkcja regresji w przykładzie 3 ma postać:

yi =

⋅ xi +

Dobroć dopasowania do danych empirycznych mierzona współczynnikiem
determinacji wynosi:

R = rxy = (

)

=

Powy sza funkcja regresji w 88,7% objaśnia kształtowanie się oceny
z egzaminu (Y) w zale ności od czasu nauki (X).

WYKORZYSTANIE funkcji regresji do PROGNOZY oceny.
Słuchacz o numerze 401 poświęcił na naukę 20 dni (x401=20).
Jakiej oceny mo e się spodziewać (średnio) ?

y =

⋅x +

=

×

+

=

Poświęcając 20 dni na naukę słuchacz mo e spodziewać się (średnio !!!)
oceny 4,499 czyli „db+”.

Podobne prace

Do góry