Ocena brak
Opracowywanie i prezentacja materiału statystycznego
Wymagany Adobe Flash Player wesja 10.0.0 lub nowsza.
Transkrypt
Statystyka wykłady – dr Niewczas
Opracowywanie i prezentacja materiału statystycznego
Kontrola materiału statystycznego
Materiał surowy – zgromadzony, ale nie opracowany materiał statystyczny
Kontrola materiału statystycznego:
1. Formalna (ilościowa) – pod względem kompletności materiału
2. Merytoryczna (jakościowa) – ujawnienie błędów w zjawiskach
Błędy popełnione w badaniach:
1. Losowe – popełnione w badaniach reprezentacyjnych
2. Nielosowe – popełnione w badaniach częściowych i pełnych
Ze względu na charakter oddziaływania dzielimy błędy na:
1. Systematyczne (tendencyjne, jednokierunkowe)
2. Przypadkowe (wielokierunkowe)
Opracowanie materiału statystycznego
Porządkowanie materiału statystycznego:
− Rosnące (niemalejące)
x1 ≤ x 2 ≤ ... ≤ x N
(badanie całkowite)
x1 ≤ x2 ≤ ... ≤ xn
(badanie częściowe)
− Malejące (nierosnące)
x1 ≥ x2 ≥ ... ≥ x N
x1 ≥ x2 ≥ ... ≥ xn
UWAGA: tak prezentowany materiał to szereg prosty (szczegółowy, wyliczający)
Oznaczenia:
X – badana cecha
xi – wartość badanej cechy u i-tej jednostki
i – 1, 2, …, N
i – 1, 2, …, n
N – liczebność populacji generalnej
n – liczebność próby
Dla cech jakościowych zapis:
A1 ≥ A2 ≥ ... ≥ Ak
A1 ≤ A2 ≤ ... ≤ Ak
nie zawsze jest moŜliwy.
-1–
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
Oznaczenia:
A – cecha jakościowa
Ai – i-ta odmiana cechy jakościowej
i – 1, 2, …, k
k – liczba odmian cechy jakościowej
Stosujemy wówczas porządkowanie odmian cechy jakościowej według innego klucza – np.
według alfabetu.
Rodzaje grupowań materiału statystycznego:
− Typologiczne (jakościowe)
− Wariancyjne
Klasyfikacja – stosowanie w badaniach tych samych zasad grupowania (zapewnia
porównywalność wyników w czasie i przestrzeni)
Efekt grupowania:
1. Szereg rozdzielczy punktowy
i
1
2
.
.
.
p
xi
x1
x2
wi
w1
w2
di
d1
d2
.
.
.
.
.
.
.
.
.
.
.
.
xp
X
∑
Ni
N1
N2
Np
N
wp
1
dp
100
Oznaczenia:
i – 1, 2, …, p
p – liczba wariantów
Ni, wi, di – wagi przyporządkowane poszczególnym wariantom
wi – wskaźnik struktury
di – wskaźnik odsetek (procentowy)
wi =
Ni
N
= p i
N
∑ Ni
i =1
d i = wi ⋅ 100
-2–
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
2. Szereg rozdzielczy przedziałowy
i
1
2
.
.
.
k
x0i – x1i
x01 – x11
x02 – x12
wi
w1
w2
di
d1
d2
.
.
.
.
.
.
.
.
.
.
.
.
x0p – x1k
X
∑
Ni
N1
N2
Nk
N
wk
1
dk
100
Oznaczenia :
x0i – dolna granica i-tego przedziału (klasy)
x1i – górna granica i-tego przedziału (klasy)
i – 1, 2, …, k
k – liczba przedziałów
UWAGA: wagi muszą być róŜne od zera. Jeśli tak nie jest, naleŜy połączyć taką klasę z klasą
(klasami) sąsiadującymi.
Dodatkowe oznaczenia:
ci = x1i − x 0i
&
xi =
rozpiętość klasy
x0i − x1i
środek klasy
2
Sposoby określania liczby klas:
k ≤ 5 log N
k = 1 + 3,222 log N
5 ≤ k ≤ 25
Wzór 1 Liczba klas
Sposoby określania rozpiętości klas:
c=
x max − xmin
k
Wzór 2 Rozpiętość klas
-3–
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
Prezentacja materiału statystycznego
Formy prezentacji:
1. Szeregi
2. Tablice
3. Wykresy
Szereg statystyczny – przynajmniej uporządkowany materiał statystyczny.
Podział szeregów:
1. Ze względu na formę (budowę):
a. Szczegółowe
b. Rozdzielcze
c. Kumulacyjne
2. Ze względu na przekazywaną teść:
a. Strukturalne
b. Przestrzenne
c. Czasowe
Rodzaje tablic:
− Robocze
− Wynikowe
− Proste
− ZłoŜone
− Szczegółowe
− Ogólne
Rodzaje wykresów:
− Liniowe
− Powierzchniowe
− Bryłowe
− Punktowe
− Mapowe
− Specjalne
UWAGA: Szereg kumulacyjny powstaje w oparciu o szereg prosty lub rozdzielczy
Przykład: Na bazie szeregu rozdzielczego punktowego
i
1
2
.
.
p
∑
xi
x1
x2
wi
w1
w2
Cum wi
w1
w1 + w2
.
.
.
.
.
.
xp
X
wp
1
1
X
śółty – szereg rozdzielczy punktowy
Zielony – szereg kumulacyjny
-4–
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
Opis struktury zbiorowości
Miary przeciętne
Miary przeciętne:
1. Przeciętne klasyczne (średnie):
a. Średnia arytmetyczna
b. Średnia harmoniczna
c. Średnie potęgowe
2. Przeciętne pozycyjne:
a. Dominanta
b. Mediana
Przeciętne klasyczne
Średnia arytmetyczna – rzeczywista lub hipotetyczna wartość badanej cechy uzyskana przy
załoŜeniu, Ŝe na kaŜdą jednostkę przypada identyczna część ogólnej sumy wartości tej cechy.
z
X =
x
∑~ ⋅g
i
i =1
i
z
∑g
i =1
i
Wzór 3 Średnia arytmetyczna - wzór ogólny
Gdzie:
g i = N i ; g i = wi ; g i = d i
~ = x ;~ = x ;~ = x
& i xi
xi
i xi
i
Sposoby liczenia:
1. Szereg prosty
N
X=
∑x
i =1
i
N
Wzór 4 Średnia arytmetyczna dla szeregu prostego
-5–
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
2. Szereg rozdzielczy punktowy
g i = N i ; i = 1,2,..., p; ~i = xi
x
a.
p
X=
∑x ⋅N
i
i =1
i
p
∑N
i =1
i
Wzór 5 Średnia arytmetyczna dla szeregu punktowego - wariant 1
g i = wi ; i = 1,2,..., p; ~i = xi
x
b.
p
X = ∑ xi ⋅ wi
i =1
Wzór 6 Średnia arytmetyczna dla szeregu punktowego - wariant 2
g i = d i ; i = 1,2,..., p; ~i = xi
x
c.
p
X=
∑x ⋅d
i
i =1
i
100
Wzór 7 Średnia arytmetyczna dla szeregu punktowego - wariant 3
UWAGA: JeŜeli g1 = g 2 = ... = g p = g to:
p
X =
∑x
i =1
i
p
Wzór 8 Średnia arytmetyczna dla szeregu punktowego - wariant 4
3. Szereg rozdzielczy przedziałowy
g i = N i ; i = 1,2,..., k ; ~i = xi
x &
a.
k
X=
&
∑x ⋅N
i
i =1
i
k
∑N
i =1
i
Wzór 9 Średnia arytmetyczna dla szeregu przedziałowego - wariant 1
-6–
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
g i = wi ; i = 1,2,..., k ; ~i = xi
x &
b.
k
&
X = ∑ xi ⋅ wi
i =1
Wzór 10 Średnia arytmetyczna dla szeregu przedziałowego - wariant 2
g i = d i ; i = 1,2,..., k ; ~i = xi
x &
c.
k
X=
&
∑x ⋅d
i
i =1
i
100
Wzór 11 Średnia arytmetyczna dla szeregu przedziałowego - wariant 3
UWAGA: JeŜeli g1 = g 2 = ... = g k = g , to:
k
X =
∑x
i =1
i
k
Wzór 12 Średnia arytmetyczna dla szeregu przedziałowego - wariant 4
Przeszkody utrudniające wykorzystanie średniej arytmetycznej do opisu tendencji centralnej:
1. Merytoryczne:
a. Wartości skrajne (dotyczy danych indywidualnych)
b. Niesymetryczność rozkładu, róŜne rozpiętości klas (szereg rozdzielczy
przedziałowy)
2. Formalne – otwarty wariant lub otwarta klasa
Przeciętne pozycyjne
Dominanta – wartość najczęściej występująca w badanej zbiorowości
UWAGA: musimy dysponować szeregiem rozdzielczym, maksimum musi być wyraźnie
widoczne, w przypadku prób – rozkład musi być jednomodalny).
Wyznaczanie dla danych indywidualnych:
max i{N i }
max i{wi } xi = D
max i{d i }
-7–
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
Wyznaczanie dla danych pogrupowanych:
max i{N i }
max i{wi } x0 D − x1D
max i{d i }
Uczynimy to poprawnie gdy interwały klas będą równe
Po określeniu klasy dominant wyznaczamy ją ze wzoru interpolacyjnego:
D = x0 +
g 0 − g −1
⋅c
(g 0 − g −1 ) + (g 0 − g +1 )
Wzór 13 Dominanta
UWAGA: Podstawiając
wyznaczanie dominanty.
g i = N i ; g i = wi ; g i = d i
otrzymujemy
trzy
sposoby
JeŜeli interwały klas nie są równe, dominantę moŜna wyznaczyć posługując się pojęciem
gęstości ( f i ) .
fi =
gi
ci
Szukamy wówczas:
max i{ f i } → x0 D − x1D
przy czym:
fi =
N i wi d i
=
=
ci
ci
ci
Po określeniu klasy dominanty liczymy ją korzystając ze wzoru:
D = x0 +
f 0 − f −1
⋅c
( f 0 − f −1 ) + ( f 0 − f +1 ) o
Wzór 14 Dominanta z wykorzystaniem gęstości
UWAGA: Nie moŜna obliczyć dominanty, gdy znajduje się w ramach otwartego wariantu
(klasy).
Mediana – wartość środkowa
UWAGA: Musimy dysponować szeregiem kumulacyjnym
Kwantyle – miary (wartości) znajdujące się w określonej części uporządkowanej zbiorowości.
-8–
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
Qr – Kwartyle – z podziału zbiorowości na 4 części
Dr – Decyle – z podziału zbiorowości na 10 części
Cr – Centyle – z podziału zbiorowości na 1000 części
M e = Q2 = D5 = C50
Wyznaczanie pozycji kwantyla:
1. W przypadku danych indywidualnych:
a.
pozycja
gi = Ni
Kr = r ⋅
N +1
L
r = 1, 2, …, L (rząd kwantyla)
L = 4, 10, 100, 1000 (w praktyce)
UWAGA: Wykorzystujemy Kwantyle rzędu r = 1, 2, …, L – 1, bowiem KL jest zazwyczaj
znany
b.
pozycja
Kr = r ⋅
c.
pozycja
g i = wi
1
L
gi = di
Kr = r ⋅
100
L
2. W przypadku danych pogrupowanych:
a.
pozycja
gi = Ni
Kr = r ⋅
N
L
b. c. jak wyŜej
-9–
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
Poszukiwanie kwantyli:
1. Dane indywidualne
i
1
2
3
.
.
.
p
xi
x1
x2
x3
.
.
.
xp
X
∑
Cum Ni
N1
N1 + N2
N1 + N2 + N3
.
.
.
N
X
W kolumnie „cum Ni“ poszukujemy takiej liczby, w której po raz pierwszy mieści się pozycja
danego kwantyla. JeŜeli liczba N1 + N2 ≥ Pozycja Kr po raz pierwszy, to z tego wynika, Ŝe
poszukiwany Kr jest zazwyczaj równy x2.
Identycznie postępujemy w przypadku pozostałych wag (wi, di). W tych przypadkach
rozwiązania są zawsze jednoznaczne.
2. Dane pogrupowane
i
1
2
3
.
.
.
k
∑
x0i – x1i
x01 – x11
x02 – x12
x03 – x13
.
.
.
x0k – x1k
X
Cum wi
w1
w1 + w2
w1 + w2 + w3
.
.
.
1
X
W kolumnie „cum wi” poszukujemy takiej liczby, w której po raz pierwszy mieści się pozycja
poszukiwanego Kr. JeŜeli liczba w1 + w2 + w3 ≥ Pozycja Kr po raz pierwszy, to z tego wynika,
Ŝe Kr znajduje się w 3 klasie. Identycznie postępujemy w przypadku pozostałych wag.
Wartości kwantyli wyznaczamy ze wzoru interpolacyjnego:
a.
K r ≈ x0 +
r⋅
b.
K r ≈ x0 +
r⋅
gi = N i
N
− cumN i −1
L
⋅ c0
N0
g i = wi
N
− cumwi −1
L
⋅ c0
w0
- 10 –
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
gi = di
c.
K r ≈ x0 +
r⋅
N
− cumd i −1
L
⋅ c0
d0
UWAGA: Podstawiając w powyŜszych wzorach L = 4, L = 10, L = 100, moŜna otrzymać
wzory na kwartyle (Qr), decyle (Dr), centyle (Cr).
Porównanie miar przeciętnych
1. Rozkład symetryczny
gi
xi
X = M
e
= D
2. Rozkład niesymetryczny
a. Lewostronna asymetria
gi
X < M
e
xi
< D
b. Prawostronna asymetria
gi
xi
X > M
e
> D
- 11 –
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
Miary rozproszenia (zmienności, dyspersji, zróŜnicowania)
Miary rozproszenia:
1. Klasyczne
a. Bezwzględne
i. Odchylenie standardowe
b. Względne
i. Współczynnik zmienności
2. Pozycyjne
a. Bezwzględne
i. Rozstęp
ii. Odchylenie kwartylowe
b. Względne
i. Współczynniki zmienności
Miary klasyczne
xi – q
q – constans
MoŜliwe sytuacje:
1. q < x min ⇒ xi − q > 0
2. q > xmax ⇒ xi − q < 0
3.
x min ≤ q ≤ x max ⇒ xi − q ≥ 0; xi − q ≤ 0
Dla sytuacji (3) moŜliwe są rozwiązania:
1.
xi − q
2.
(xi − q )2
W praktyce stosujemy:
1.
xi − X
2.
(x
i
- odchylenie przeciętne
− X)
2
- odchylenie standardowe
Odchylenie standardowe
x
∑ (~ − X )
z
σ=
i =1
2
i
⋅ gi
z
∑g
i =1
i
Wzór 15 Odchylenie standardowe dla całej populacji
- 12 –
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
z
S=
x
∑ (~ − x )
i =1
2
i
⋅ gi
z
∑g
i =1
i
Wzór 16 Odchylenie standardowe dla próby
0 ≤ σ < ...
Klasyczny współczynnik zmienności
V =
σ
X
Wzór 17 Klasyczny współczynnik zmienności
0 ≤ V < ...
UWAGA: Interpretując wyraŜamy V w procentach
Powody wprowadzenia V:
1. σ moŜna wykorzystać do porównań zmienności wartości tej samej cechy X
2. σ nie moŜe być stosowane do porównań zmienności wartości dwóch róŜnych cech
(X1, X2).
UWAGA:
2
σ
Wzór 18 Wariancja
Miary pozycyjne
Rozstęp – empiryczny obszar zmienności
R x = x max − x min
Wzór 19 Rozstęp
- 13 –
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
W przypadku szeregu rozdzielczego przedziałowego moŜe być szacowany następująco:
*
x
1k
01
R =x −x
Wzór 20 Rozstęp dla szeregu przedziałowego
Wówczas:
*
Rx = Rx
*
Rx > Rx
*
Rx < Rx
Zastosowanie – określenie liczby klas lub ich rozpiętości.
Odchylenie kwartylowe
Q=
Q3 − Q1
2
Wzór 21 Odchylenie kwartylowe
Rozkład
symetryczny
gi
25%
25%
25%
25%
Q1
Q=
Q2
Q3
xi
2a
=a
2
UWAGA: Podstawową wadą tej miary jest fakt uwzględniania 50% wartości badanej cechy
(tzw. Środkowych wartości).
Pozycyjny współczynnik zmienności
V =
Q
Me
Wzór 22 Pozycyjny współczynnik zmienności
UWAGA: Interpretując uwzględniamy V wyraŜone w procentach
- 14 –
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
Uzupełnienia
1. Porównanie bezwzględnych miar zmienności
Q < d 3)
gi
f(x)
r. normalny. (α 4 = 3)
r. spłaszczony w stosunku do r.n. (α 4 < 3)
xi
E = α4 − 3
- 19 –
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
2. Miary pozycyjne
Wk =
Q
Q
=
R D D g − Dq
Wzór 36 Pozycyjny wskaźnik kurtozy
RD – rozstęp międzydecylowy
r. wysmukły w stosunku do r.n. (Wk < 0,263)
gi
r. normalny (Wk = 0,263)
f(x)
r. spłaszczony w stosunku do r.n. (Wk > 0,263)
xi
UWAGA: Zmiana w interpretacji wynika z odmiennej konstrukcji współczynnika
pozycyjnego w stosunku do współczynnika klasycznego.
Koncentracja Lorenza
Koncentracja Lorenza – nierównomierny rozdział sumy wartości badanej cechy pomiędzy
poszczególne jednostki
B
Zi 1
a
b
0
A
Wi
1
- 20 –
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
Prosta OB. – linia równomiernego rozdziału (zupełny brak koncentracji, kaŜda jednostka
otrzymuje taką samą część ogólnej sumy wartości).
Krzywa OB. – krzywa koncentracji
Łamana OAB – absolutna koncentracja (całą sumą wartości dysponuje jedna jednostka)
Krzywa koncentracji znajduje się poniŜej prostej OB. Przy Wi ≤ Z i poniŜej prostej OB.
W praktyce otrzymujemy zamiast krzywej koncentracji linię łamaną (zmierza ona do krzywej
koncentracji, gdy w naszym przypadku k → ∞ ).
Współczynnik koncentracji
B
Zi 1
_
Zi
Zi-1
0
K=
Zi
Wi-1
A
Wi
Wi
Wi
1
a
a
0,5 − b
=
=
= 1 − 2b
a + b 0,5
0,5
Gdzie: b – powierzchnia trapezu
k
b = ∑ Z i ⋅ wi
i =1
wi = Wi − Wi −1
Zi =
Z i −1 + Z i
2
k
Z i −1 + Z i
K = 1− 2 ⋅ ∑
⋅ wi = 1 − ∑ (Z i −1 + Z i ) ⋅ wi
2
i =1
i =1
k
Wzór 37 Współczynnik koncentracji
- 21 –
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
0 ≤ K ≤1
Zupełny brak
koncentracji
Absolutna
koncentracja
UWAGA: Wzór dostosowany jest do sytuacji gdy dla i, Wi ≥ Z i w przypadku Wi ≤ Z i naleŜy:
1. Korzystać z innego wzoru
2. Zmienic zasadę porządkowania wartości badanej cechy na przeciwną
PRZYKŁAD: Rozklład indywiudalnych dochodów ludności USA w 1964 r., dla grup
ludności uszeregowanych według malejących dochodów, prezenrowały się następująca:
Nr grupy
i
1
2
3
4
5
6
7
8
9
10
∑
Procentowe grupy ludności według
malejących dochodów
Odsetek
ogólnego
dochodu
wi100
Górne 10%
Drugie 10%
Trzecie 10%
Czwarte 10%
Piąte 10%
Szóste 10%
Siódme 10%
Ósme 10%
Dziewiąte 10%
Dolne 10%
100%
zi100
30
15
13
11
9
8
6
4
3
1
100
wi
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
1,0
zi
0,30
0,15
0,13
0,11
0,09
0,08
0,06
0,04
0,03
0,01
1,00
Wi
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
X
Zi
0,30
0,45
0,58
0,69
0,78
0,86
0,92
0,96
0,99
1,00
X
Ze względu na to, Ŝe Wi ≤ Z i zmieniamy zasadę porządkowania z malejącej na rosnącą:
Nr
grupy
Procentowe grupy ludności
według rosnących dochodów
Odsetek ogólnego
dochodu
i
1
2
3
4
5
6
7
8
9
10
wi100
Dolne 10%
Dziewiąte 10%
Ósme 10%
Siódme 10%
Szóste 10%
Piąte10%
Czwarte 10%
Trzecie 10%
Drugie 10%
Górne 10%
100%
zi100
1
3
4
6
8
9
11
13
15
30
100
∑
wi
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
1,0
- 22 –
Utworzony przez: Martucha
zi
0,01
0,02
0,04
0,06
0,08
0,09
0,11
0,13
0,15
0,30
1,00
Wi
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,00
Zi
0,01
0,04
0,08
0,14
0,22
0,31
0,42
0,55
0,70
1,00
X
Zi-1
0
0,01
0,04
0,08
0,14
0,22
0,31
0,42
0,55
0,70
X
Statystyka wykłady – dr Niewczas
Z i −1 + Z i
0,01
0,05
0,12
0,22
0,36
0,53
0,73
0,97
1,25
1,70
X
i
1
2
3
4
5
6
7
8
9
10
∑
( Z i −1 + Z i ) ⋅ wi
0,001
0,005
0,012
0,022
0,036
0,053
0,073
0,097
0,125
0,170
0,594
k
K = 1 − ∑ (Z i −1 + Z i ) ⋅ wi = 1 − 0,594 = 0,406
i =1
Porównanie w czasie (przestrzeni) rozkładów tej samej cechy (X)
Charakterystyki
1. Miary przeciętne
Wykorzystanie do porównań
X
TAK
Me
TAK
D
TAK
σ ,Q
NIE
V
TAK
2. Miary dyspersji
3. Miary asymetrii
α 3 ,Wa
TAK
4. Miary kurtozy
α 4 ,Wk
TAK
- 23 –
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
Porównanie w określonym czasie i przestrzeni rozkładów róŜnych cech
(X1, X2, …, Xm)
Charakterystyki
5. Miary przeciętne
Wykorzystanie do porównań
X
NIE
Me
NIE
D
NIE
σ ,Q
NIE
V
TAK
6. Miary dyspersji
7. Miary asymetrii
α 3 ,Wa
TAK
8. Miary kurtozy
α 4 ,Wk
TAK
UWAGA: Do porównań wykorzystujemy cały czas identyczne charakterystyki (klasyczne lub
pozycyjne).
- 24 –
Utworzony przez: Martucha
Opracowywanie i prezentacja materiału statystycznego
Kontrola materiału statystycznego
Materiał surowy – zgromadzony, ale nie opracowany materiał statystyczny
Kontrola materiału statystycznego:
1. Formalna (ilościowa) – pod względem kompletności materiału
2. Merytoryczna (jakościowa) – ujawnienie błędów w zjawiskach
Błędy popełnione w badaniach:
1. Losowe – popełnione w badaniach reprezentacyjnych
2. Nielosowe – popełnione w badaniach częściowych i pełnych
Ze względu na charakter oddziaływania dzielimy błędy na:
1. Systematyczne (tendencyjne, jednokierunkowe)
2. Przypadkowe (wielokierunkowe)
Opracowanie materiału statystycznego
Porządkowanie materiału statystycznego:
− Rosnące (niemalejące)
x1 ≤ x 2 ≤ ... ≤ x N
(badanie całkowite)
x1 ≤ x2 ≤ ... ≤ xn
(badanie częściowe)
− Malejące (nierosnące)
x1 ≥ x2 ≥ ... ≥ x N
x1 ≥ x2 ≥ ... ≥ xn
UWAGA: tak prezentowany materiał to szereg prosty (szczegółowy, wyliczający)
Oznaczenia:
X – badana cecha
xi – wartość badanej cechy u i-tej jednostki
i – 1, 2, …, N
i – 1, 2, …, n
N – liczebność populacji generalnej
n – liczebność próby
Dla cech jakościowych zapis:
A1 ≥ A2 ≥ ... ≥ Ak
A1 ≤ A2 ≤ ... ≤ Ak
nie zawsze jest moŜliwy.
-1–
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
Oznaczenia:
A – cecha jakościowa
Ai – i-ta odmiana cechy jakościowej
i – 1, 2, …, k
k – liczba odmian cechy jakościowej
Stosujemy wówczas porządkowanie odmian cechy jakościowej według innego klucza – np.
według alfabetu.
Rodzaje grupowań materiału statystycznego:
− Typologiczne (jakościowe)
− Wariancyjne
Klasyfikacja – stosowanie w badaniach tych samych zasad grupowania (zapewnia
porównywalność wyników w czasie i przestrzeni)
Efekt grupowania:
1. Szereg rozdzielczy punktowy
i
1
2
.
.
.
p
xi
x1
x2
wi
w1
w2
di
d1
d2
.
.
.
.
.
.
.
.
.
.
.
.
xp
X
∑
Ni
N1
N2
Np
N
wp
1
dp
100
Oznaczenia:
i – 1, 2, …, p
p – liczba wariantów
Ni, wi, di – wagi przyporządkowane poszczególnym wariantom
wi – wskaźnik struktury
di – wskaźnik odsetek (procentowy)
wi =
Ni
N
= p i
N
∑ Ni
i =1
d i = wi ⋅ 100
-2–
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
2. Szereg rozdzielczy przedziałowy
i
1
2
.
.
.
k
x0i – x1i
x01 – x11
x02 – x12
wi
w1
w2
di
d1
d2
.
.
.
.
.
.
.
.
.
.
.
.
x0p – x1k
X
∑
Ni
N1
N2
Nk
N
wk
1
dk
100
Oznaczenia :
x0i – dolna granica i-tego przedziału (klasy)
x1i – górna granica i-tego przedziału (klasy)
i – 1, 2, …, k
k – liczba przedziałów
UWAGA: wagi muszą być róŜne od zera. Jeśli tak nie jest, naleŜy połączyć taką klasę z klasą
(klasami) sąsiadującymi.
Dodatkowe oznaczenia:
ci = x1i − x 0i
&
xi =
rozpiętość klasy
x0i − x1i
środek klasy
2
Sposoby określania liczby klas:
k ≤ 5 log N
k = 1 + 3,222 log N
5 ≤ k ≤ 25
Wzór 1 Liczba klas
Sposoby określania rozpiętości klas:
c=
x max − xmin
k
Wzór 2 Rozpiętość klas
-3–
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
Prezentacja materiału statystycznego
Formy prezentacji:
1. Szeregi
2. Tablice
3. Wykresy
Szereg statystyczny – przynajmniej uporządkowany materiał statystyczny.
Podział szeregów:
1. Ze względu na formę (budowę):
a. Szczegółowe
b. Rozdzielcze
c. Kumulacyjne
2. Ze względu na przekazywaną teść:
a. Strukturalne
b. Przestrzenne
c. Czasowe
Rodzaje tablic:
− Robocze
− Wynikowe
− Proste
− ZłoŜone
− Szczegółowe
− Ogólne
Rodzaje wykresów:
− Liniowe
− Powierzchniowe
− Bryłowe
− Punktowe
− Mapowe
− Specjalne
UWAGA: Szereg kumulacyjny powstaje w oparciu o szereg prosty lub rozdzielczy
Przykład: Na bazie szeregu rozdzielczego punktowego
i
1
2
.
.
p
∑
xi
x1
x2
wi
w1
w2
Cum wi
w1
w1 + w2
.
.
.
.
.
.
xp
X
wp
1
1
X
śółty – szereg rozdzielczy punktowy
Zielony – szereg kumulacyjny
-4–
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
Opis struktury zbiorowości
Miary przeciętne
Miary przeciętne:
1. Przeciętne klasyczne (średnie):
a. Średnia arytmetyczna
b. Średnia harmoniczna
c. Średnie potęgowe
2. Przeciętne pozycyjne:
a. Dominanta
b. Mediana
Przeciętne klasyczne
Średnia arytmetyczna – rzeczywista lub hipotetyczna wartość badanej cechy uzyskana przy
załoŜeniu, Ŝe na kaŜdą jednostkę przypada identyczna część ogólnej sumy wartości tej cechy.
z
X =
x
∑~ ⋅g
i
i =1
i
z
∑g
i =1
i
Wzór 3 Średnia arytmetyczna - wzór ogólny
Gdzie:
g i = N i ; g i = wi ; g i = d i
~ = x ;~ = x ;~ = x
& i xi
xi
i xi
i
Sposoby liczenia:
1. Szereg prosty
N
X=
∑x
i =1
i
N
Wzór 4 Średnia arytmetyczna dla szeregu prostego
-5–
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
2. Szereg rozdzielczy punktowy
g i = N i ; i = 1,2,..., p; ~i = xi
x
a.
p
X=
∑x ⋅N
i
i =1
i
p
∑N
i =1
i
Wzór 5 Średnia arytmetyczna dla szeregu punktowego - wariant 1
g i = wi ; i = 1,2,..., p; ~i = xi
x
b.
p
X = ∑ xi ⋅ wi
i =1
Wzór 6 Średnia arytmetyczna dla szeregu punktowego - wariant 2
g i = d i ; i = 1,2,..., p; ~i = xi
x
c.
p
X=
∑x ⋅d
i
i =1
i
100
Wzór 7 Średnia arytmetyczna dla szeregu punktowego - wariant 3
UWAGA: JeŜeli g1 = g 2 = ... = g p = g to:
p
X =
∑x
i =1
i
p
Wzór 8 Średnia arytmetyczna dla szeregu punktowego - wariant 4
3. Szereg rozdzielczy przedziałowy
g i = N i ; i = 1,2,..., k ; ~i = xi
x &
a.
k
X=
&
∑x ⋅N
i
i =1
i
k
∑N
i =1
i
Wzór 9 Średnia arytmetyczna dla szeregu przedziałowego - wariant 1
-6–
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
g i = wi ; i = 1,2,..., k ; ~i = xi
x &
b.
k
&
X = ∑ xi ⋅ wi
i =1
Wzór 10 Średnia arytmetyczna dla szeregu przedziałowego - wariant 2
g i = d i ; i = 1,2,..., k ; ~i = xi
x &
c.
k
X=
&
∑x ⋅d
i
i =1
i
100
Wzór 11 Średnia arytmetyczna dla szeregu przedziałowego - wariant 3
UWAGA: JeŜeli g1 = g 2 = ... = g k = g , to:
k
X =
∑x
i =1
i
k
Wzór 12 Średnia arytmetyczna dla szeregu przedziałowego - wariant 4
Przeszkody utrudniające wykorzystanie średniej arytmetycznej do opisu tendencji centralnej:
1. Merytoryczne:
a. Wartości skrajne (dotyczy danych indywidualnych)
b. Niesymetryczność rozkładu, róŜne rozpiętości klas (szereg rozdzielczy
przedziałowy)
2. Formalne – otwarty wariant lub otwarta klasa
Przeciętne pozycyjne
Dominanta – wartość najczęściej występująca w badanej zbiorowości
UWAGA: musimy dysponować szeregiem rozdzielczym, maksimum musi być wyraźnie
widoczne, w przypadku prób – rozkład musi być jednomodalny).
Wyznaczanie dla danych indywidualnych:
max i{N i }
max i{wi } xi = D
max i{d i }
-7–
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
Wyznaczanie dla danych pogrupowanych:
max i{N i }
max i{wi } x0 D − x1D
max i{d i }
Uczynimy to poprawnie gdy interwały klas będą równe
Po określeniu klasy dominant wyznaczamy ją ze wzoru interpolacyjnego:
D = x0 +
g 0 − g −1
⋅c
(g 0 − g −1 ) + (g 0 − g +1 )
Wzór 13 Dominanta
UWAGA: Podstawiając
wyznaczanie dominanty.
g i = N i ; g i = wi ; g i = d i
otrzymujemy
trzy
sposoby
JeŜeli interwały klas nie są równe, dominantę moŜna wyznaczyć posługując się pojęciem
gęstości ( f i ) .
fi =
gi
ci
Szukamy wówczas:
max i{ f i } → x0 D − x1D
przy czym:
fi =
N i wi d i
=
=
ci
ci
ci
Po określeniu klasy dominanty liczymy ją korzystając ze wzoru:
D = x0 +
f 0 − f −1
⋅c
( f 0 − f −1 ) + ( f 0 − f +1 ) o
Wzór 14 Dominanta z wykorzystaniem gęstości
UWAGA: Nie moŜna obliczyć dominanty, gdy znajduje się w ramach otwartego wariantu
(klasy).
Mediana – wartość środkowa
UWAGA: Musimy dysponować szeregiem kumulacyjnym
Kwantyle – miary (wartości) znajdujące się w określonej części uporządkowanej zbiorowości.
-8–
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
Qr – Kwartyle – z podziału zbiorowości na 4 części
Dr – Decyle – z podziału zbiorowości na 10 części
Cr – Centyle – z podziału zbiorowości na 1000 części
M e = Q2 = D5 = C50
Wyznaczanie pozycji kwantyla:
1. W przypadku danych indywidualnych:
a.
pozycja
gi = Ni
Kr = r ⋅
N +1
L
r = 1, 2, …, L (rząd kwantyla)
L = 4, 10, 100, 1000 (w praktyce)
UWAGA: Wykorzystujemy Kwantyle rzędu r = 1, 2, …, L – 1, bowiem KL jest zazwyczaj
znany
b.
pozycja
Kr = r ⋅
c.
pozycja
g i = wi
1
L
gi = di
Kr = r ⋅
100
L
2. W przypadku danych pogrupowanych:
a.
pozycja
gi = Ni
Kr = r ⋅
N
L
b. c. jak wyŜej
-9–
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
Poszukiwanie kwantyli:
1. Dane indywidualne
i
1
2
3
.
.
.
p
xi
x1
x2
x3
.
.
.
xp
X
∑
Cum Ni
N1
N1 + N2
N1 + N2 + N3
.
.
.
N
X
W kolumnie „cum Ni“ poszukujemy takiej liczby, w której po raz pierwszy mieści się pozycja
danego kwantyla. JeŜeli liczba N1 + N2 ≥ Pozycja Kr po raz pierwszy, to z tego wynika, Ŝe
poszukiwany Kr jest zazwyczaj równy x2.
Identycznie postępujemy w przypadku pozostałych wag (wi, di). W tych przypadkach
rozwiązania są zawsze jednoznaczne.
2. Dane pogrupowane
i
1
2
3
.
.
.
k
∑
x0i – x1i
x01 – x11
x02 – x12
x03 – x13
.
.
.
x0k – x1k
X
Cum wi
w1
w1 + w2
w1 + w2 + w3
.
.
.
1
X
W kolumnie „cum wi” poszukujemy takiej liczby, w której po raz pierwszy mieści się pozycja
poszukiwanego Kr. JeŜeli liczba w1 + w2 + w3 ≥ Pozycja Kr po raz pierwszy, to z tego wynika,
Ŝe Kr znajduje się w 3 klasie. Identycznie postępujemy w przypadku pozostałych wag.
Wartości kwantyli wyznaczamy ze wzoru interpolacyjnego:
a.
K r ≈ x0 +
r⋅
b.
K r ≈ x0 +
r⋅
gi = N i
N
− cumN i −1
L
⋅ c0
N0
g i = wi
N
− cumwi −1
L
⋅ c0
w0
- 10 –
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
gi = di
c.
K r ≈ x0 +
r⋅
N
− cumd i −1
L
⋅ c0
d0
UWAGA: Podstawiając w powyŜszych wzorach L = 4, L = 10, L = 100, moŜna otrzymać
wzory na kwartyle (Qr), decyle (Dr), centyle (Cr).
Porównanie miar przeciętnych
1. Rozkład symetryczny
gi
xi
X = M
e
= D
2. Rozkład niesymetryczny
a. Lewostronna asymetria
gi
X < M
e
xi
< D
b. Prawostronna asymetria
gi
xi
X > M
e
> D
- 11 –
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
Miary rozproszenia (zmienności, dyspersji, zróŜnicowania)
Miary rozproszenia:
1. Klasyczne
a. Bezwzględne
i. Odchylenie standardowe
b. Względne
i. Współczynnik zmienności
2. Pozycyjne
a. Bezwzględne
i. Rozstęp
ii. Odchylenie kwartylowe
b. Względne
i. Współczynniki zmienności
Miary klasyczne
xi – q
q – constans
MoŜliwe sytuacje:
1. q < x min ⇒ xi − q > 0
2. q > xmax ⇒ xi − q < 0
3.
x min ≤ q ≤ x max ⇒ xi − q ≥ 0; xi − q ≤ 0
Dla sytuacji (3) moŜliwe są rozwiązania:
1.
xi − q
2.
(xi − q )2
W praktyce stosujemy:
1.
xi − X
2.
(x
i
- odchylenie przeciętne
− X)
2
- odchylenie standardowe
Odchylenie standardowe
x
∑ (~ − X )
z
σ=
i =1
2
i
⋅ gi
z
∑g
i =1
i
Wzór 15 Odchylenie standardowe dla całej populacji
- 12 –
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
z
S=
x
∑ (~ − x )
i =1
2
i
⋅ gi
z
∑g
i =1
i
Wzór 16 Odchylenie standardowe dla próby
0 ≤ σ < ...
Klasyczny współczynnik zmienności
V =
σ
X
Wzór 17 Klasyczny współczynnik zmienności
0 ≤ V < ...
UWAGA: Interpretując wyraŜamy V w procentach
Powody wprowadzenia V:
1. σ moŜna wykorzystać do porównań zmienności wartości tej samej cechy X
2. σ nie moŜe być stosowane do porównań zmienności wartości dwóch róŜnych cech
(X1, X2).
UWAGA:
2
σ
Wzór 18 Wariancja
Miary pozycyjne
Rozstęp – empiryczny obszar zmienności
R x = x max − x min
Wzór 19 Rozstęp
- 13 –
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
W przypadku szeregu rozdzielczego przedziałowego moŜe być szacowany następująco:
*
x
1k
01
R =x −x
Wzór 20 Rozstęp dla szeregu przedziałowego
Wówczas:
*
Rx = Rx
*
Rx > Rx
*
Rx < Rx
Zastosowanie – określenie liczby klas lub ich rozpiętości.
Odchylenie kwartylowe
Q=
Q3 − Q1
2
Wzór 21 Odchylenie kwartylowe
Rozkład
symetryczny
gi
25%
25%
25%
25%
Q1
Q=
Q2
Q3
xi
2a
=a
2
UWAGA: Podstawową wadą tej miary jest fakt uwzględniania 50% wartości badanej cechy
(tzw. Środkowych wartości).
Pozycyjny współczynnik zmienności
V =
Q
Me
Wzór 22 Pozycyjny współczynnik zmienności
UWAGA: Interpretując uwzględniamy V wyraŜone w procentach
- 14 –
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
Uzupełnienia
1. Porównanie bezwzględnych miar zmienności
Q < d 3)
gi
f(x)
r. normalny. (α 4 = 3)
r. spłaszczony w stosunku do r.n. (α 4 < 3)
xi
E = α4 − 3
- 19 –
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
2. Miary pozycyjne
Wk =
Q
Q
=
R D D g − Dq
Wzór 36 Pozycyjny wskaźnik kurtozy
RD – rozstęp międzydecylowy
r. wysmukły w stosunku do r.n. (Wk < 0,263)
gi
r. normalny (Wk = 0,263)
f(x)
r. spłaszczony w stosunku do r.n. (Wk > 0,263)
xi
UWAGA: Zmiana w interpretacji wynika z odmiennej konstrukcji współczynnika
pozycyjnego w stosunku do współczynnika klasycznego.
Koncentracja Lorenza
Koncentracja Lorenza – nierównomierny rozdział sumy wartości badanej cechy pomiędzy
poszczególne jednostki
B
Zi 1
a
b
0
A
Wi
1
- 20 –
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
Prosta OB. – linia równomiernego rozdziału (zupełny brak koncentracji, kaŜda jednostka
otrzymuje taką samą część ogólnej sumy wartości).
Krzywa OB. – krzywa koncentracji
Łamana OAB – absolutna koncentracja (całą sumą wartości dysponuje jedna jednostka)
Krzywa koncentracji znajduje się poniŜej prostej OB. Przy Wi ≤ Z i poniŜej prostej OB.
W praktyce otrzymujemy zamiast krzywej koncentracji linię łamaną (zmierza ona do krzywej
koncentracji, gdy w naszym przypadku k → ∞ ).
Współczynnik koncentracji
B
Zi 1
_
Zi
Zi-1
0
K=
Zi
Wi-1
A
Wi
Wi
Wi
1
a
a
0,5 − b
=
=
= 1 − 2b
a + b 0,5
0,5
Gdzie: b – powierzchnia trapezu
k
b = ∑ Z i ⋅ wi
i =1
wi = Wi − Wi −1
Zi =
Z i −1 + Z i
2
k
Z i −1 + Z i
K = 1− 2 ⋅ ∑
⋅ wi = 1 − ∑ (Z i −1 + Z i ) ⋅ wi
2
i =1
i =1
k
Wzór 37 Współczynnik koncentracji
- 21 –
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
0 ≤ K ≤1
Zupełny brak
koncentracji
Absolutna
koncentracja
UWAGA: Wzór dostosowany jest do sytuacji gdy dla i, Wi ≥ Z i w przypadku Wi ≤ Z i naleŜy:
1. Korzystać z innego wzoru
2. Zmienic zasadę porządkowania wartości badanej cechy na przeciwną
PRZYKŁAD: Rozklład indywiudalnych dochodów ludności USA w 1964 r., dla grup
ludności uszeregowanych według malejących dochodów, prezenrowały się następująca:
Nr grupy
i
1
2
3
4
5
6
7
8
9
10
∑
Procentowe grupy ludności według
malejących dochodów
Odsetek
ogólnego
dochodu
wi100
Górne 10%
Drugie 10%
Trzecie 10%
Czwarte 10%
Piąte 10%
Szóste 10%
Siódme 10%
Ósme 10%
Dziewiąte 10%
Dolne 10%
100%
zi100
30
15
13
11
9
8
6
4
3
1
100
wi
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
1,0
zi
0,30
0,15
0,13
0,11
0,09
0,08
0,06
0,04
0,03
0,01
1,00
Wi
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
X
Zi
0,30
0,45
0,58
0,69
0,78
0,86
0,92
0,96
0,99
1,00
X
Ze względu na to, Ŝe Wi ≤ Z i zmieniamy zasadę porządkowania z malejącej na rosnącą:
Nr
grupy
Procentowe grupy ludności
według rosnących dochodów
Odsetek ogólnego
dochodu
i
1
2
3
4
5
6
7
8
9
10
wi100
Dolne 10%
Dziewiąte 10%
Ósme 10%
Siódme 10%
Szóste 10%
Piąte10%
Czwarte 10%
Trzecie 10%
Drugie 10%
Górne 10%
100%
zi100
1
3
4
6
8
9
11
13
15
30
100
∑
wi
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
1,0
- 22 –
Utworzony przez: Martucha
zi
0,01
0,02
0,04
0,06
0,08
0,09
0,11
0,13
0,15
0,30
1,00
Wi
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,00
Zi
0,01
0,04
0,08
0,14
0,22
0,31
0,42
0,55
0,70
1,00
X
Zi-1
0
0,01
0,04
0,08
0,14
0,22
0,31
0,42
0,55
0,70
X
Statystyka wykłady – dr Niewczas
Z i −1 + Z i
0,01
0,05
0,12
0,22
0,36
0,53
0,73
0,97
1,25
1,70
X
i
1
2
3
4
5
6
7
8
9
10
∑
( Z i −1 + Z i ) ⋅ wi
0,001
0,005
0,012
0,022
0,036
0,053
0,073
0,097
0,125
0,170
0,594
k
K = 1 − ∑ (Z i −1 + Z i ) ⋅ wi = 1 − 0,594 = 0,406
i =1
Porównanie w czasie (przestrzeni) rozkładów tej samej cechy (X)
Charakterystyki
1. Miary przeciętne
Wykorzystanie do porównań
X
TAK
Me
TAK
D
TAK
σ ,Q
NIE
V
TAK
2. Miary dyspersji
3. Miary asymetrii
α 3 ,Wa
TAK
4. Miary kurtozy
α 4 ,Wk
TAK
- 23 –
Utworzony przez: Martucha
Statystyka wykłady – dr Niewczas
Porównanie w określonym czasie i przestrzeni rozkładów róŜnych cech
(X1, X2, …, Xm)
Charakterystyki
5. Miary przeciętne
Wykorzystanie do porównań
X
NIE
Me
NIE
D
NIE
σ ,Q
NIE
V
TAK
6. Miary dyspersji
7. Miary asymetrii
α 3 ,Wa
TAK
8. Miary kurtozy
α 4 ,Wk
TAK
UWAGA: Do porównań wykorzystujemy cały czas identyczne charakterystyki (klasyczne lub
pozycyjne).
- 24 –
Utworzony przez: Martucha