Ocena brak

Opracowywanie i prezentacja materiału statystycznego

Autor /barbara Dodano /26.03.2011

Wymagany Adobe Flash Player wesja 10.0.0 lub nowsza.

praca w formacie pdf Opracowywanie i prezentacja materiału statystycznego

Transkrypt

Statystyka wykłady – dr Niewczas

Opracowywanie i prezentacja materiału statystycznego
Kontrola materiału statystycznego
Materiał surowy – zgromadzony, ale nie opracowany materiał statystyczny
Kontrola materiału statystycznego:
1. Formalna (ilościowa) – pod względem kompletności materiału
2. Merytoryczna (jakościowa) – ujawnienie błędów w zjawiskach
Błędy popełnione w badaniach:
1. Losowe – popełnione w badaniach reprezentacyjnych
2. Nielosowe – popełnione w badaniach częściowych i pełnych
Ze względu na charakter oddziaływania dzielimy błędy na:
1. Systematyczne (tendencyjne, jednokierunkowe)
2. Przypadkowe (wielokierunkowe)

Opracowanie materiału statystycznego
Porządkowanie materiału statystycznego:
− Rosnące (niemalejące)

x1 ≤ x 2 ≤ ... ≤ x N

(badanie całkowite)

x1 ≤ x2 ≤ ... ≤ xn

(badanie częściowe)
− Malejące (nierosnące)

x1 ≥ x2 ≥ ... ≥ x N
x1 ≥ x2 ≥ ... ≥ xn
UWAGA: tak prezentowany materiał to szereg prosty (szczegółowy, wyliczający)
Oznaczenia:
X – badana cecha
xi – wartość badanej cechy u i-tej jednostki
i – 1, 2, …, N
i – 1, 2, …, n
N – liczebność populacji generalnej
n – liczebność próby
Dla cech jakościowych zapis:

A1 ≥ A2 ≥ ... ≥ Ak
A1 ≤ A2 ≤ ... ≤ Ak
nie zawsze jest moŜliwy.

-1–
Utworzony przez: Martucha

Statystyka wykłady – dr Niewczas
Oznaczenia:
A – cecha jakościowa
Ai – i-ta odmiana cechy jakościowej
i – 1, 2, …, k
k – liczba odmian cechy jakościowej
Stosujemy wówczas porządkowanie odmian cechy jakościowej według innego klucza – np.
według alfabetu.
Rodzaje grupowań materiału statystycznego:
− Typologiczne (jakościowe)
− Wariancyjne
Klasyfikacja – stosowanie w badaniach tych samych zasad grupowania (zapewnia
porównywalność wyników w czasie i przestrzeni)
Efekt grupowania:
1. Szereg rozdzielczy punktowy

i
1
2
.
.
.
p

xi
x1
x2

wi
w1
w2

di
d1
d2

.

.

.

.

.

.

.

.

.

.

.

.

xp
X



Ni
N1
N2

Np
N

wp
1

dp
100

Oznaczenia:
i – 1, 2, …, p
p – liczba wariantów
Ni, wi, di – wagi przyporządkowane poszczególnym wariantom
wi – wskaźnik struktury
di – wskaźnik odsetek (procentowy)

wi =

Ni
N
= p i
N
∑ Ni
i =1

d i = wi ⋅ 100

-2–
Utworzony przez: Martucha

Statystyka wykłady – dr Niewczas

2. Szereg rozdzielczy przedziałowy

i
1
2
.
.
.
k

x0i – x1i
x01 – x11
x02 – x12

wi
w1
w2

di
d1
d2

.

.

.

.

.

.

.

.

.

.

.

.

x0p – x1k
X



Ni
N1
N2

Nk
N

wk
1

dk
100

Oznaczenia :
x0i – dolna granica i-tego przedziału (klasy)
x1i – górna granica i-tego przedziału (klasy)
i – 1, 2, …, k
k – liczba przedziałów
UWAGA: wagi muszą być róŜne od zera. Jeśli tak nie jest, naleŜy połączyć taką klasę z klasą
(klasami) sąsiadującymi.
Dodatkowe oznaczenia:

ci = x1i − x 0i
&
xi =

rozpiętość klasy

x0i − x1i
środek klasy
2

Sposoby określania liczby klas:

k ≤ 5 log N
k = 1 + 3,222 log N
5 ≤ k ≤ 25
Wzór 1 Liczba klas

Sposoby określania rozpiętości klas:

c=

x max − xmin
k

Wzór 2 Rozpiętość klas

-3–
Utworzony przez: Martucha

Statystyka wykłady – dr Niewczas

Prezentacja materiału statystycznego
Formy prezentacji:
1. Szeregi
2. Tablice
3. Wykresy
Szereg statystyczny – przynajmniej uporządkowany materiał statystyczny.
Podział szeregów:
1. Ze względu na formę (budowę):
a. Szczegółowe
b. Rozdzielcze
c. Kumulacyjne
2. Ze względu na przekazywaną teść:
a. Strukturalne
b. Przestrzenne
c. Czasowe
Rodzaje tablic:
− Robocze
− Wynikowe
− Proste
− ZłoŜone
− Szczegółowe
− Ogólne
Rodzaje wykresów:
− Liniowe
− Powierzchniowe
− Bryłowe
− Punktowe
− Mapowe
− Specjalne
UWAGA: Szereg kumulacyjny powstaje w oparciu o szereg prosty lub rozdzielczy
Przykład: Na bazie szeregu rozdzielczego punktowego

i
1
2
.
.
p



xi
x1
x2

wi
w1
w2

Cum wi
w1
w1 + w2

.

.

.

.

.

.

xp
X

wp
1

1
X

śółty – szereg rozdzielczy punktowy
Zielony – szereg kumulacyjny

-4–
Utworzony przez: Martucha

Statystyka wykłady – dr Niewczas

Opis struktury zbiorowości
Miary przeciętne
Miary przeciętne:
1. Przeciętne klasyczne (średnie):
a. Średnia arytmetyczna
b. Średnia harmoniczna
c. Średnie potęgowe
2. Przeciętne pozycyjne:
a. Dominanta
b. Mediana

Przeciętne klasyczne
Średnia arytmetyczna – rzeczywista lub hipotetyczna wartość badanej cechy uzyskana przy
załoŜeniu, Ŝe na kaŜdą jednostkę przypada identyczna część ogólnej sumy wartości tej cechy.
z

X =

x
∑~ ⋅g
i

i =1

i

z

∑g
i =1

i

Wzór 3 Średnia arytmetyczna - wzór ogólny

Gdzie:

g i = N i ; g i = wi ; g i = d i
~ = x ;~ = x ;~ = x
& i xi
xi
i xi
i
Sposoby liczenia:
1. Szereg prosty
N

X=

∑x
i =1

i

N

Wzór 4 Średnia arytmetyczna dla szeregu prostego

-5–
Utworzony przez: Martucha

Statystyka wykłady – dr Niewczas

2. Szereg rozdzielczy punktowy

g i = N i ; i = 1,2,..., p; ~i = xi
x

a.
p

X=

∑x ⋅N
i

i =1

i

p

∑N
i =1

i

Wzór 5 Średnia arytmetyczna dla szeregu punktowego - wariant 1

g i = wi ; i = 1,2,..., p; ~i = xi
x

b.
p

X = ∑ xi ⋅ wi
i =1

Wzór 6 Średnia arytmetyczna dla szeregu punktowego - wariant 2

g i = d i ; i = 1,2,..., p; ~i = xi
x

c.
p

X=

∑x ⋅d
i

i =1

i

100

Wzór 7 Średnia arytmetyczna dla szeregu punktowego - wariant 3

UWAGA: JeŜeli g1 = g 2 = ... = g p = g to:
p

X =

∑x
i =1

i

p

Wzór 8 Średnia arytmetyczna dla szeregu punktowego - wariant 4

3. Szereg rozdzielczy przedziałowy

g i = N i ; i = 1,2,..., k ; ~i = xi
x &

a.
k

X=

&
∑x ⋅N
i

i =1

i

k

∑N
i =1

i

Wzór 9 Średnia arytmetyczna dla szeregu przedziałowego - wariant 1

-6–
Utworzony przez: Martucha

Statystyka wykłady – dr Niewczas

g i = wi ; i = 1,2,..., k ; ~i = xi
x &

b.
k

&
X = ∑ xi ⋅ wi
i =1

Wzór 10 Średnia arytmetyczna dla szeregu przedziałowego - wariant 2

g i = d i ; i = 1,2,..., k ; ~i = xi
x &

c.
k

X=

&
∑x ⋅d
i

i =1

i

100

Wzór 11 Średnia arytmetyczna dla szeregu przedziałowego - wariant 3

UWAGA: JeŜeli g1 = g 2 = ... = g k = g , to:
k

X =

∑x
i =1

i

k

Wzór 12 Średnia arytmetyczna dla szeregu przedziałowego - wariant 4

Przeszkody utrudniające wykorzystanie średniej arytmetycznej do opisu tendencji centralnej:
1. Merytoryczne:
a. Wartości skrajne (dotyczy danych indywidualnych)
b. Niesymetryczność rozkładu, róŜne rozpiętości klas (szereg rozdzielczy
przedziałowy)
2. Formalne – otwarty wariant lub otwarta klasa

Przeciętne pozycyjne
Dominanta – wartość najczęściej występująca w badanej zbiorowości
UWAGA: musimy dysponować szeregiem rozdzielczym, maksimum musi być wyraźnie
widoczne, w przypadku prób – rozkład musi być jednomodalny).
Wyznaczanie dla danych indywidualnych:

max i{N i }

max i{wi } xi = D
max i{d i } 


-7–
Utworzony przez: Martucha

Statystyka wykłady – dr Niewczas
Wyznaczanie dla danych pogrupowanych:

max i{N i }

max i{wi } x0 D − x1D
max i{d i } 


Uczynimy to poprawnie gdy interwały klas będą równe
Po określeniu klasy dominant wyznaczamy ją ze wzoru interpolacyjnego:

D = x0 +

g 0 − g −1
⋅c
(g 0 − g −1 ) + (g 0 − g +1 )

Wzór 13 Dominanta

UWAGA: Podstawiając
wyznaczanie dominanty.

g i = N i ; g i = wi ; g i = d i

otrzymujemy

trzy

sposoby

JeŜeli interwały klas nie są równe, dominantę moŜna wyznaczyć posługując się pojęciem
gęstości ( f i ) .

fi =

gi
ci

Szukamy wówczas:

max i{ f i } → x0 D − x1D
przy czym:

fi =

N i wi d i
=
=
ci
ci
ci

Po określeniu klasy dominanty liczymy ją korzystając ze wzoru:

D = x0 +

f 0 − f −1
⋅c
( f 0 − f −1 ) + ( f 0 − f +1 ) o

Wzór 14 Dominanta z wykorzystaniem gęstości

UWAGA: Nie moŜna obliczyć dominanty, gdy znajduje się w ramach otwartego wariantu
(klasy).
Mediana – wartość środkowa
UWAGA: Musimy dysponować szeregiem kumulacyjnym
Kwantyle – miary (wartości) znajdujące się w określonej części uporządkowanej zbiorowości.

-8–
Utworzony przez: Martucha

Statystyka wykłady – dr Niewczas
Qr – Kwartyle – z podziału zbiorowości na 4 części
Dr – Decyle – z podziału zbiorowości na 10 części
Cr – Centyle – z podziału zbiorowości na 1000 części

M e = Q2 = D5 = C50
Wyznaczanie pozycji kwantyla:
1. W przypadku danych indywidualnych:
a.

pozycja

gi = Ni

Kr = r ⋅

N +1
L

r = 1, 2, …, L (rząd kwantyla)
L = 4, 10, 100, 1000 (w praktyce)
UWAGA: Wykorzystujemy Kwantyle rzędu r = 1, 2, …, L – 1, bowiem KL jest zazwyczaj
znany
b.

pozycja

Kr = r ⋅
c.

pozycja

g i = wi

1
L

gi = di

Kr = r ⋅

100
L

2. W przypadku danych pogrupowanych:
a.

pozycja

gi = Ni

Kr = r ⋅

N
L

b. c. jak wyŜej

-9–
Utworzony przez: Martucha

Statystyka wykłady – dr Niewczas
Poszukiwanie kwantyli:
1. Dane indywidualne
i
1
2
3
.
.
.
p

xi
x1
x2
x3
.
.
.

xp
X



Cum Ni
N1
N1 + N2
N1 + N2 + N3
.
.
.
N
X

W kolumnie „cum Ni“ poszukujemy takiej liczby, w której po raz pierwszy mieści się pozycja
danego kwantyla. JeŜeli liczba N1 + N2 ≥ Pozycja Kr po raz pierwszy, to z tego wynika, Ŝe
poszukiwany Kr jest zazwyczaj równy x2.
Identycznie postępujemy w przypadku pozostałych wag (wi, di). W tych przypadkach
rozwiązania są zawsze jednoznaczne.
2. Dane pogrupowane
i
1
2
3
.
.
.
k



x0i – x1i
x01 – x11
x02 – x12
x03 – x13
.
.
.

x0k – x1k
X

Cum wi
w1
w1 + w2
w1 + w2 + w3
.
.
.
1
X

W kolumnie „cum wi” poszukujemy takiej liczby, w której po raz pierwszy mieści się pozycja
poszukiwanego Kr. JeŜeli liczba w1 + w2 + w3 ≥ Pozycja Kr po raz pierwszy, to z tego wynika,
Ŝe Kr znajduje się w 3 klasie. Identycznie postępujemy w przypadku pozostałych wag.
Wartości kwantyli wyznaczamy ze wzoru interpolacyjnego:
a.

K r ≈ x0 +

r⋅

b.

K r ≈ x0 +

r⋅

gi = N i
N
− cumN i −1
L
⋅ c0
N0

g i = wi
N
− cumwi −1
L
⋅ c0
w0
- 10 –
Utworzony przez: Martucha

Statystyka wykłady – dr Niewczas

gi = di

c.

K r ≈ x0 +

r⋅

N
− cumd i −1
L
⋅ c0
d0

UWAGA: Podstawiając w powyŜszych wzorach L = 4, L = 10, L = 100, moŜna otrzymać
wzory na kwartyle (Qr), decyle (Dr), centyle (Cr).
Porównanie miar przeciętnych
1. Rozkład symetryczny

gi

xi

X = M

e

= D

2. Rozkład niesymetryczny
a. Lewostronna asymetria

gi

X < M

e

xi

< D

b. Prawostronna asymetria
gi

xi

X > M

e

> D
- 11 –
Utworzony przez: Martucha

Statystyka wykłady – dr Niewczas

Miary rozproszenia (zmienności, dyspersji, zróŜnicowania)
Miary rozproszenia:
1. Klasyczne
a. Bezwzględne
i. Odchylenie standardowe
b. Względne
i. Współczynnik zmienności
2. Pozycyjne
a. Bezwzględne
i. Rozstęp
ii. Odchylenie kwartylowe
b. Względne
i. Współczynniki zmienności

Miary klasyczne
xi – q
q – constans
MoŜliwe sytuacje:
1. q < x min ⇒ xi − q > 0
2. q > xmax ⇒ xi − q < 0
3.

x min ≤ q ≤ x max ⇒ xi − q ≥ 0; xi − q ≤ 0

Dla sytuacji (3) moŜliwe są rozwiązania:
1.

xi − q

2.

(xi − q )2

W praktyce stosujemy:
1.

xi − X

2.

(x

i

- odchylenie przeciętne

− X)

2

- odchylenie standardowe

Odchylenie standardowe

x
∑ (~ − X )
z

σ=

i =1

2

i

⋅ gi

z

∑g
i =1

i

Wzór 15 Odchylenie standardowe dla całej populacji

- 12 –
Utworzony przez: Martucha

Statystyka wykłady – dr Niewczas

z

S=

x
∑ (~ − x )
i =1

2

i

⋅ gi

z

∑g
i =1

i

Wzór 16 Odchylenie standardowe dla próby

0 ≤ σ < ...
Klasyczny współczynnik zmienności

V =

σ
X

Wzór 17 Klasyczny współczynnik zmienności

0 ≤ V < ...
UWAGA: Interpretując wyraŜamy V w procentach
Powody wprowadzenia V:
1. σ moŜna wykorzystać do porównań zmienności wartości tej samej cechy X
2. σ nie moŜe być stosowane do porównań zmienności wartości dwóch róŜnych cech
(X1, X2).
UWAGA:
2

σ

Wzór 18 Wariancja

Miary pozycyjne
Rozstęp – empiryczny obszar zmienności

R x = x max − x min
Wzór 19 Rozstęp

- 13 –
Utworzony przez: Martucha

Statystyka wykłady – dr Niewczas
W przypadku szeregu rozdzielczego przedziałowego moŜe być szacowany następująco:
*
x
1k
01

R =x −x

Wzór 20 Rozstęp dla szeregu przedziałowego

Wówczas:
*
Rx = Rx
*
Rx > Rx
*
Rx < Rx

Zastosowanie – określenie liczby klas lub ich rozpiętości.
Odchylenie kwartylowe

Q=

Q3 − Q1
2

Wzór 21 Odchylenie kwartylowe

Rozkład
symetryczny

gi

25%

25%

25%

25%

Q1

Q=

Q2

Q3

xi

2a
=a
2

UWAGA: Podstawową wadą tej miary jest fakt uwzględniania 50% wartości badanej cechy
(tzw. Środkowych wartości).
Pozycyjny współczynnik zmienności

V =

Q
Me

Wzór 22 Pozycyjny współczynnik zmienności

UWAGA: Interpretując uwzględniamy V wyraŜone w procentach

- 14 –
Utworzony przez: Martucha

Statystyka wykłady – dr Niewczas
Uzupełnienia
1. Porównanie bezwzględnych miar zmienności

Q < d 3)
gi
f(x)

r. normalny. (α 4 = 3)

r. spłaszczony w stosunku do r.n. (α 4 < 3)

xi

E = α4 − 3

- 19 –
Utworzony przez: Martucha

Statystyka wykłady – dr Niewczas

2. Miary pozycyjne

Wk =

Q
Q
=
R D D g − Dq

Wzór 36 Pozycyjny wskaźnik kurtozy

RD – rozstęp międzydecylowy

r. wysmukły w stosunku do r.n. (Wk < 0,263)
gi
r. normalny (Wk = 0,263)

f(x)

r. spłaszczony w stosunku do r.n. (Wk > 0,263)

xi
UWAGA: Zmiana w interpretacji wynika z odmiennej konstrukcji współczynnika
pozycyjnego w stosunku do współczynnika klasycznego.

Koncentracja Lorenza
Koncentracja Lorenza – nierównomierny rozdział sumy wartości badanej cechy pomiędzy
poszczególne jednostki
B

Zi 1

a
b

0

A

Wi

1

- 20 –
Utworzony przez: Martucha

Statystyka wykłady – dr Niewczas

Prosta OB. – linia równomiernego rozdziału (zupełny brak koncentracji, kaŜda jednostka
otrzymuje taką samą część ogólnej sumy wartości).
Krzywa OB. – krzywa koncentracji
Łamana OAB – absolutna koncentracja (całą sumą wartości dysponuje jedna jednostka)
Krzywa koncentracji znajduje się poniŜej prostej OB. Przy Wi ≤ Z i poniŜej prostej OB.
W praktyce otrzymujemy zamiast krzywej koncentracji linię łamaną (zmierza ona do krzywej
koncentracji, gdy w naszym przypadku k → ∞ ).

Współczynnik koncentracji
B

Zi 1

_
Zi
Zi-1

0

K=

Zi

Wi-1

A
Wi

Wi

Wi

1

a
a
0,5 − b
=
=
= 1 − 2b
a + b 0,5
0,5

Gdzie: b – powierzchnia trapezu
k

b = ∑ Z i ⋅ wi
i =1

wi = Wi − Wi −1
Zi =

Z i −1 + Z i
2

k
 Z i −1 + Z i 
K = 1− 2 ⋅ ∑
 ⋅ wi = 1 − ∑ (Z i −1 + Z i ) ⋅ wi
2

i =1 
i =1
k

Wzór 37 Współczynnik koncentracji

- 21 –
Utworzony przez: Martucha

Statystyka wykłady – dr Niewczas

0 ≤ K ≤1
Zupełny brak
koncentracji

Absolutna
koncentracja

UWAGA: Wzór dostosowany jest do sytuacji gdy dla i, Wi ≥ Z i w przypadku Wi ≤ Z i naleŜy:
1. Korzystać z innego wzoru
2. Zmienic zasadę porządkowania wartości badanej cechy na przeciwną
PRZYKŁAD: Rozklład indywiudalnych dochodów ludności USA w 1964 r., dla grup
ludności uszeregowanych według malejących dochodów, prezenrowały się następująca:
Nr grupy

i
1
2
3
4
5
6
7
8
9
10



Procentowe grupy ludności według
malejących dochodów

Odsetek
ogólnego
dochodu

wi100
Górne 10%
Drugie 10%
Trzecie 10%
Czwarte 10%
Piąte 10%
Szóste 10%
Siódme 10%
Ósme 10%
Dziewiąte 10%
Dolne 10%
100%

zi100
30
15
13
11
9
8
6
4
3
1
100

wi
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
1,0

zi
0,30
0,15
0,13
0,11
0,09
0,08
0,06
0,04
0,03
0,01
1,00

Wi
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
X

Zi
0,30
0,45
0,58
0,69
0,78
0,86
0,92
0,96
0,99
1,00
X

Ze względu na to, Ŝe Wi ≤ Z i zmieniamy zasadę porządkowania z malejącej na rosnącą:
Nr
grupy

Procentowe grupy ludności
według rosnących dochodów

Odsetek ogólnego
dochodu

i
1
2
3
4
5
6
7
8
9
10

wi100
Dolne 10%
Dziewiąte 10%
Ósme 10%
Siódme 10%
Szóste 10%
Piąte10%
Czwarte 10%
Trzecie 10%
Drugie 10%
Górne 10%
100%

zi100
1
3
4
6
8
9
11
13
15
30
100



wi
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
1,0

- 22 –
Utworzony przez: Martucha

zi
0,01
0,02
0,04
0,06
0,08
0,09
0,11
0,13
0,15
0,30
1,00

Wi
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,00

Zi
0,01
0,04
0,08
0,14
0,22
0,31
0,42
0,55
0,70
1,00
X

Zi-1
0
0,01
0,04
0,08
0,14
0,22
0,31
0,42
0,55
0,70
X

Statystyka wykłady – dr Niewczas
Z i −1 + Z i
0,01
0,05
0,12
0,22
0,36
0,53
0,73
0,97
1,25
1,70
X

i
1
2
3
4
5
6
7
8
9
10



( Z i −1 + Z i ) ⋅ wi
0,001
0,005
0,012
0,022
0,036
0,053
0,073
0,097
0,125
0,170
0,594

k

K = 1 − ∑ (Z i −1 + Z i ) ⋅ wi = 1 − 0,594 = 0,406
i =1

Porównanie w czasie (przestrzeni) rozkładów tej samej cechy (X)
Charakterystyki
1. Miary przeciętne

Wykorzystanie do porównań

X

TAK

Me

TAK

D

TAK

σ ,Q

NIE

V

TAK

2. Miary dyspersji

3. Miary asymetrii

α 3 ,Wa

TAK

4. Miary kurtozy

α 4 ,Wk

TAK

- 23 –
Utworzony przez: Martucha

Statystyka wykłady – dr Niewczas

Porównanie w określonym czasie i przestrzeni rozkładów róŜnych cech
(X1, X2, …, Xm)
Charakterystyki
5. Miary przeciętne

Wykorzystanie do porównań

X

NIE

Me

NIE

D

NIE

σ ,Q

NIE

V

TAK

6. Miary dyspersji

7. Miary asymetrii

α 3 ,Wa

TAK

8. Miary kurtozy

α 4 ,Wk

TAK

UWAGA: Do porównań wykorzystujemy cały czas identyczne charakterystyki (klasyczne lub
pozycyjne).

- 24 –
Utworzony przez: Martucha

Podobne prace

Do góry