Odredite primjer empirijske korelacije. Koeficijent korelacije i koeficijent determinacije

Odluka. Da bismo izračunali grupne disperzije, izračunavamo prosjeke za svaku grupu:

PC.; PC.

Međuproračuni varijansi po grupama prikazani su u tabeli. 3.2. Zamjenom dobijenih vrijednosti u formulu (3.4) dobijamo:

Prosjek grupnih varijansi

Zatim izračunavamo međugrupnu varijansu. Da bismo to uradili, prvo definišemo ukupan prosek kao ponderisani prosek grupnih proseka:

Sada definiramo međugrupnu varijansu

Dakle, ukupna varijansa prema pravilu sabiranja varijansi:

Provjerimo rezultat izračunavanjem ukupne varijanse na uobičajen način:

Na osnovu pravila za sabiranje varijansi moguće je odrediti indikator bliskosti veze između grupisanja (faktorskih) i efektivnih karakteristika. Zove se empirijski korelacijski omjer, označava se ("ovo") i izračunava se po formuli

Za naš primjer, empirijski korelacioni odnos

.

Vrijednost od 0,86 karakteriše značajnu vezu između grupiranja i karakteristika performansi.

Vrijednost se naziva koeficijent determinacije i pokazuje udio međugrupne varijanse u ukupnoj varijansi.

Uz variranje kvantitativnih osobina, može se uočiti i varijacija kvalitativnih osobina. Takvo proučavanje varijacije postiže se, što se tiče proporcija kvantitativnih osobina, izračunavanjem i analizom sljedećih tipova varijansi.

Varijanca udjela unutar grupe određena je formulom

. (3.17)

Prosjek varijansi unutar grupe se izračunava kao

. (3.18)

Formula međugrupne varijanse je sljedeća:

, (3.19)

gdje n i– broj jedinica u odvojenim grupama;

- udio proučavane osobine u cjelokupnoj populaciji, koji je određen formulom

Ukupna varijansa ima oblik

. (3.21)

Tri vrste disperzije su međusobno povezane na sljedeći način:

. (3.22)

Primjer 3.4

Definišimo grupne varijanse, prosek grupe, međugrupne i ukupne varijanse prema podacima u tabeli. 3.3.

Tabela 3.3

Broj i specifična gravitacija jedna od kategorija
područje stočnih farmi



Odluka

Odredimo udio krava muzara općenito za tri farme:

Ukupna varijacija u udjelu mliječnih krava:

Unutargrupne varijance:

; ; .

Prosjek varijansi unutar grupe:

Međugrupna varijansa:

Koristeći pravilo za sabiranje varijansi, dobijamo: 0,1025+0,0031=0,1056. Primjer je tačan.

Primjer 3.5

Na osnovu podataka uzorka istraživanja zarada zaposlenih u javnom sektoru dobijeni su sljedeći pokazatelji (tabela 3.4).

Tabela 3.4

Definiraj:

1) prosečna plata u dve delatnosti;

2) disperzija plata:

a) prosjek grupnih disperzija (industrija),

b) međugrupni (međusektorski),

3) koeficijent determinacije;

4) empirijska korelacija.

Odluka

1. Srednji nadnica zaposlenih u dvije industrije izračunava se po formuli (2.10):

rub.

2. Varijance plata:

a) prosjek grupnih disperzija prema (3.14)

b) međugrupna disperzija prema (3.12)

c) ukupna varijansa dobijena na osnovu pravila za sabiranje varijansi (3.15):

3. Koeficijent determinacije jednak je vrijednosti

one. , ili 44,24%.

Iz njega se vidi da naknada za 44,24% zavisi od sektorske pripadnosti zaposlenih, a za 55,76% - od intraindustrijskih razloga.

Prema formuli (3.16), empirijski odnos korelacije ,

što ukazuje na značajan uticaj na diferencijaciju plata po sektorskim karakteristikama.

3.2. ZADACI ZA SAMOSTALNO RJEŠENJE

Zadatak 3.1

Prema raspodjeli 60 radnika po tarifnoj kategoriji dostupni su sljedeći podaci (tabela 3.5).

Tabela 3.5

Definiraj:

1) prosječnu platnu kategoriju radnika;

2) prosečno linearno odstupanje;

3) disperzija;

4) standardna devijacija;

5) koeficijent varijacije.

Zadatak 3.2

Prema rezultatima ispitne sesije 1. i 2. predmeta jednog od univerziteta, dostupni su sljedeći podaci: 1. godine 85% studenata položilo je sesiju bez dvojke, u 2. godini - 90%.

Odredite za svaki predmet varijansu udjela studenata koji su uspješno položili sesiju.

Zadatak 3.3

Akcionarska društva regiona prema prosječnom broju zaposlenih na dan 1. januara 2004. godine raspoređena su na sljedeći način (tabela 3.6).

Tabela 3.6

Izračunati:

1) prosečno linearno odstupanje;

2) disperzija;

3) standardna devijacija;

4) koeficijent varijacije.

Zadatak 3.4

Postoje podaci o raspodjeli porodica zaposlenih u preduzeću po broju djece (tabela 3.7).

Tabela 3.7

Izračunati:

1) unutargrupna disperzija;

2) prosek unutargrupnih disperzija;

3) međugrupna disperzija;

4) ukupna varijansa.

Provjerite ispravnost proračuna korištenjem pravila sabiranja varijansi.

Zadatak 3.5

Distribuciju troškova proizvoda namenjenih za izvoz po prodavnicama preduzeća predstavljaju sledeći podaci (tabela 3.8).

Tabela 3.8

Izračunati:

1) prosek unutargrupnog, međugrupnog i ukupnog učešća izvoznih proizvoda;

2) koeficijent determinacije i empirijska korelacija.

Zadatak 3.6

Prema anketi komercijalnih banaka u gradu, 70% od ukupnog broja klijenata su pravna lica sa prosječnim kreditom od 120 hiljada rubalja. i koeficijent varijacije od 25%, i 20% - pojedinci sa prosječnom veličinom kredita od 20 hiljada rubalja. sa srednjim kvadratnim odstupanjem od 6 hiljada rubalja.

Koristeći pravila za sabiranje varijansi, izračunavanjem empirijskog korelacijskog omjera utvrdite bliskost veze između veličine kredita i vrste klijenta.

Odjeljak 4. Selektivno posmatranje

4.1. METODOLOŠKA UPUTSTVA
I RJEŠAVANJE TIPIČNIH ZADATAKA

Svrha posmatranja uzorka je da se utvrde karakteristike opšte populacije - opšti prosek (o) i opšti udeo ( R). Karakteristike populacije uzorka – srednja vrijednost uzorka () i udio uzorka () razlikuju se od općih karakteristika po količini greške uzorkovanja (). Stoga je za određivanje karakteristika opće populacije potrebno izračunati grešku uzorkovanja, odnosno grešku reprezentativnosti, koja je određena formulama razvijenim u teoriji vjerovatnoće za svaku vrstu uzorka i metodu selekcije.

Pravilno nasumično i mehaničko uzorkovanje. U slučaju slučajnog ponovnog uzorkovanja, granična greška uzorkovanja za srednju vrijednost () i za proporciju () izračunava se po formulama

; (4.1)

(4.2)

gdje je varijansa populacije uzorka;

n- veličina uzorka;

t je koeficijent pouzdanosti, koji se određuje iz tablice vrijednosti Laplaceove integralne funkcije za datu vjerovatnoću ( P dos.) (Tabela A1).

Kod nerepetitivnog slučajnog i mehaničkog odabira, granična greška uzorkovanja se izračunava po formulama

; (4.3)

, (4.4)

gdje N- veličina opšte populacije.

Primjer 4.1

Za određivanje sadržaja pepela uglja u ležištu, nasumično je ispitano 100 uzoraka uglja. Kao rezultat istraživanja utvrđeno je da je prosječni sadržaj pepela uglja u uzorku 16%, standardna devijacija 5%. U deset uzoraka, sadržaj pepela u uglju bio je veći od 20%. Sa vjerovatnoćom od 0,954 odrediti granice u kojima će biti prosječan sadržaj pepela uglja u ležištu i udio uglja sa sadržajem pepela većim od 20%.

Odluka

Prosječan sadržaj pepela u uglju će biti unutar

Da bismo odredili granice opšte srednje vrednosti, izračunavamo graničnu grešku uzorkovanja za srednju vrednost koristeći formulu (4.1):

. (4.5)

Sa vjerovatnoćom od 0,954, može se tvrditi da će prosječni sadržaj pepela uglja u ležištu biti unutar 16% 1%, odnosno 15% 17%.

Udio uglja sa sadržajem pepela većim od 20% će biti unutar

Udio uzorka je određen formulom

gdje m je udio jedinica sa obilježjem

Greška uzorkovanja za udio () izračunava se po formuli (4.2):

ili ±6%.

Sa vjerovatnoćom od 0,954, može se tvrditi da će udio uglja sa sadržajem pepela većim od 20% u ležištu biti unutar , ili .

Primjer 4.2

Za određivanje prosječnog roka korištenja kratkoročnog kredita u banci napravljen je mehanički uzorak od 5% koji je obuhvatio 100 računa. Kao rezultat istraživanja, utvrđeno je da je prosječan rok za korištenje kratkoročnog kredita 30 dana sa standardnom devijacijom od 9 dana. Na pet računa rok korišćenja kredita je premašio 60 dana. Sa vjerovatnoćom od 0,954 odrediti granice u kojima će biti rok korišćenja kratkoročnog kredita u opštoj populaciji i udio računa sa rokom korišćenja kratkoročnog kredita dužim od 60 dana.

Odluka

Prosječan termin korištenje bankovnog kredita je unutar

.

Budući da je uzorkovanje mehaničko, greška uzorkovanja je određena formulom (2.3):

dan.

Sa vjerovatnoćom od 0,954, može se tvrditi da je rok za korištenje kratkoročnog kredita u banci unutar = 30 dana 2 dana, ili

28 dana dnevno.

Unutar je udio kredita sa rokom dospijeća preko 60 dana

Udio uzorka će biti

Greška uzorkovanja za udio je određena formulom (4.4):

ili 4,2%.

Sa vjerovatnoćom od 0,954, može se tvrditi da će udio bankarskih kredita sa rokom dospijeća dužim od 60 dana biti unutar ili

Tipičan uzorak. U tipičnoj (zoniranoj) selekciji opća populacija se dijeli na homogene tipične grupe, područja. Vrši se odabir jedinica posmatranja u skupu uzoraka razne metode. Razmotrite tipičan uzorak sa proporcionalnom selekcijom unutar tipičnih grupa.

Veličina uzorka iz tipične grupe u selekciji proporcionalna broju tipičnih grupa određena je formulom

gdje n i je veličina uzorka iz tipične grupe;

N i je volumen tipične grupe.

Marginalna greška srednje vrijednosti uzorka i proporcije za nerepetitivne slučajne i mehanički način selekcija unutar tipičnih grupa izračunava se po formulama

; (4.8)

, (4.9)

gdje je varijansa populacije uzorka.

Primjer 4.3

Da bi se utvrdila prosječna starost muškaraca koji stupaju u brak, napravljen je tipičan uzorak od 5% u okrugu sa odabirom jedinica proporcionalno veličini tipičnih grupa. Unutar grupa korištena je mehanička selekcija. Podaci su sažeti u tabeli. 4.1.

Tabela 4.1

Sa vjerovatnoćom od 0,954, odredite granice u kojima je prosečne starosti muškarci koji se žene i udio muškaraca koji se žene drugi put.

Odluka

Prosečna starost za brak muškaraca je unutar

.

Prosječna starost ženidbe muškaraca u populaciji uzorka određena je formulom ponderisanog prosjeka

= godine.

Prosječna varijansa uzorka određena je formulom
srednji

=

Izračunavamo graničnu grešku uzorkovanja koristeći formulu (4.8):

godine.

Sa vjerovatnoćom od 0,954, može se tvrditi da će prosječna starost muškaraca koji stupaju u brak biti unutar godine u godini, ili

24 godine.

Proporcija muškaraca koji će se ponovo vjenčati bit će unutar

Udio uzorka je određen formulom prosjeka

ili 14%.

Prosječna varijansa uzorka alternativna karakteristika izračunaj prema formuli

(4.12)

Greška uzorkovanja za udio je određena formulom (4.9):

ili 6%.

Sa vjerovatnoćom od 0,954, može se tvrditi da će udio muškaraca koji se vjenčaju po drugi put biti unutar , ili .

serijsko uzorkovanje. Serijskom metodom selekcije opća populacija se dijeli na grupe iste veličine - serije. Serije se biraju u skupu uzoraka. U okviru serije vrši se kontinuirano posmatranje jedinica koje su ušle u seriju.

U slučaju nerepetitivnog odabira serija, granične greške uzorka srednje vrijednosti i proporcije određuju se formulom

, (4.13)

gdje je međuserija varijansa;

R je broj serija u općoj populaciji;

r– broj odabranih serija.

Primjer 4.4

U radnji preduzeća radi 10 timova radnika. U cilju proučavanja njihove produktivnosti rada, proveden je 20% serijski uzorak koji je uključivao 2 brigade. Kao rezultat ankete utvrđeno je da je prosječna proizvodnja radnika u timovima 4,6 i 3 tone.Sa vjerovatnoćom od 0,997 odrediti granice u kojima će biti prosječna proizvodnja radnika u radnji. t, ili t.

Primjer 4.5

Na lageru gotovih proizvoda Radionica sadrži 200 kutija dijelova, po 40 komada u svakoj kutiji. Za provjeru kvaliteta gotovog proizvoda napravljen je 10% serijski uzorak. Kao rezultat uzorkovanja, utvrđeno je da je udio neispravnih dijelova 15%. Varijanca serijskog uzorka je 0,0049.

Sa vjerovatnoćom od 0,997 odredite granice unutar kojih se nalazi udio neispravnih proizvoda u seriji kutija.

Odluka

Udio neispravnih dijelova će biti unutar

Odredimo graničnu grešku uzorkovanja za udio po formuli (4.13):

ili 4,4%.

Sa vjerovatnoćom od 0,997, može se tvrditi da je udio neispravnih dijelova u seriji u rasponu od 10,6% 19,6%.

Primjer 4.6

U oblasti koja se sastoji od 20 okruga, sprovedeno je ispitivanje prinosa uzorka na osnovu odabira serija (okruga). Prosjeci uzorka za okruge iznosili su 14,5 c/ha, respektivno; šesnaest; 15.5; 15 i 14 q/ha. Sa vjerovatnoćom od 0,954, pronađite granice prinosa u cijeloj oblasti.

Odluka

Izračunajte ukupan prosjek:

c/ha.

Međugrupna (međuserija) varijansa

Odredimo sada marginalnu grešku serijskog uzorka koji se ne ponavlja (t = 2, P dov = 0,954) koristeći formulu (4.13):

.

Stoga će prinos u regionu (sa vjerovatnoćom od 0,954) biti unutar

15-1,7≤ ≤15+1,7,

13,3 c/ha ≤ ≤16,7 c/ha.

U praksi projektovanja opservacije uzorka postoji potreba da se pronađe veličina uzorka, koja je neophodna da bi se obezbedila određena tačnost u proračunu opštih karakteristika – proseka i proporcije. U ovom slučaju, granična greška uzorkovanja, vjerovatnoća njenog pojavljivanja i varijacija karakteristike su unaprijed poznati.

Uz nasumično ponovno uzorkovanje, veličina uzorka se određuje iz izraza

Uz slučajni nerepetitivni i mehanički odabir, veličina uzorka se izračunava po formuli

. (4.16)

Za tipičan uzorak

. (4.17)

Za serijsko uzorkovanje

. (4.18)

Primjer 4.7

U okrugu živi 2000 porodica. Predviđeno je da se provede njihovo uzorkovanje metodom slučajnog i neponovljivog odabira kako bi se utvrdila prosječna veličina porodice. Odredite potrebnu veličinu uzorka, pod uslovom da sa vjerovatnoćom od 0,954 greška uzorkovanja ne prelazi jednu osobu sa standardnom devijacijom od tri osobe ( = 3).

Odluka

Uz slučajni odabir koji se ne ponavlja, veličina uzorka prema formuli (4.16) će biti porodice.

Veličina uzorka: najmanje 36 porodica.

Primjer 4.8

Grad A ima 10.000 porodica. Uz pomoć mehaničkog uzorkovanja trebalo bi utvrditi udio porodica sa troje i više djece. Kolika bi trebala biti veličina uzorka da postoji vjerovatnoća od 0,954 da greška uzorkovanja ne pređe 0,02 ako se zna da je varijansa 0,2 iz prethodnih istraživanja?

Odluka

Odredimo potrebnu veličinu uzorka prema formuli (4.16):

.

Veličina uzorka: ne manje od 1667.

U statistici je često potrebno uporediti rezultate dva (ili više) uzoraka. Na osnovu poređenja dva uzorka srednje vrijednosti (ili udjela), donosi se zaključak o slučajnosti ili značajnosti njihovog neslaganja.

Za to se apsolutna razlika između indikatora srednje vrijednosti uzorka uspoređuje sa prosječnom greškom razlike:

. (4.19)

Pronađen t calc. u poređenju sa t tab. on t- Studentova raspodjela (tabela P2) za broj stupnjeva slobode v=n 1 +n 2 -2 i dati nivo značajnosti a. (ovdje n 1 i n 2 – zapremine upoređenih uzoraka).

ODGOVOR

Kvantitativna procjena bliskosti komunikacije prema empirijskim podacima sastoji se u izračunavanju pokazatelja bliskosti komunikacije:

· Empirijski koeficijent determinacije (empirijski omjer disperzije) - r 2 .

Ovaj indikator se izračunava prema podacima analitičkog grupisanja (tabela), kao omjer međugrupne varijanse rezultatne osobine Y (d y 2) i ukupne varijanse Y (s y 2):

Prema teoremi dekompozicije varijanse, međugrupna varijansa je povezana sa ukupnom varijansom: s y 2 =d y 2 +e y 2 . Onda empirijski koeficijent određivanje se može izračunati kroz preostalu varijansu prema formuli:

gdje je s j 2 varijansa rezultata Y unutar j-te grupe.

Empirijski koeficijent determinacije karakterizira jačinu utjecaja atributa grupiranja (X) na formiranje ukupne varijacije rezultirajućeg atributa Y i pokazuje postotak (udio) varijacije atributa rezultata zbog faktora atributa koji je u osnovi grupisanje.

Zgodno je izračunati r 2 u tabeli:

Sign-faktor X j Nj Srednja vrijednost karakteristike-rezultata s j 2 N j
x1 N 1 s 1 2 N 1
x2 N 2 s 2 2 N 2
.... ...
Xm N m s m 2 N m
Ukupno N X es j 2

Onda .

Razmotrimo primjer. Neka je zadan skup od 20 radnika, okarakteriziranih sljedećim karakteristikama: Y - učinak radnika (komad/smjena) i X - kvalifikacija (rang). Početni podaci prikazani su u tabeli:

X
Y

Potrebno je ocijeniti bliskost odnosa između obilježja pomoću empirijskog koeficijenta determinacije (r 2).

Da bismo izračunali r 2, izvršićemo analitičko grupisanje populacije. Kao znak-faktor uzimamo X (kategorija radnika), kao znak-rezultat - Y, rezultat radnika). Analitičko grupisanje je napravljeno na osnovu X. B ovaj slučaj bit će diskretna (jer se vrijednosti atributa X prilično često ponavljaju). Broj grupa jednak je broju vrijednosti atributa X u agregatu, tj. 6. Rezultati grupisanja i izračunavanja r 2 sumirani su u tabeli:

Znak faktor X Atribut rezultata Y Broj jedinica u grupi, N j Prosječna vrijednost predznaka-rezultata u grupi, ( - ) 2 N j Disperzija svojstva-rezultata u grupi, s 2 j s 2 j N j
(10+12+13)/3=11,7 (11,7-17,1) 2 3=88,56 s 2 1 = ((10-11,7) 2 + (12-11,7) 2 + (13-11,7) 2) / 3 = 1,56 4,7
(11+14)/2=12,5 (12,5-17,1) 2 2=42,3 s 2 2 = ((11-12,5) 2 + (14-12,5) 2) / 2 = 2,25 4,5
(12+13+15+16)/4= 14 (14-17,1) 2 4=38,4 s 2 3 = ((12-14) 2 + (13-14) 2 + (15-14) 2 + (16-14) 2) / 4 \u003d 2,5
(15+17+17+18)/4= 16,75 (16,75-17,1) 2 4=0,49 s 2 4 = ((15-16.75) 2 + (17-16.75) 2 ++ (17-16.75) 2 + (18-16.75) 2) / 4 \u003d 1.9 4,75
(18+20+22)/3=20 (20-17,1) 2 3=25,23 s 2 5 = ((18-20) 2 + (20-20) 2 + (22-20) 2) / 3 \u003d 2,7
(23+24+27+25)/4= 24,75 (24,75-17,1) 2 4=234,1 s 2 6 = ((23-24,75) 2 + (24-24,75) 2 + (27-24,75) 2 + (25-24,75) 2) / 4 \u003d 2,19 8,75
=17,1 429,1 40,7

Empirijski koeficijent determinacije jednak je omjeru međugrupne varijanse atributa rezultata (d y 2) i ukupne varijanse atributa rezultata (s y 2): r 2 = d y 2 /s y 2 = d y 2 /(d y 2) +e y 2).

Međugrupna disperzija Y će biti jednaka: d y 2 = å( - ) 2 N j / N = 429,1/20=21,45.

Preostala varijansa Y će biti: e y 2 = ås 2 j ·N j / N= 40,7/20= 2,035.

Zatim: r 2 = 21,45 / (21,45 + 2,035) = 429,1 / (429,1 + 40,7) = 0,913.

Zaključak: 91,3% varijacije u proizvodnji radnika je posledica uticaja faktora otpuštanja.

· Empirijska korelacija - r.

Ovaj indikator je korijen empirijskog koeficijenta determinacije. Pokazuje čvrstu vezu (ne samo linearnu!) između grupiranja i produktivnih karakteristika. Raspon dozvoljenih vrijednosti empirijske korelacije je od 0 do +1.

Maksimum zatvoriti vezu- ovo je funkcionalni odnos, kada je svaka vrijednost atributa-rezultata Y jedinstveno određena vrijednošću faktora atributa X (tj. rezultat grupiranja). U ovom slučaju, varijansa grupne sredine (d y 2) jednaka je ukupnoj varijansi (s y 2), tj. neće biti varijacija unutar grupe. U ovom slučaju, rezidualna disperzija (e y 2) je jednaka 0, a empirijski koeficijent determinacije jednak je 1.

Ako nema veze između znakova, tada su sve grupne sredine jednake jedna drugoj, neće biti međugrupnih varijacija (d y 2 =0), a empirijski koeficijent determinacije je 0.

Izračunajmo empirijski odnos korelacije za naš primjer: r= 0,9555. Zaključak: znakovi "proizvodnje radnika" i "otpust" su usko povezani.

Indikatori r i r 2 određuju se ne samo postojanjem veze između karakteristika X i Y, već i činjenicom grupisanja primarnih podataka. Kako se broj grupa m povećava, međugrupna varijansa d 2 raste i približava se ukupnoj varijansi. Ako je broj grupa manji od broja populacijskih jedinica N, tada vrijednosti r i r 2 nikada neće biti jednake 1, čak ni uz strogu funkcionalnu vezu.

Napominjemo da vrijednost indikatora bliskosti povezanosti nije sama po sebi dokaz postojanja uzročne veze između proučavanih osobina, već je procjena stepena međusobne konzistentnosti u promjenama karakteristika. Uspostavljanju uzročno-posledične veze nužno mora prethoditi analiza kvalitativne prirode pojava.

Vrijednost od 0,86 karakteriše značajnu vezu između grupiranja i karakteristika performansi.

Vrijednost pozvao koeficijent determinacije i prikazuje udio međugrupne varijanse u ukupnoj varijansi.

Uz variranje kvantitativnih osobina, može se uočiti i varijacija kvalitativnih osobina. Takvo proučavanje varijacije postiže se, što se tiče proporcija kvantitativnih osobina, izračunavanjem i analizom sljedećih tipova varijansi.

Varijanca udjela unutar grupe određuje se formulom

. (3.17)

Prosjek varijansi unutar grupe se izračunava kao

. (3.18)

Formula međugrupna varijansa ima sljedeći oblik:

, (3.19)

gdje n i– broj jedinica u odvojenim grupama;

- udio proučavane osobine u cjelokupnoj populaciji, koji je određen formulom

. (3.20)

Ukupna varijansa ima oblik

. (3.21)

Tri vrste disperzije su međusobno povezane na sljedeći način:

. (3.22)

Primjer 3.4

Definišimo grupne varijanse, prosek grupe, međugrupne i ukupne varijanse prema podacima u tabeli. 3.3.

Tabela 3.3

Broj i udio jedne od kategorija stočarskih farmi u okrugu

Odluka

Odredimo udio krava muzara općenito za tri farme:

;

Ukupna varijacija u udjelu mliječnih krava:

Unutargrupne varijance:

; ;
.

Prosjek varijansi unutar grupe:

Međugrupna varijansa:

Koristeći pravilo za sabiranje varijansi, dobijamo: 0,1025+0,0031=0,1056. Primjer je tačan.

Primjer 3.5

Na osnovu podataka uzorka istraživanja zarada zaposlenih u javnom sektoru dobijeni su sljedeći pokazatelji (tabela 3.4).

Tabela 3.4

Definiraj:

    prosječna plata u dvije djelatnosti;

    disperzija plata:

a) prosjek grupnih disperzija (industrija),

b) međugrupni (međusektorski),

    koeficijent determinacije;

    empirijska korelacija.

Odluka

    Prosječna plata radnika u dvije djelatnosti izračunava se po formuli (2.10):

rub.

    Odstupanja u plaćama:

a) prosjek grupnih disperzija prema (3.14)

b) međugrupna disperzija prema (3.12)

.

c) ukupna varijansa dobijena na osnovu pravila za sabiranje varijansi (3.15):

    Koeficijent determinacije jednak je vrijednosti

; (3.23)

one.
, ili 44,24%.

Iz njega se vidi da naknada za 44,24% zavisi od sektorske pripadnosti zaposlenih, a za 55,76% - od intraindustrijskih razloga.

Prema formuli (3.16), empirijski odnos korelacije
,

što ukazuje na značajan uticaj na diferencijaciju plata po sektorskim karakteristikama.

Empirijska korelacija

Za mjerenje bliskosti povezanosti koristi se nekoliko indikatora. Kod parne veze, čvrstoća veze je određena, prije svega, korelacijskim omjerom, koji se označava sa η. Kvadrat korelacionog omjera je omjer međugrupne varijanse rezultirajuće osobine, koja izražava učinak razlika u osobini faktora grupisanja na prosječnu vrijednost rezultirajuće osobine, prema ukupnoj varijansi rezultirajuće osobine, koja izražava uticaj svih uzroka i uslova na njega. Kvadrat korelacionog odnosa naziva se koeficijent determinacije.

ny fenomeni i njihovi znaci: ________________ ili rigidno deterministički

gdje je k broj grupa

N je broj zapažanja

y i - početne vrijednosti efektivne karakteristike

y j - prosječne vrijednosti efektivnog atributa za ovu grupu

y je prosječna vrijednost karakteristike

f j je veličina grupe

Gornja formula se koristi kada se izračunava indikator bliskosti povezanosti za analitičko grupisanje. Prilikom izračunavanja omjera korelacije prema nivou komunikacije koristi se sljedeća formula:

Zbir kvadrata u brojniku je varijansa rezultujuće karakteristike y objašnjene relacijom sa faktorom x (faktori). Izračunava se iz pojedinačnih podataka dobijenih za svaku jedinicu populacije na osnovu regresione jednačine.

Ako je jednadžba pogrešno odabrana ili se napravi greška pri izračunavanju njenih parametara, tada zbroj kvadrata u brojniku može biti veći nego u nazivniku, a omjer će izgubiti značenje koje bi trebao imati. Da biste izbjegli pogrešan rezultat, bolje je izračunati omjer korelacije koristeći sljedeću formulu:

Ova formula se zasniva na dobro poznatom pravilu za proširenje zbira kvadrata odstupanja pri grupisanju populacije:

D često=D intergr+D intragr

Prema ovom pravilu, umjesto međugrupne (faktorske) varijanse, možete koristiti razliku:

D često-D intragr

šta daje:

Prilikom izračunavanja η ne grupisanjem, već korelacionom jednadžbom (regresionom jednadžbom), koristimo formulu. U ovom slučaju, pravilo dekompozicije za zbir kvadrata odstupanja rezultujuće karakteristike zapisuje se kao

D ukupno \u003d D jezgro + D ostatak

Najvažnija stvar koju sada treba da nauči svako ko želi da pravilno primeni metodu korelaciono-regresione analize jeste tumačenje formula (1.2) i (1.3). Ova odredba glasi:

Korelaciona jednačina mjeri odnos između varijacije rezultujuće karakteristike i varijacije faktora(a). Mjere čvrstoće veze mjere proporciju varijacije rezultujuće karakteristike, koja je povezana sa varijacijom faktorske karakteristike (obilježja).

| sljedeće predavanje ==>

Empirijski omjer korelacije mjeri koliki je dio ukupne fluktuacije rezultirajućeg atributa uzrokovan proučavanim faktorom. Srednja empirijska korelacija kreće se od 0 do 1.

Empirijska korelacija se obično nalazi u sledeće vrste zadaci:

  • 1) kada je potrebno napraviti analitičko grupisanje za dvije serije podataka X i Y
  • 2) grupisanje je već obavljeno, potrebno je provjeriti pravilo za dodavanje varijansi
  • 3) za dvije serije podataka X i Y potrebno je pronaći regresionu jednačinu i procijeniti njen značaj

Formula varijance alternativne karakteristike

Na osnovu gore navedenog, možemo izvesti formulu za pronalaženje varijanse alternativnog obilježja ako znamo postotak takve karakteristike u ukupnom uzorku.

U početku pretpostavljamo da karakteristika ima samo dvije vrijednosti.

Dakle, zbir omjera elemenata u kojima elementi statističke serije imaju vrijednost atributa "ne" i elemenata serije koji imaju vrijednost atributa "da" jednak je jedan.

Da bismo pronašli prosječnu vrijednost serije, zamjenjujemo vrijednosti alternativnih karakteristika (0 i 1) u formulu za pronalaženje ponderirane prosječne vrijednosti statističke serije. Odakle će, sasvim očito, biti jedinica u nazivniku, a procentualna vrijednost elemenata "1" u brojniku. To jest, tačno procentualna vrijednost elemenata sa atributom "1". (Formula 2)

Formula varijanse je ponderisani prosjek kvadrata odstupanja svake vrijednosti u nizu podataka. (Formula 3)

Budući da u našoj seriji podaci imaju samo dvije vrste vrijednosti - "0" i "1", onda se formula za pronalaženje varijanse za niz sa alternativnim svojstvom svodi na formulu 4. Objašnjenje. pošto smo upravo zaključili da je srednja vrijednost uzorka jednaka p (Formula 2), tada će vrijednost kvadrata razlike između vrijednosti (0/1) i srednje vrijednosti, prema formuli 1, biti (1- p)2 u prvom slučaju, a u drugom slučaju (1-q)2, sada primjenjujući zaključak iz prve formule: q = 1 - p, p = 1- q . Dobijamo p2 i q2. U skladu s tim, omjer vrijednosti "0" i "1" jednak je p i q, kao rezultat toga, u brojniku i ispada q2 p i p2 q. Zbir udjela karakteristika vrijednosti "0" i "1" prema Formuli 1 jednak je 1. Kao rezultat toga, Formula 4 uzima vrijednost pq, koja će biti jednaka vrijednosti varijanse alternativnu funkciju. Na osnovu pronađene vrijednosti varijanse alternativnog obilježja naći ćemo standardnu ​​devijaciju (Formula 5). Stavljajući vrijednost iz Formule 1 u Formulu 5, dobijamo formulu standardne devijacije za varijansu niza sa alternativnim svojstvom.


Top