Formula empirijskog omjera korelacije. Koeficijent determinacije i empirijska korelacija

Rješenje. Da bismo izračunali grupne disperzije, izračunavamo prosjeke za svaku grupu:

PC.; PC.

Međuproračuni varijansi po grupama prikazani su u tabeli. 3.2. Zamjenom dobijenih vrijednosti u formulu (3.4) dobijamo:

Prosjek grupnih varijansi

Zatim izračunavamo međugrupnu varijansu. Da bismo to uradili, prvo definišemo ukupan prosek kao ponderisani prosek grupnih proseka:

Sada definiramo međugrupnu varijansu

Dakle, ukupna varijansa prema pravilu sabiranja varijansi:

Provjerimo rezultat izračunavanjem ukupne varijanse na uobičajen način:

Na osnovu pravila za sabiranje varijansi moguće je odrediti indikator bliskosti veze između grupisanja (faktorskih) i efektivnih karakteristika. Zove se empirijski korelacijski omjer, označava se ("ovo") i izračunava se po formuli

Za naš primjer, empirijski korelacioni odnos

.

Vrijednost od 0,86 karakteriše značajnu vezu između grupiranja i karakteristika performansi.

Vrijednost se naziva koeficijent determinacije i pokazuje udio međugrupne varijanse u ukupnoj varijansi.

Uz variranje kvantitativnih osobina, može se uočiti i varijacija kvalitativnih osobina. Takvo proučavanje varijacije postiže se, što se tiče proporcija kvantitativnih osobina, izračunavanjem i analizom sljedećih tipova varijansi.

Varijanca udjela unutar grupe određena je formulom

. (3.17)

Prosjek varijansi unutar grupe se izračunava kao

. (3.18)

Formula međugrupne varijanse je sljedeća:

, (3.19)

Gdje n i– broj jedinica u odvojenim grupama;

- udio proučavane osobine u cjelokupnoj populaciji, koji je određen formulom

Ukupna varijansa ima oblik

. (3.21)

Tri vrste disperzije su međusobno povezane na sljedeći način:

. (3.22)

Primjer 3.4

Definišimo grupne varijanse, prosek grupe, međugrupne i ukupne varijanse prema podacima u tabeli. 3.3.

Tabela 3.3

Broj i specifična gravitacija jedna od kategorija
područje stočnih farmi



Rješenje

Odredimo udio krava muzara općenito za tri farme:

Ukupna varijacija u udjelu mliječnih krava:

Unutargrupne varijance:

; ; .

Prosjek varijansi unutar grupe:

Međugrupna varijansa:

Koristeći pravilo za sabiranje varijansi, dobijamo: 0,1025+0,0031=0,1056. Primjer je tačan.

Primjer 3.5

Prema uzorku ankete plate zaposleni u javnom sektoru dobili su sljedeće indikatore (tabela 3.4).

Tabela 3.4

Definiraj:

1) prosečna plata u dve delatnosti;

2) disperzija plata:

a) prosjek grupnih disperzija (industrija),

b) međugrupni (međusektorski),

3) koeficijent determinacije;

4) empirijska korelacija.

Rješenje

1. Prosječna plata radnika u dvije industrije izračunava se po formuli (2.10):

rub.

2. Varijance plata:

a) prosjek grupnih disperzija prema (3.14)

b) međugrupna disperzija prema (3.12)

c) ukupna varijansa dobijena na osnovu pravila za sabiranje varijansi (3.15):

3. Koeficijent determinacije jednak je vrijednosti

one. , ili 44,24%.

Iz njega se vidi da naknada za 44,24% zavisi od sektorske pripadnosti zaposlenih, a za 55,76% - od intraindustrijskih razloga.

Prema formuli (3.16), empirijski odnos korelacije ,

što ukazuje na značajan uticaj na diferencijaciju plata po sektorskim karakteristikama.

3.2. ZADACI ZA SAMOSTALNO RJEŠENJE

Zadatak 3.1

Prema raspodjeli 60 radnika po tarifnoj kategoriji dostupni su sljedeći podaci (tabela 3.5).

Tabela 3.5

Definiraj:

1) prosječnu platnu kategoriju radnika;

2) prosečno linearno odstupanje;

3) disperzija;

4) standardna devijacija;

5) koeficijent varijacije.

Zadatak 3.2

Prema rezultatima ispitne sesije 1. i 2. predmeta jednog od univerziteta, dostupni su sljedeći podaci: 1. godine 85% studenata položilo je sesiju bez dvojke, u 2. godini - 90%.

Odredite za svaki predmet varijansu udjela studenata koji su uspješno položili sesiju.

Zadatak 3.3

Akcionarska društva regiona prema prosječnom broju zaposlenih na dan 1. januara 2004. godine raspoređena su na sljedeći način (tabela 3.6).

Tabela 3.6

Izračunati:

1) prosečno linearno odstupanje;

2) disperzija;

3) standardna devijacija;

4) koeficijent varijacije.

Zadatak 3.4

Postoje podaci o raspodjeli porodica zaposlenih u preduzeću po broju djece (tabela 3.7).

Tabela 3.7

Izračunati:

1) unutargrupna disperzija;

2) prosek unutargrupnih disperzija;

3) međugrupna disperzija;

4) ukupna varijansa.

Provjerite ispravnost proračuna korištenjem pravila sabiranja varijansi.

Zadatak 3.5

Distribuciju troškova proizvoda namenjenih za izvoz po prodavnicama preduzeća predstavljaju sledeći podaci (tabela 3.8).

Tabela 3.8

Izračunati:

1) prosek unutargrupnog, međugrupnog i ukupnog učešća izvoznih proizvoda;

2) koeficijent determinacije i empirijska korelacija.

Zadatak 3.6

Prema anketi komercijalnih banaka u gradu, 70% od ukupnog broja klijenata su pravna lica sa prosječnim kreditom od 120 hiljada rubalja. i koeficijent varijacije od 25%, i 20% - pojedinci sa prosječnom veličinom kredita od 20 hiljada rubalja. sa srednjim kvadratnim odstupanjem od 6 hiljada rubalja.

Koristeći pravila za sabiranje varijansi, izračunavanjem empirijskog korelacijskog omjera utvrdite bliskost veze između veličine kredita i vrste klijenta.

Odjeljak 4. Selektivno posmatranje

4.1. METODOLOŠKA UPUTSTVA
I RJEŠAVANJE TIPIČNIH ZADATAKA

Svrha posmatranja uzorka je da se utvrde karakteristike opšte populacije - opšti prosek (o) i opšti udeo ( R). Karakteristike populacije uzorka – srednja vrijednost uzorka () i udio uzorka () razlikuju se od općih karakteristika po količini greške uzorkovanja (). Stoga je za određivanje karakteristika opće populacije potrebno izračunati grešku uzorkovanja, odnosno grešku reprezentativnosti, koja je određena formulama razvijenim u teoriji vjerovatnoće za svaku vrstu uzorka i metodu selekcije.

Pravilno nasumično i mehaničko uzorkovanje. U slučaju slučajnog ponovnog uzorkovanja, granična greška uzorkovanja za srednju vrijednost () i za proporciju () izračunava se po formulama

; (4.1)

(4.2)

gdje je varijansa populacije uzorka;

n- veličina uzorka;

t je koeficijent pouzdanosti, koji se određuje iz tablice vrijednosti Laplaceove integralne funkcije za datu vjerovatnoću ( P dos.) (Tabela A1).

Kod nerepetitivnog slučajnog i mehaničkog odabira, granična greška uzorkovanja se izračunava po formulama

; (4.3)

, (4.4)

Gdje N- veličina opšte populacije.

Primjer 4.1

Za određivanje sadržaja pepela uglja u ležištu, nasumično je ispitano 100 uzoraka uglja. Kao rezultat istraživanja utvrđeno je da je prosječni sadržaj pepela uglja u uzorku 16%, standardna devijacija 5%. U deset uzoraka, sadržaj pepela u uglju bio je veći od 20%. Sa vjerovatnoćom od 0,954 odrediti granice u kojima će biti prosječan sadržaj pepela uglja u ležištu i udio uglja sa sadržajem pepela većim od 20%.

Rješenje

Prosječan sadržaj pepela u uglju će biti unutar

Da bismo odredili granice opšte srednje vrednosti, izračunavamo graničnu grešku uzorkovanja za srednju vrednost koristeći formulu (4.1):

. (4.5)

Sa vjerovatnoćom od 0,954, može se tvrditi da će prosječni sadržaj pepela uglja u ležištu biti unutar 16% 1%, odnosno 15% 17%.

Udio uglja sa sadržajem pepela većim od 20% će biti unutar

Udio uzorka je određen formulom

Gdje m je udio jedinica sa obilježjem

Greška uzorkovanja za udio () izračunava se po formuli (4.2):

ili ±6%.

Sa vjerovatnoćom od 0,954, može se tvrditi da će udio uglja sa sadržajem pepela većim od 20% u ležištu biti unutar , ili .

Primjer 4.2

Za određivanje prosječnog roka korištenja kratkoročnog kredita u banci napravljen je mehanički uzorak od 5% koji je obuhvatio 100 računa. Kao rezultat istraživanja, utvrđeno je da je prosječan rok za korištenje kratkoročnog kredita 30 dana sa standardnom devijacijom od 9 dana. Na pet računa rok korišćenja kredita je premašio 60 dana. Sa vjerovatnoćom od 0,954 odrediti granice u kojima će biti rok korišćenja kratkoročnog kredita u opštoj populaciji i udio računa sa rokom korišćenja kratkoročnog kredita dužim od 60 dana.

Rješenje

Prosječan termin korištenje bankovnog kredita je unutar

.

Budući da je uzorkovanje mehaničko, greška uzorkovanja je određena formulom (2.3):

dan.

Sa vjerovatnoćom od 0,954, može se tvrditi da je rok za korištenje kratkoročnog kredita u banci unutar = 30 dana 2 dana, ili

28 dana dnevno.

Unutar je udio kredita sa rokom dospijeća preko 60 dana

Udio uzorka će biti

Greška uzorkovanja za udio je određena formulom (4.4):

ili 4,2%.

Sa vjerovatnoćom od 0,954, može se tvrditi da će udio bankarskih kredita sa rokom dospijeća dužim od 60 dana biti unutar ili

Tipičan uzorak. U tipičnoj (zoniranoj) selekciji opća populacija se dijeli na homogene tipične grupe, područja. Vrši se odabir jedinica posmatranja u skupu uzoraka razne metode. Razmotrite tipičan uzorak sa proporcionalnom selekcijom unutar tipičnih grupa.

Veličina uzorka iz tipične grupe u selekciji proporcionalna broju tipičnih grupa određena je formulom

Gdje n i je veličina uzorka iz tipične grupe;

N i je volumen tipične grupe.

Marginalna greška srednje vrijednosti uzorka i proporcije za nerepetitivne slučajne i mehanički način selekcija unutar tipičnih grupa izračunava se po formulama

; (4.8)

, (4.9)

gdje je varijansa populacije uzorka.

Primjer 4.3

Da bi se utvrdila prosječna starost muškaraca koji stupaju u brak, napravljen je tipičan uzorak od 5% u okrugu sa odabirom jedinica proporcionalno veličini tipičnih grupa. Unutar grupa korištena je mehanička selekcija. Podaci su sažeti u tabeli. 4.1.

Tabela 4.1

Sa vjerovatnoćom od 0,954, odredite granice u kojima je prosečne starosti muškarci koji se žene i udio muškaraca koji se žene drugi put.

Rješenje

Prosečna starost za brak muškaraca je unutar

.

Prosječna starost ženidbe muškaraca u populaciji uzorka određena je formulom ponderisanog prosjeka

= godine.

Prosječna varijansa uzorka određena je formulom
srednji

=

Izračunavamo graničnu grešku uzorkovanja koristeći formulu (4.8):

godine.

Sa vjerovatnoćom od 0,954, može se tvrditi da će prosječna starost muškaraca koji stupaju u brak biti unutar godine u godini, ili

24 godine.

Proporcija muškaraca koji će se ponovo vjenčati bit će unutar

Udio uzorka je određen formulom prosjeka

ili 14%.

Prosječna varijansa uzorka alternativne karakteristike izračunava se po formuli

(4.12)

Greška uzorkovanja za udio je određena formulom (4.9):

ili 6%.

Sa vjerovatnoćom od 0,954, može se tvrditi da će udio muškaraca koji se vjenčaju po drugi put biti unutar , ili .

serijsko uzorkovanje. Serijskom metodom selekcije opća populacija se dijeli na grupe iste veličine - serije. Serije se biraju u skupu uzoraka. U okviru serije vrši se kontinuirano posmatranje jedinica koje su ušle u seriju.

U slučaju nerepetitivnog odabira serija, granične greške uzorka srednje vrijednosti i proporcije određuju se formulom

, (4.13)

gdje je međuserija varijansa;

R je broj serija u općoj populaciji;

r– broj odabranih serija.

Primjer 4.4

U radnji preduzeća radi 10 timova radnika. U cilju proučavanja njihove produktivnosti rada, proveden je 20% serijski uzorak koji je uključivao 2 brigade. Kao rezultat ankete utvrđeno je da je prosječna proizvodnja radnika u timovima 4,6 i 3 tone.Sa vjerovatnoćom od 0,997 odrediti granice u kojima će biti prosječna proizvodnja radnika u radnji. t, ili T.

Primjer 4.5

Na lageru gotovih proizvoda Radionica sadrži 200 kutija dijelova, po 40 komada u svakoj kutiji. Za provjeru kvaliteta gotovog proizvoda napravljen je 10% serijski uzorak. Kao rezultat uzorkovanja, utvrđeno je da je udio neispravnih dijelova 15%. Varijanca serijskog uzorka je 0,0049.

Sa vjerovatnoćom od 0,997 odredite granice unutar kojih se nalazi udio neispravnih proizvoda u seriji kutija.

Rješenje

Udio neispravnih dijelova će biti unutar

Odredimo graničnu grešku uzorkovanja za udio po formuli (4.13):

ili 4,4%.

Sa vjerovatnoćom od 0,997, može se tvrditi da je udio neispravnih dijelova u seriji u rasponu od 10,6% 19,6%.

Primjer 4.6

U oblasti koja se sastoji od 20 okruga, sprovedeno je ispitivanje prinosa uzorka na osnovu odabira serija (okruga). Prosjeci uzorka za okruge iznosili su 14,5 c/ha, respektivno; 16; 15.5; 15 i 14 q/ha. Sa vjerovatnoćom od 0,954, pronađite granice prinosa u cijeloj oblasti.

Rješenje

Izračunajte ukupan prosjek:

c/ha.

Međugrupna (međuserija) varijansa

Odredimo sada marginalnu grešku serijskog uzorka koji se ne ponavlja (t = 2, P dov = 0,954) koristeći formulu (4.13):

.

Stoga će prinos u regionu (sa vjerovatnoćom od 0,954) biti unutar

15-1,7≤ ≤15+1,7,

13,3 c/ha ≤ ≤16,7 c/ha.

U praksi projektovanja opservacije uzorka postoji potreba da se pronađe veličina uzorka, koja je neophodna da bi se obezbedila određena tačnost u proračunu opštih karakteristika – proseka i proporcije. U ovom slučaju, granična greška uzorkovanja, vjerovatnoća njenog pojavljivanja i varijacija karakteristike su unaprijed poznati.

Uz nasumično ponovno uzorkovanje, veličina uzorka se određuje iz izraza

Uz slučajni nerepetitivni i mehanički odabir, veličina uzorka se izračunava po formuli

. (4.16)

Za tipičan uzorak

. (4.17)

Za serijsko uzorkovanje

. (4.18)

Primjer 4.7

U okrugu živi 2000 porodica. Predviđeno je da se provede njihovo uzorkovanje metodom slučajnog i neponovljivog odabira kako bi se utvrdila prosječna veličina porodice. Odredite potrebnu veličinu uzorka, pod uslovom da sa vjerovatnoćom od 0,954 greška uzorkovanja ne prelazi jednu osobu sa standardnom devijacijom od tri osobe ( = 3).

Rješenje

Uz slučajni odabir koji se ne ponavlja, veličina uzorka prema formuli (4.16) će biti porodice.

Veličina uzorka: najmanje 36 porodica.

Primjer 4.8

Grad A ima 10.000 porodica. Uz pomoć mehaničkog uzorkovanja trebalo bi utvrditi udio porodica sa troje i više djece. Kolika bi trebala biti veličina uzorka da postoji vjerovatnoća od 0,954 da greška uzorkovanja ne pređe 0,02 ako se zna da je varijansa 0,2 iz prethodnih istraživanja?

Rješenje

Odredimo potrebnu veličinu uzorka prema formuli (4.16):

.

Veličina uzorka: ne manje od 1667.

U statistici je često potrebno uporediti rezultate dva (ili više) uzoraka. Na osnovu poređenja dva uzorka srednje vrijednosti (ili udjela), donosi se zaključak o slučajnosti ili značajnosti njihovog neslaganja.

Za to se apsolutna razlika između indikatora srednje vrijednosti uzorka uspoređuje sa prosječnom greškom razlike:

. (4.19)

Pronađen t calc. u poređenju sa t tab. By t- Studentova raspodjela (tabela P2) za broj stupnjeva slobode v=n 1 +n 2 -2 i dati nivo značajnosti a. (Ovdje n 1 i n 2 – zapremine upoređenih uzoraka).

Empirijska korelacija

Bliskost ili snaga veze između dvije karakteristike može se izmjeriti indikatorom koji se naziva empirijski korelacijski omjer. Ovaj indikator se naziva empirijskim, jer se može izračunati na osnovu uobičajenog grupiranja po faktorima i rezultantnom atributu, odnosno na osnovu korelacione tabele. Empirijska korelacija se dobija iz pravila dodavanja varijanse, prema kojem je , gdje
- ukupna varijansa;
- međugrupna disperzija;
- unutargrupna (prosjek privatne) disperzije. Međugrupna varijansa je mjera fluktuacije zbog faktorskog atributa. Prosjek parcijalnih varijansi je mjera fluktuacije zbog svih drugih (osim faktorskih) karakteristika. Zatim odnos
izražava udio fluktuacije koja nastaje zbog predznaka faktora u ukupnoj fluktuaciji. Kvadratni korijen ovog omjera naziva se empirijski korelacijski omjer:
.

To podrazumijeva pravilo da što je veća međugrupna varijansa, to faktorska osobina jače utječe na varijaciju rezultirajuće osobine. Omjeri komponenti varijansi izračunavaju se iz podataka korelacijske tablice korištenjem sljedećih formula:

;
,

gdje su privatni prosjeci; - opšti prosjek; - zbrojevi po karakteristikama ; - zbrojevi po karakteristikama ;
- broj zapažanja. Isti odnos se održava i za uslovne vrijednosti primljene numeričkom transformacijom.

Sam koeficijent varijanse (radikalni izraz) naziva se koeficijent determinacije (također je jednak kvadratu empirijskog korelacionog odnosa). Empirijski omjer korelacije varira u širokom rasponu (od 0 do 1). Ako je jednak nuli, onda predznak faktora ne utiče na predznak korelacije. Ako =1, što znači da rezultantni predznak u potpunosti zavisi od faktora jedan. Ako je empirijska korelacija razlomak blizak jedinici, onda se govori o tome zatvoriti vezu između faktorskih i rezultantnih karakteristika. Ako je ovaj razlomak mali (blizu nuli), onda se govori o slaboj povezanosti između njih.

Koeficijent linearne korelacije i indeks korelacije

Mjera bliskosti odnosa između dvije statistički povezane karakteristike je koeficijent linearne korelacije ili jednostavno koeficijent korelacije. Ima isto značenje kao empirijski odnos korelacije, ali može imati i pozitivne i negativne vrijednosti. Koeficijent korelacije ima strogi matematički izraz za linearnu vezu. Pozitivna vrijednost će ukazati na direktan odnos između karakteristika, negativna vrijednost će ukazati na suprotno.

Koeficijent parne korelacije u slučaju linearnog oblika komunikacije izračunava se po formuli

i njegovu vrijednost uzorka - prema formuli

Uz mali broj zapažanja, zgodno je izračunati koeficijent korelacije uzorka koristeći sljedeću formulu:

Vrijednost koeficijenta korelacije se mijenja u intervalu
.

At
postoji funkcionalni odnos između dvije varijable, kada
- direktna funkcionalna veza. Ako
, tada vrijednosti X i Y u uzorku nisu u korelaciji; ako je sistem slučajnih varijabli
ima dvodimenzionalnu normalnu distribuciju, tada će i veličine X i Y biti nezavisne.

Ako je koeficijent korelacije u intervalu
, tada postoji inverzna korelacija između X i Y. To potvrđuje i vizuelna analiza početnih informacija. U ovom slučaju, odstupanje Y od srednje vrijednosti uzima se sa suprotnim predznakom.

Ako je svaki par vrijednosti X i Y najčešće istovremeno iznad (ispod) odgovarajućih prosječnih vrijednosti, tada postoji direktna korelacija između vrijednosti i koeficijenta korelacije u intervalu
.

Ako, s druge strane, odstupanje vrijednosti X od srednje vrijednosti podjednako često uzrokuje odstupanja vrijednosti Y naniže od srednje vrijednosti, a odstupanja su cijelo vrijeme različita, onda možemo pretpostaviti da je vrijednost koeficijent korelacije teži nuli.

Treba napomenuti da vrijednost koeficijenta korelacije ne zavisi od mjernih jedinica i izbora referentne tačke. To znači da ako se varijable X i Y smanje (povećaju) za K puta ili za isti broj C, tada se koeficijent korelacije neće promijeniti.

Da bi se pojednostavilo izračunavanje mjere korelacijske čvrstoće, često se koristi indeks korelacije, koji se određuje sljedećim formulama:

,
,

Gdje
- rezidualna varijansa, koja karakteriše varijaciju rezultujućeg atributa pod uticajem drugih neuračunatih faktora.

Višestruka korelacija

Višestruka korelacija - zavisnost rezultanta i dva ili više faktorskih karakteristika uključenih u studiju. Indikator bliskosti odnosa između rezultantne i dva ili više faktorskih karakteristika naziva se višestruki ili kumulativni koeficijent korelacije i označava se sa R. Kumulativni koeficijent implicira postojanje linearne veze između svakog para karakteristika, koja se može izraženo pomoću uparenih koeficijenata korelacije. Ako postoji kumulativna mjera čvrstoće odnosa između efektivne karakteristike () i dva faktorska svojstva ( i ), tada se izračunavanje kumulativnog koeficijenta korelacije vrši prema formuli:

,

Gdje indeksi označavaju između kojih karakteristika se proučava odnos parova.

U formulama za izračunavanje parnih koeficijenata korelacije mijenjaju se samo simboli koji označavaju jedan ili drugi faktor. Dakle, ako se koeficijent korelacije između i izračunava po formuli , tada se koeficijent korelacije između i izračunava: ; između i - dakle:

Naseobinski dio

Zadatak 31

    Za deset preduzeća za izvještajni period dostupni su sljedeći podaci:

tabela 2

Preduzeća

Prosječni godišnji trošak osnovnih proizvodnih sredstava, miliona rub.

Izlaz, milion rubalja

Da biste proučili odnos između veličine prosječne godišnje cijene osnovnih sredstava i proizvodnje, izračunajte linearnu jednačinu odnosa.

2. Na osnovu datih podataka: a) izračunati: linearni koeficijent korelacije; b) provjeriti ispravnost izbora oblika komunikacije izračunavanjem indeksa korelacije.

    Koristeći procesor za proračunske tablice Microsoft Excel, napravićemo radni list:

Tabela 3

Proračun suma za izračunavanje parametara jednačine prave linije

239,74 *1236 = 539,1 distribucije vjerovatnoće... ekonomski analiza, riješeno na osnovu regresija ekonomski modeli. Razmotrimo y - efektivni znak i x - faktor znakova. Metode korelativno-regresija analiza ...

  • Program discipline "Kompjuterske metode za analizu socioloških podataka" (Uvod u matematičku statistiku i analizu podataka) Za smjer 040200. 68 "Sociologija"

    disciplinski program

    Prijave. 11 3 2 6 Disperzivno analiza 9 2 2 5 Dvostruki i višestruki regresivan analiza 9 2 2 5 Svojstva koeficijenata... od SPSS korisnika 11.0 Šiškov V.I. korelacija analiza V ekonomski istraživanja. M. 1975. Eddous M., Stansfield...

  • G. L. Savitskaya analiza ekonomske aktivnosti preduzeća

    Dokument

    izvrsnost, najnovije metode ekonomski istraživanja. Analiza trebalo bi da bude složeno. Složenost istraživanja ... na nivou prosječne satnice korelativno-regresivan analiza. u multifaktorski korelacija model prosječne satne proizvodnje...

  • Korelaciona analiza uključuje merenje bliskosti veze korišćenjem koeficijenta korelacije i korelacionog odnosa. Kod linearnog oblika zavisnosti, jačina veze se procenjuje sa Pearsonov koeficijent korelacije :

    Koeficijent korelacije varira od (- 1) do (+ 1), (– 1 r 1).

    Negativan predznak indikatora ukazuje na povratnu informaciju, pozitivan znak ukazuje na direktnu vezu. Što je vrijednost indikatora bliža jedinici, u apsolutnoj vrijednosti, to je veza jača, što je bliža nuli, veza je slabija.

    Za mjerenje jačine veze s bilo kojim oblikom ovisnosti, linearne i nelinearne, kao i za procjenu višestruke veze, primjenjuju se teorijska korelacija (indeks korelacije). Njegov izračun se zasniva na pravilu dodavanja varijanse:

    Gdje totalna varijansa - odražava varijaciju efektivnog svojstva zbog svih faktora koji na njega djeluju;

    ili

    faktorska varijansa , odražava varijaciju efektivne karakteristike zbog faktora (X).

    rezidualna disperzija , odražava varijaciju efektivne karakteristike zbog svih faktora osim faktora (X);

    Teorijski odnos korelacije je kvadratni korijen omjera faktorske varijanse i ukupne varijanse:

    korijen izraz - koeficijent odlučnosti :

    prikazuje udio varijacije rezultirajuće osobine, zbog utjecaja faktorske osobine, u ukupnoj varijaciji. Što je ovaj udio veći, to je jača veza između karakteristika.

    Teorijski odnos korelacije mijenja se od 0 do 1 (0 R 1) .Vrijednost indikatora je bliža jedinici, to je jača veza.

    Da biste procijenili snagu veze, možete koristiti skala H eddoka:

    Glavni trend razvoja i metode za njegovo otkrivanje

    Svaki red dinamike ima svoj trend razvoja, tj. opšti pravac ka povećanju, smanjenju ili stabilizaciji nivoa pojave tokom vremena. Ozbiljnost ovog trenda zavisi od uticaja konstantnih, periodičnih (sezonskih) i slučajnih faktora na nivoe dinamike serije. Dakle, ne treba govoriti samo o trendu razvoja, već o glavnom trendu.

    Glavni trend razvoja (trend) naziva se glatka i stabilna promjena nivoa fenomena u vremenu, bez periodičnih i slučajnih fluktuacija.

    Da bi se identifikovao trend, serije dinamike se obrađuju metodama povećanja intervala, pokretnog proseka i analitičkog poravnanja.

    Metoda intervalnog grubljanja zasniva se na konsolidaciji vremenskih perioda, koji uključuju nivoe niza dinamike. Da bi se to postiglo, originalni podaci se kombinuju, tj. zbrojeno ili usrednjeno u dužim vremenskim intervalima do Opšti trend razvoj neće postati dovoljno jasan. Na primjer, dnevni podaci o proizvodnji se kombinuju u desetodnevne podatke, mjesečni u kvartalne, godišnji u višegodišnje podatke. Prednost metode je njena jednostavnost. Nedostatak je što je izglađena serija mnogo kraća od originalne.

    metoda pokretnog prosjeka sastoji se u tome da se na osnovu početnih podataka izračunavaju pokretni proseci iz određenog broja prvih nivoa serije, prvo u nizu, zatim iz istog broja nivoa, počevši od drugog, od trećeg , itd. Prosječna vrijednost, takoreći, klizi duž dinamičke serije, krećući se za jedan interval. Pokretni prosjeci izglađuju nasumične fluktuacije.

    Šema za izračunavanje pokretnog prosjeka na 3 nivoa

    Vremenski interval

    (broj po redu)

    Stvarni dinamički nivoi serije

    at i

    pokretni proseci

    at sk

    at 1

    at 2

    at 3

    at 4

    at sc3

    at 5

    at sc4

    at 6

    Izglađena serija dinamike je za vrijednost kraća od originalne (l - 1), ako se povećanje vrši preko neparnog broja nivoa, gdje l je dužina perioda proširenja. Na primjer, ako l = 3, tada je poravnati red 2 nivoa kraći. Dakle, izglađena serija nije mnogo kraća od originalne.

    Metoda analitičkog poravnanja sastoji se u zamjeni stvarnih nivoa vremenske serije njihovim teorijskim vrijednostima izračunatim na osnovu jednadžbe trenda:

    Parametri jednačine su izračunati metoda najmanjih kvadrata:

    Gdje at– stvarni nivoi; at ti su usklađeni (izračunati) nivoi koji im odgovaraju u vremenu.

    Ako se razvoj odvija u aritmetičkoj progresiji (sa jednakim apsolutnim prirastima lanca), onda linearna funkcija:

    Ako postoji dinamika u geometrijskoj progresiji (sa jednakim lančanim stopama rasta), onda je potrebno koristiti eksponencijalna funkcija:

    at t = a 0 A 1 t .

    Ako se razvoj odvija s jednakim stopama rasta, koristi se sa funkcija snage, na primjer drugog reda (parabola):

    at t = a 0 + a 1 t+ a 2 t 2 .

    Kriterijum za ispravan izbor jednačine trenda je greška aproksimacije . Predstavlja standardnu ​​devijaciju stvarnih nivoa dinamičke serije od teorijskih:

    Jednačina sa najmanjom greškom aproksimacije smatra se optimalnom.

    Razmotrite “tehniku” za nivelisanje vremenske serije prema linearna funkcija:


    Gdje A 0 , A 1 su parametri pravolinijske jednačine; t- indikatori vremena (po pravilu redni broj perioda ili trenutka).

    Parametri linije A 0 I A 1 , zadovoljavajući metodu najmanjih kvadrata, nalaze se rješavanjem sljedećeg sistema normalnih jednačina:

    Gdje n je broj nivoa dinamičke serije; parametar A 1 odgovara prosječnom apsolutnom porastu.

    Za pojednostavljenje izračunavanja indikatora vremena
    mogu se dati takve vrijednosti
    , Onda

    Da biste to učinili, u redovima s neparnim brojem nivoa, središnji interval se uzima kao početak vremenske reference, gdje je t izjednačiti sa nulom. Na obje strane nule nalaze se redovi negativnih i pozitivnih prirodnih brojeva, na primjer:

    Vremenski interval

    (broj po redu)

    t i

    Za paran broj nivoa, brojanje se vrši iz dva centralna intervala, u kojima t izjednačeno sa (-1) i (+1) respektivno, a na obje strane nalaze se redovi negativnih i pozitivnih neparnih brojeva, na primjer:

    Vremenski interval

    (broj po redu)

    t i

    Šema za proračun parametara linearne jednačine

    Vremenski intervali

    Dynamic Series Levels

    at i

    t i

    i t 2

    at i t i

    at ti

    Na osnovu izračunate jednačine trenda moguće je proizvesti ekstrapolacija – pronalaženje probabilističkih (projiciranih) nivoa izvan početne serije dinamike.

    ODGOVOR

    Kvantitativna procjena bliskosti komunikacije prema empirijskim podacima sastoji se u izračunavanju pokazatelja bliskosti komunikacije:

    · Empirijski koeficijent determinacije (empirijski omjer disperzije) - r 2 .

    Ovaj indikator se izračunava prema podacima analitičkog grupisanja (tabela), kao omjer međugrupne varijanse rezultatne osobine Y (d y 2) i ukupne varijanse Y (s y 2):

    Prema teoremi dekompozicije varijanse, međugrupna varijansa je povezana sa ukupnom varijansom: s y 2 =d y 2 +e y 2 . Tada se empirijski koeficijent determinacije može izračunati kroz preostalu varijansu koristeći formulu:

    gdje je s j 2 varijansa rezultata Y unutar j-te grupe.

    Empirijski koeficijent determinacije karakterizira jačinu utjecaja atributa grupiranja (X) na formiranje ukupne varijacije rezultirajućeg atributa Y i pokazuje postotak (udio) varijacije atributa rezultata zbog faktora atributa koji je u osnovi grupisanje.

    Zgodno je izračunati r 2 u tabeli:

    Sign-faktor X j Nj Srednja vrijednost karakteristike-rezultata s j 2 N j
    x1 N 1 s 1 2 N 1
    x2 N 2 s 2 2 N 2
    .... ...
    X m N m s m 2 N m
    Ukupno N X es j 2

    Onda .

    Razmotrimo primjer. Neka je zadan skup od 20 radnika, okarakteriziranih sljedećim karakteristikama: Y - učinak radnika (komad/smjena) i X - kvalifikacija (rang). Početni podaci prikazani su u tabeli:

    X
    Y

    Potrebno je ocijeniti bliskost odnosa između obilježja pomoću empirijskog koeficijenta determinacije (r 2).

    Da bismo izračunali r 2, izvršićemo analitičko grupisanje populacije. Kao znak-faktor uzimamo X (kategorija radnika), kao znak-rezultat - Y, rezultat radnika). Analitičko grupisanje je napravljeno na osnovu X. B ovaj slučaj bit će diskretna (jer se vrijednosti atributa X prilično često ponavljaju). Broj grupa jednak je broju vrijednosti atributa X u agregatu, tj. 6. Rezultati grupisanja i izračunavanja r 2 sumirani su u tabeli:

    Znak faktor X Atribut rezultata Y Broj jedinica u grupi, N j Prosječna vrijednost predznaka-rezultata u grupi, ( - ) 2 N j Disperzija svojstva-rezultata u grupi, s 2 j s 2 j N j
    (10+12+13)/3=11,7 (11,7-17,1) 2 3=88,56 s 2 1 = ((10-11,7) 2 + (12-11,7) 2 + (13-11,7) 2) / 3 = 1,56 4,7
    (11+14)/2=12,5 (12,5-17,1) 2 2=42,3 s 2 2 = ((11-12,5) 2 + (14-12,5) 2) / 2 = 2,25 4,5
    (12+13+15+16)/4= 14 (14-17,1) 2 4=38,4 s 2 3 = ((12-14) 2 + (13-14) 2 + (15-14) 2 + (16-14) 2) / 4 \u003d 2,5
    (15+17+17+18)/4= 16,75 (16,75-17,1) 2 4=0,49 s 2 4 = ((15-16.75) 2 + (17-16.75) 2 ++ (17-16.75) 2 + (18-16.75) 2) / 4 \u003d 1.9 4,75
    (18+20+22)/3=20 (20-17,1) 2 3=25,23 s 2 5 = ((18-20) 2 + (20-20) 2 + (22-20) 2) / 3 \u003d 2,7
    (23+24+27+25)/4= 24,75 (24,75-17,1) 2 4=234,1 s 2 6 = ((23-24,75) 2 + (24-24,75) 2 + (27-24,75) 2 + (25-24,75) 2) / 4 \u003d 2,19 8,75
    =17,1 429,1 40,7

    Empirijski koeficijent determinacije jednak je omjeru međugrupne varijanse atributa rezultata (d y 2) i ukupne varijanse atributa rezultata (s y 2): r 2 = d y 2 /s y 2 = d y 2 /(d y 2 +e y 2).

    Međugrupna disperzija Y će biti jednaka: d y 2 = å( - ) 2 N j / N = 429,1/20=21,45.

    Preostala varijansa Y će biti: e y 2 = ås 2 j ·N j / N= 40,7/20= 2,035.

    Zatim: r 2 = 21,45 / (21,45 + 2,035) = 429,1 / (429,1 + 40,7) = 0,913.

    Zaključak: 91,3% varijacije u proizvodnji radnika je posledica uticaja faktora otpuštanja.

    · Empirijska korelacija - r.

    Ovaj indikator je korijen empirijskog koeficijenta determinacije. Pokazuje čvrstu vezu (ne samo linearnu!) između grupiranja i produktivnih karakteristika. Raspon dozvoljenih vrijednosti empirijske korelacije je od 0 do +1.

    Najbliža moguća veza je funkcionalna veza, kada je svaka vrijednost rezultata Y jednoznačno određena vrijednošću faktora X (tj. rezultat grupiranja). U ovom slučaju, varijansa grupne sredine (d y 2) jednaka je ukupnoj varijansi (s y 2), tj. neće biti varijacija unutar grupe. U ovom slučaju, rezidualna disperzija (e y 2) je jednaka 0, a empirijski koeficijent determinacije jednak je 1.

    Ako ne postoji veza između znakova, tada su sve grupne sredine jednake jedna drugoj, neće biti međugrupnih varijacija (d y 2 =0), a empirijski koeficijent determinacije je 0.

    Izračunajmo empirijski odnos korelacije za naš primjer: r= 0,9555. Zaključak: znakovi "proizvodnje radnika" i "otpust" su usko povezani.

    Indikatori r i r 2 određeni su ne samo postojanjem veze između karakteristika X i Y, već i činjenicom grupiranja primarnih podataka. Kako se broj grupa m povećava, međugrupna varijansa d 2 raste i približava se ukupnoj varijansi. Ako je broj grupa manji od broja populacijskih jedinica N, tada vrijednosti r i r 2 nikada neće biti jednake 1, čak ni uz strogu funkcionalnu vezu.

    Napominjemo da vrijednost indikatora bliskosti povezanosti nije sama po sebi dokaz postojanja uzročne veze između proučavanih osobina, već je procjena stepena međusobne konzistentnosti u promjenama karakteristika. Uspostavljanju uzročno-posledične veze nužno mora prethoditi analiza kvalitativne prirode pojava.

    Empirijska korelacija

    Bliskost ili snaga veze između dvije karakteristike može se izmjeriti indikatorom koji se naziva empirijski korelacijski omjer. Ovaj indikator se naziva empirijskim, jer se može izračunati na osnovu uobičajenog grupiranja po faktorima i rezultantnom atributu, odnosno na osnovu korelacione tabele. Empirijski korelacijski odnos se dobija iz pravila za sabiranje varijansi, prema kojem je , gdje je ukupna varijansa; - međugrupna disperzija; - unutargrupna (prosjek privatne) disperzije. Međugrupna varijansa je mjera fluktuacije zbog faktorskog atributa. Prosjek parcijalnih varijansi je mjera fluktuacije zbog svih drugih (osim faktorskih) karakteristika. Tada omjer izražava udio fluktuacije koja nastaje zbog predznaka faktora u ukupnoj fluktuaciji. Kvadratni korijen ovog omjera naziva se empirijski korelacijski omjer: .

    To podrazumijeva pravilo da što je veća međugrupna varijansa, to faktorska osobina jače utječe na varijaciju rezultirajuće osobine. Omjeri komponenti varijansi izračunavaju se iz podataka korelacijske tablice korištenjem sljedećih formula:

    ; ,

    gdje su privatni prosjeci; - opšti prosjek; - iznosi na osnovu ; - iznosi na osnovu ; - broj zapažanja. Isti odnos se održava i za uslovne vrijednosti primljene numeričkom transformacijom.

    Sam koeficijent varijanse (radikalni izraz) naziva se koeficijent determinacije (također je jednak kvadratu empirijskog korelacionog odnosa). Empirijski omjer korelacije varira u širokom rasponu (od 0 do 1). Ako je jednak nuli, onda predznak faktora ne utiče na predznak korelacije. Ako je =1, onda rezultantni predznak u potpunosti zavisi od faktora jedan. Ako je empirijski odnos korelacije razlomak blizak jedan, onda govore o bliskoj vezi između faktorskih i efektivnih karakteristika. Ako je ovaj razlomak mali (blizu nuli), onda se govori o slaboj povezanosti između njih.

    
    Top