Formula empirică a raportului de corelație. Coeficient de determinare și corelație empirică

Soluţie. Pentru a calcula dispersiile de grup, calculăm mediile pentru fiecare grup:

buc.; PCS.

Calculele intermediare ale variațiilor pe grupuri sunt prezentate în tabel. 3.2. Înlocuind valorile obținute în formula (3.4), obținem:

Media variațiilor de grup

Apoi calculăm varianța intergrup. Pentru a face acest lucru, definim mai întâi media generală ca media ponderată a mediilor grupului:

Acum definim varianța intergrup

Astfel, variația totală conform regulii de adunare a variațiilor:

Să verificăm rezultatul calculând variația totală în mod obişnuit:

Pe baza regulii de adăugare a variațiilor, este posibil să se determine indicatorul strângerii relației dintre gruparea (factorială) și caracteristicile efective. Se numește raportul de corelație empirică, notat ("acest") și se calculează prin formula

Pentru exemplul nostru, cel empiric relație de corelație

.

Valoarea de 0,86 caracterizează o relație semnificativă între grupare și caracteristicile de performanță.

Valoarea se numește coeficient de determinare și arată ponderea variației intergrupurilor în varianța totală.

Odată cu variația trăsăturilor cantitative, se poate observa și o variație a trăsăturilor calitative. Un astfel de studiu al variației se realizează, ca și pentru proporțiile trăsăturilor cantitative, prin calcularea și analizarea următoarelor tipuri de variații.

Varianta intra-grup a cotei este determinata de formula

. (3.17)

Media variațiilor în interiorul grupului este calculată ca

. (3.18)

Formula de variație intergrup este următoarea:

, (3.19)

Unde n i– numărul de unități în grupuri separate;

- proporția trăsăturii studiate în întreaga populație, care este determinată de formulă

Varianta totală are forma

. (3.21)

Cele trei tipuri de dispersie sunt legate între ele după cum urmează:

. (3.22)

Exemplul 3.4

Să definim variațiile de grup, media grupului, intergrup și variațiile totale conform datelor din tabel. 3.3.

Tabelul 3.3

Numărul și gravitație specifică una dintre categorii
zona fermelor de vite



Soluţie

Să determinăm ponderea vacilor de lapte în general pentru trei ferme:

Variația totală a proporției de vaci de lapte:

Variante intragrup:

; ; .

Media variațiilor în cadrul grupului:

Varianta intergrup:

Folosind regula de adunare a variațiilor, obținem: 0,1025+0,0031=0,1056. Exemplul este corect.

Exemplul 3.5

Conform unui sondaj prin sondaj salariile angajații din sectorul public au primit următorii indicatori (Tabelul 3.4).

Tabelul 3.4

Defini:

1) salariul mediu în două industrii;

2) dispersia salariilor:

a) media dispersiunilor de grup (industrie),

b) intergrup (intersectorial),

3) coeficientul de determinare;

4) corelarea empirică.

Soluţie

1. Salariul mediu al lucrătorilor din două industrii se calculează prin formula (2.10):

freca.

2. Variante salariale:

a) media dispersiilor de grup conform (3.14)

b) dispersie intergrup conform (3.12)

c) varianța totală obținută pe baza regulii de adunare a variațiilor (3.15):

3. Coeficientul de determinare este egal cu valoarea

acestea. , sau 44,24%.

Arată că remunerarea cu 44,24% depinde de apartenența sectorială a salariaților și cu 55,76% - de motive intra-industriale.

Conform formulei (3.16), raportul de corelație empirică ,

ceea ce indică un impact semnificativ asupra diferenţierii salariilor a caracteristicilor sectoriale.

3.2. SARCINI PENTRU SOLUȚIE INDEPENDENTĂ

Sarcina 3.1

Conform repartizării a 60 de lucrători pe categorii tarifare, sunt disponibile următoarele date (Tabelul 3.5).

Tabelul 3.5

Defini:

1) categoria de salariu mediu a lucrătorilor;

2) abaterea liniară medie;

3) dispersie;

4) abaterea standard;

5) coeficientul de variație.

Sarcina 3.2

Conform rezultatelor sesiunii de examene a cursurilor I și II ale uneia dintre universități sunt disponibile următoarele date: în anul I, 85% dintre studenți au promovat sesiunea fără doi, în anul II - 90%.

Determinați pentru fiecare curs varianța proporției de studenți care au promovat cu succes sesiunea.

Sarcina 3.3

Societăţile pe acţiuni ale regiunii conform numărului mediu de salariaţi la 1 ianuarie 2004 au fost repartizate astfel (Tabelul 3.6).

Tabelul 3.6

Calculati:

1) abaterea liniară medie;

2) dispersie;

3) abaterea standard;

4) coeficientul de variație.

Sarcina 3.4

Există date privind distribuția familiilor angajaților întreprinderii după numărul de copii (Tabelul 3.7).

Tabelul 3.7

Calculati:

1) dispersie intra-grup;

2) media dispersiilor intragrup;

3) dispersie intergrup;

4) varianța totală.

Verificați corectitudinea calculelor folosind regula adunării varianțelor.

Sarcina 3.5

Repartizarea costului produselor destinate exportului de către magazinele întreprinderii este reprezentată de următoarele date (Tabelul 3.8).

Tabelul 3.8

Calculati:

1) media cotelor intragrup, intergrup și totale ale produselor de export;

2) coeficientul de determinare și corelația empirică.

Sarcina 3.6

Potrivit unui sondaj al băncilor comerciale din oraș, 70% din numărul total de clienți erau persoane juridice cu un împrumut mediu de 120 de mii de ruble. și un coeficient de variație de 25% și 20% - indivizii cu o mărime medie a împrumutului de 20 de mii de ruble. cu o abatere pătrată medie de 6 mii de ruble.

Folosind regulile de adăugare a variațiilor, determinați strânsoarea relației dintre mărimea împrumutului și tipul de client prin calcularea raportului de corelație empiric.

Secțiunea 4. Observarea selectivă

4.1. INSTRUCȚIUNI METODOLOGICE
ȘI SOLUȚIONAREA SARCINILOR TIPICE

Scopul observării eșantionului este de a determina caracteristicile populației generale - media generală (o) și ponderea generală ( R). Caracteristicile populației eșantionului - media eșantionului () și ponderea eșantionului () diferă de caracteristicile generale prin valoarea erorii de eșantionare (). Prin urmare, pentru a determina caracteristicile populației generale, este necesar să se calculeze eroarea de eșantionare, sau eroarea de reprezentativitate, care este determinată prin formule elaborate în teoria probabilității pentru fiecare tip de eșantion și metodă de selecție.

Prelevare corectă aleatorie și mecanică.În cazul reeșantionării aleatorii, eroarea marginală de eșantionare pentru medie () și pentru proporție () se calculează prin formule

; (4.1)

(4.2)

unde este varianța populației eșantionului;

n- marime de mostra;

t este coeficientul de încredere, care este determinat din tabelul de valori al funcției integrale Laplace pentru o probabilitate dată ( P dos.) (Tabelul A1).

În cazul selecției aleatoare și mecanice nerepetitive, eroarea marginală de eșantionare este calculată prin formule

; (4.3)

, (4.4)

Unde N- mărimea populaţiei generale.

Exemplul 4.1

Pentru a determina conținutul de cenușă de cărbune din zăcământ, 100 de mostre de cărbune au fost examinate aleatoriu. În urma sondajului, s-a constatat că conținutul mediu de cenușă de cărbune din eșantion este de 16%, abaterea standard este de 5%. În zece probe, conținutul de cenușă al cărbunelui a fost mai mare de 20%. Cu o probabilitate de 0,954, determinați limitele în care se va afla conținutul mediu de cenușă de cărbune din zăcământ și proporția de cărbune cu un conținut de cenușă mai mare de 20%.

Soluţie

Conținutul mediu de cenușă al cărbunelui va fi în limita

Pentru a determina limitele mediei generale, calculăm eroarea marginală de eșantionare pentru medie folosind formula (4.1):

. (4.5)

Cu o probabilitate de 0,954, se poate argumenta că conținutul mediu de cenușă al cărbunelui din zăcământ va fi de 16% 1%, sau 15% 17%.

Ponderea cărbunelui cu un conținut de cenușă de peste 20% va fi în limita

Cota de eșantion este determinată de formulă

Unde m este proporția de unități cu caracteristica

Eroarea de eșantionare pentru cota () se calculează prin formula (4.2):

sau ±6%.

Cu o probabilitate de 0,954, se poate susține că proporția de cărbune cu un conținut de cenușă de peste 20% în zăcământ va fi în , sau .

Exemplul 4.2

Pentru a determina termenul mediu de utilizare a unui împrumut pe termen scurt într-o bancă s-a realizat un eșantion mecanic de 5%, care a inclus 100 de conturi. În urma sondajului s-a constatat că termenul mediu de utilizare a unui credit pe termen scurt este de 30 de zile cu o abatere standard de 9 zile. În cinci conturi, termenul de utilizare a creditului a depășit 60 de zile. Cu o probabilitate de 0,954, determinați limitele în care va fi termenul de utilizare a unui împrumut pe termen scurt în populația generală și proporția conturilor cu un termen de utilizare a unui împrumut pe termen scurt mai mare de 60 de zile.

Soluţie

Termen mediu utilizarea unui împrumut bancar este în

.

Deoarece eșantionarea este mecanică, eroarea de eșantionare este determinată de formula (2.3):

zi.

Cu o probabilitate de 0,954, se poate argumenta că termenul de utilizare a unui împrumut pe termen scurt într-o bancă este de = 30 zile 2 zile, sau

28 de zile pe zi.

Ponderea creditelor cu scadenta mai mare de 60 de zile este in limita

Cota de eșantion va fi

Eroarea de eșantionare pentru cotă este determinată de formula (4.4):

sau 4,2%.

Cu o probabilitate de 0,954, se poate susține că ponderea împrumuturilor bancare cu scadență mai mare de 60 de zile va fi în sau

Probă tipică.Într-o selecție tipică (zonată), populația generală este împărțită în grupuri tipice omogene, zone. Se efectuează selecția unităților de observație din setul de eșantionare diverse metode. Luați în considerare un eșantion tipic cu selecție proporțională în cadrul grupurilor tipice.

Mărimea eșantionului dintr-un grup tipic în selecție proporțională cu numărul de grupuri tipice este determinată de formulă

Unde n i este dimensiunea eșantionului dintr-un grup tipic;

N i este volumul unui grup tipic.

Eroarea marginală a mediei și proporția eșantionului pentru aleatoriu nerepetitiv și cale mecanică selecția în cadrul grupurilor tipice este calculată prin formule

; (4.8)

, (4.9)

unde este varianța populației eșantionului.

Exemplul 4.3

Pentru a determina vârsta medie a bărbaților care se căsătoresc, s-a realizat un eșantion tipic de 5% în raion cu selecția unităților proporțional cu mărimea grupurilor tipice. În cadrul grupelor s-a folosit selecția mecanică. Datele sunt rezumate în tabel. 4.1.

Tabelul 4.1

Cu o probabilitate de 0,954, determinați limitele în care varsta medie bărbații care se căsătoresc și proporția bărbaților care se căsătoresc a doua oară.

Soluţie

Vârsta medie de căsătorie pentru bărbați este între

.

Vârsta medie de căsătorie a bărbaților din populația eșantion este determinată de formula medie ponderată

= al anului.

Varianța medie a eșantionului este determinată de formulă
mijloc

=

Calculăm eroarea marginală de eșantionare folosind formula (4.8):

al anului.

Cu o probabilitate de 0,954, se poate susține că vârsta medie a bărbaților care se căsătoresc va fi în intervalul anului anului sau

24 de ani.

Proporția bărbaților care se recăsătoresc va fi în limita

Ponderea eșantionului este determinată de formula mediei

sau 14%.

Varianța medie a eșantionului a unei caracteristici alternative este calculată prin formulă

(4.12)

Eroarea de eșantionare pentru cotă este determinată de formula (4.9):

sau 6%.

Cu o probabilitate de 0,954, se poate argumenta că proporția bărbaților care se căsătoresc a doua oară va fi în limita , sau .

eșantionare în serie. Cu metoda de selecție în serie, populația generală este împărțită în grupuri de aceeași dimensiune - serie. Serii sunt selectate în setul de mostre. În cadrul seriei se efectuează o observare continuă a unităților care au căzut în serie.

În cazul selecției nerepetitive a seriei, erorile marginale ale mediei și proporției eșantionului sunt determinate de formula

, (4.13)

unde este varianța interserială;

R este numărul de serii din populația generală;

r– numărul de serii selectate.

Exemplul 4.4

În magazinul întreprinderii sunt 10 echipe de muncitori. Pentru a le studia productivitatea muncii s-a realizat un eșantion de 20% în serie, care a inclus 2 brigăzi. În urma sondajului s-a constatat că producția medie a lucrătorilor din echipe a fost de 4,6 și 3 tone.Cu o probabilitate de 0,997, stabiliți limitele în care se va afla producția medie a lucrătorilor din magazin. t, sau t.

Exemplul 4.5

În stoc produse terminate Atelierul conține 200 de cutii de piese, câte 40 de bucăți în fiecare cutie. Pentru a verifica calitatea produsului finit a fost realizată o probă în serie de 10%. În urma prelevării de probe, s-a constatat că proporția pieselor defecte este de 15%. Varianța eșantionului în serie este 0,0049.

Cu o probabilitate de 0,997, determinați limitele în care se află proporția de produse defecte dintr-un lot de cutii.

Soluţie

Proporția pieselor defecte va fi în limita

Să determinăm eroarea marginală de eșantionare pentru pondere prin formula (4.13):

sau 4,4%.

Cu o probabilitate de 0,997, se poate argumenta că proporția pieselor defecte din lot este în intervalul 10,6% 19,6%.

Exemplul 4.6

Într-o regiune formată din 20 de raioane, a fost efectuată o anchetă a randamentului prin eșantion pe baza selecției serii (districte). Mediile eșantionului pentru raioane au fost de 14,5 c/ha, respectiv; 16; 15,5; 15 și 14 q/ha. Cu o probabilitate de 0,954, găsiți limitele de randament în întreaga zonă.

Soluţie

Calculați media generală:

c/ha.

Varianta intergrup (interserii).

Să determinăm acum eroarea marginală a unei probe în serie nerepetată (t = 2, P dov = 0,954) folosind formula (4.13):

.

Prin urmare, randamentul din regiune (cu o probabilitate de 0,954) va fi în limita

15-1,7≤ ≤15+1,7,

13,3 c/ha ≤ ≤16,7 c/ha.

În practica de proiectare a observației eșantionului, este necesar să se găsească dimensiunea eșantionului, care este necesară pentru a asigura o anumită acuratețe în calculul caracteristicilor generale - media și proporția. În acest caz, eroarea marginală de eșantionare, probabilitatea apariției acesteia și variația caracteristicii sunt cunoscute dinainte.

Cu reeșantionarea aleatorie, dimensiunea eșantionului este determinată din expresie

Cu selecția aleatorie nerepetitivă și mecanică, dimensiunea eșantionului este calculată prin formulă

. (4.16)

Pentru o mostră tipică

. (4.17)

Pentru eșantionare în serie

. (4.18)

Exemplul 4.7

În raion locuiesc 2000 de familii. Este planificat să se efectueze un sondaj prin eșantion al acestora prin metoda selecției aleatorii nerepetitive pentru a găsi dimensiunea medie a familiei. Determinați dimensiunea eșantionului necesară, cu condiția ca, cu o probabilitate de 0,954, eroarea de eșantionare să nu depășească o persoană cu o abatere standard de trei persoane ( = 3).

Soluţie

Cu selecția aleatorie nerepetitivă, dimensiunea eșantionului conform formulei (4.16) va fi familii.

Mărimea eșantionului: cel puțin 36 de familii.

Exemplul 4.8

Orașul A are 10.000 de familii. Cu ajutorul eșantionării mecanice, se presupune că se determină proporția familiilor cu trei copii sau mai mulți. Care ar trebui să fie dimensiunea eșantionului astfel încât să existe o probabilitate de 0,954 ca eroarea de eșantionare să nu depășească 0,02 dacă se știe că varianța este de 0,2 din sondajele anterioare?

Soluţie

Să determinăm dimensiunea necesară a eșantionului conform formulei (4.16):

.

Dimensiunea eșantionului: nu mai puțin de 1667.

În statistică, este adesea necesar să se compare rezultatele a două (sau mai multe) mostre. Pe baza unei comparații a două medii (sau acțiuni) eșantionului, se face o concluzie despre caracterul aleatoriu sau semnificația discrepanței acestora.

Pentru aceasta, diferența absolută dintre indicatorii mediilor eșantionului este comparată cu eroarea medie a diferenței:

. (4.19)

Găsite t calc. comparativ cu t fila. pe t- Distribuția studentului (Tabelul P2) pentru numărul de grade de libertate v=n 1 +n 2 -2 și un nivel de semnificație dat a. (Aici n 1 și n 2 – volume de probe comparate).

Relația de corelație empirică

Apropierea sau puterea unei relații dintre două caracteristici poate fi măsurată printr-un indicator numit raportul de corelație empirică. Acest indicator se numește empiric, deoarece poate fi calculat pe baza grupării obișnuite după factor și atribut rezultat, adică pe baza unui tabel de corelare. Corelația empirică se obține din regula de adunare a varianței, conform căreia , unde
- varianta totala;
- dispersie intergrup;
- dispersia intragrup (media a privatului). Varianta intergrup este o măsură a fluctuației datorată unui atribut de factor. Media variațiilor parțiale este o măsură a fluctuației datorată tuturor celorlalte caracteristici (cu excepția factoriale). Apoi relația
exprimă ponderea fluctuației apărute datorită semnului factor în fluctuația totală. Rădăcina pătrată a acestui raport se numește raportul de corelație empirică:
.

Aceasta implică regula conform căreia, cu cât varianța dintre grupuri este mai mare, cu atât trăsătura factorului afectează mai puternic variația trăsăturii rezultate. Rapoartele componente ale variațiilor sunt calculate din datele din tabelul de corelare folosind următoarele formule:

;
,

unde sunt mediile private; - media generală; - totaluri pe caracteristici ; - totaluri pe caracteristici ;
- numărul de observații. Aceeași relație se păstrează și pentru valorile condiționate primite prin transformare numerică.

Raportul de varianță în sine (expresia radicală) se numește coeficient de determinare (este egal și cu pătratul raportului de corelație empiric). Raportul de corelație empirică variază într-un interval larg (de la 0 la 1). Dacă este egal cu zero, atunci semnul factorului nu afectează semnul corelației. În cazul în care un =1, ceea ce înseamnă că semnul rezultat depinde complet de factorul unu. Dacă corelația empirică este o fracție apropiată de unitate, atunci se vorbește despre legătură strânsăîntre caracteristicile factoriale și rezultante. Dacă această fracție este mică (aproape de zero), atunci se vorbește despre o legătură slabă între ele.

Coeficient de corelație liniară și indice de corelație

O măsură a strângerii relației dintre două caracteristici legate statistic este coeficientul de corelație liniară sau pur și simplu coeficientul de corelație. Are aceeași semnificație ca raportul de corelație empirică, dar poate lua atât valori pozitive, cât și negative. Coeficientul de corelație are o expresie matematică strictă pentru o relație liniară. O valoare pozitivă va indica o relație directă între caracteristici, o valoare negativă va indica contrariul.

Coeficientul de corelație de pereche în cazul unei forme liniare de comunicare se calculează prin formula

și valoarea eșantionului acesteia - conform formulei

Cu un număr mic de observații, este convenabil să se calculeze coeficientul de corelație al eșantionului folosind următoarea formulă:

Valoarea coeficientului de corelație se modifică în interval
.

La
există o relaţie funcţională între cele două variabile, când
- conexiune funcțională directă. În cazul în care un
, atunci valorile lui X și Y din eșantion sunt necorelate; dacă sistemul de variabile aleatoare
are o distribuție normală bidimensională, atunci mărimile X și Y vor fi și ele independente.

Dacă coeficientul de corelaţie este în interval
, atunci există o corelație inversă între X și Y. Acest lucru este confirmat și de analiza vizuală a informațiilor inițiale. În acest caz, abaterea lui Y de la valoarea medie este luată cu semnul opus.

Dacă fiecare pereche de valori X și Y este cel mai adesea simultan deasupra (dedesubt) valorilor medii corespunzătoare, atunci există o corelație directă între valori, iar coeficientul de corelație este în interval
.

Dacă, pe de altă parte, abaterea valorii lui X de la valoarea medie provoacă la fel de des abateri ale valorii lui Y în jos de la valoarea medie, iar abaterile sunt tot timpul diferite, atunci putem presupune că valoarea lui coeficientul de corelare tinde spre zero.

De remarcat faptul că valoarea coeficientului de corelație nu depinde de unitățile de măsură și de alegerea punctului de referință. Aceasta înseamnă că dacă variabilele X și Y se reduc (măresc) de K ori sau cu același număr C, atunci coeficientul de corelație nu se va modifica.

Pentru a simplifica calculul măsurii de etanșeitate a corelației, este adesea utilizat indicele de corelație, care este determinat de următoarele formule:

,
,

Unde
- variaţia reziduală, care caracterizează variaţia atributului rezultat sub influenţa altor factori necontabilizaţi.

Corelație multiplă

Corelație multiplă - dependența rezultatului și a două sau mai multe caracteristici factori incluse în studiu. Un indicator al strângerii relației dintre rezultantă și două sau mai multe caracteristici factori se numește coeficient de corelație multiplă sau cumulativă și este notat cu R. Coeficientul cumulat implică prezența unei relații liniare între fiecare pereche de caracteristici, care poate fi exprimată folosind coeficienți de corelație perechi. Dacă există o măsură cumulativă a strânsei relației dintre caracteristica efectivă () și caracteristicile a doi factori ( și ), atunci calculul coeficientului de corelație cumulat se efectuează după formula:

,

Unde indicele indică între ce caracteristici este studiată relația de pereche.

În formulele pentru calcularea coeficienților de corelație perechi, se modifică doar simbolurile care denotă unul sau altul factor. Deci, dacă coeficientul de corelație dintre și este calculat prin formula , atunci coeficientul de corelație dintre și se calculează: ; intre si - deci:

Partea de decontare

Sarcina 31

    Următoarele date sunt disponibile pentru zece întreprinderi pentru perioada de raportare:

masa 2

Întreprinderi

Costul mediu anual al activelor fixe de producție, mln. rub.

Ieșire, milioane de ruble

Pentru a studia relația dintre mărimea costului mediu anual al mijloacelor fixe și producția, calculați ecuația relației liniare.

2. Pe baza datelor date: a) se calculează: coeficientul de corelație liniară; b) se verifică corectitudinea alegerii formei de comunicare prin calcularea indicelui de corelare.

    Folosind procesorul de foi de calcul Microsoft Excel, vom construi o foaie de lucru:

Tabelul 3

Calculul sumelor pentru calcularea parametrilor ecuației unei drepte

239,74 *1236 = 539,1 distribuții de probabilitate... economic analiză, rezolvat pe baza de regresie economic modele. Să considerăm y - un semn eficient și x - semne factor. Metode în mod corelativ-regresie analiză ...

  • Programul disciplinei „Metode computerizate pentru analiza datelor sociologice” (Introducere în statistica matematică și analiza datelor) Pentru direcția 040200. 68 „Sociologie”

    program disciplinar

    Aplicații. 11 3 2 6 Dispersiv analiză 9 2 2 5 Dublu și multiplu regresiv analiză 9 2 2 5 Proprietăţile coeficienţilor... de către utilizatorul SPSS 11.0 Siskov V.I. corelație analizăîn economic cercetare. M. 1975. Eddous M., Stansfield...

  • Analiza G. L. Savitskaya a activității economice a întreprinderii

    Document

    Excelenta, cele mai recente metode economic cercetare. Analiză ar trebui să fie complexă. Complexitatea cercetării... la nivelul producției orare medii în mod corelativ-regresiv analiză. într-un multifactorial corelație model de producție orară medie...

  • Analiza corelației presupune măsurarea strângerii conexiunii folosind coeficientul de corelație și raportul de corelație. Cu o formă liniară de dependență, puterea conexiunii este estimată prin Coeficientul de corelație Pearson :

    Coeficientul de corelație variază de la (- 1) la (+ 1), (– 1 r 1).

    Un semn negativ al indicatorului indică un feedback, un semn pozitiv indică o conexiune directă. Cu cât valoarea indicatorului este mai aproape de unu, în valoare absolută, cu atât conexiunea este mai puternică, cu atât este mai aproape de zero, cu atât conexiunea este mai slabă.

    Pentru a măsura puterea conexiunii cu orice formă de dependență, atât liniară, cât și neliniară, precum și pentru a evalua conexiunea multiplă, aplicați corelație teoretică (indicele de corelare). Calculul său se bazează pe regula de adunare a varianței:

    Unde varianta totala - reflecta variatia caracteristicii efective datorita tuturor factorilor care actioneaza asupra acesteia;

    sau

    varianța factorilor , reflectă variația caracteristicii efective datorită factorului (X).

    dispersie reziduala , reflectă variația caracteristicii efective datorită tuturor factorilor cu excepția factorului (X);

    Raportul teoretic de corelare este rădăcina pătrată a raportului dintre varianța factorială și varianța totală:

    expresie rădăcină - coeficient de determinare :

    arată proporţia variaţiei trăsăturii rezultate, datorită influenţei trăsăturii factorului, în variaţia totală. Cu cât această proporție este mai mare, cu atât este mai puternică relația dintre trăsături.

    Raportul teoretic de corelare se schimba de la 0 la 1 (0 R 1) .Valoarea indicatorului este mai apropiată de unu, cu atât relația este mai puternică.

    Pentru a evalua puterea relației, puteți folosi scară H eddoka:

    Principala tendință de dezvoltare și metode de detectare a acesteia

    Fiecare rând de dinamică are propria tendință de dezvoltare, adică direcția generală spre o creștere, scădere sau stabilizare a nivelului fenomenului în timp. Severitatea acestei tendințe depinde de influența factorilor constanti, periodici (sezonieri) și aleatoriu asupra nivelurilor seriei de dinamică. Prin urmare, ar trebui să vorbim nu doar despre tendința de dezvoltare, ci și despre tendința principală.

    Principala tendință de dezvoltare (tendință) se numește schimbare lină și stabilă a nivelului fenomenului în timp, lipsită de fluctuații periodice și aleatorii.

    Pentru a identifica o tendință, seriile de dinamică sunt procesate prin metode de mărire a intervalelor, medie mobilă și aliniere analitică.

    Metoda de îngroșare pe intervale se bazează pe consolidarea unor perioade de timp, care includ nivelurile unei serii de dinamici. Pentru a face acest lucru, datele originale sunt combinate, de exemplu. însumat sau mediat pe intervale de timp mai lungi până când Tendința generală dezvoltarea nu va deveni suficient de clară. De exemplu, datele zilnice despre producție sunt combinate în date de zece zile, datele lunare în date trimestriale, datele anuale în date multianuale. Avantajul metodei este simplitatea ei. Dezavantajul este că seria netezită este mult mai scurtă decât cea originală.

    metoda mediei mobile constă în faptul că, pe baza datelor inițiale, mediile mobile se calculează dintr-un anumit număr de primele niveluri ale seriei, primele la rând, apoi din același număr de niveluri, începând de la al doilea, de la al treilea. , etc. Valoarea medie, parcă, alunecă de-a lungul seriei dinamice, mișcându-se cu un interval. Mediile mobile netezesc fluctuațiile aleatoare.

    Schema de calcul a mediei mobile pe 3 niveluri

    Interval de timp

    (numar in ordine)

    Nivelurile reale ale seriei dinamice

    la i

    medii mobile

    la sk

    la 1

    la 2

    la 3

    la 4

    la sc3

    la 5

    la sc4

    la 6

    Seria netezită de dinamică este mai scurtă decât cea originală după valoare (l - 1), dacă mărirea se realizează pe un număr impar de nivele, unde l este durata perioadei de extindere. De exemplu, dacă l = 3, atunci rândul aliniat este cu 2 niveluri mai scurt. Astfel, seria netezită nu este cu mult mai scurtă decât cea originală.

    Metoda de aliniere analitică constă în înlocuirea nivelurilor efective ale seriilor temporale cu valorile lor teoretice calculate pe baza ecuației tendinței:

    Parametrii ecuației sunt calculați metoda celor mai mici pătrate:

    Unde la– niveluri reale; la ti sunt nivelurile aliniate (calculate) corespunzătoare acestora în timp.

    Dacă dezvoltarea se realizează într-o progresie aritmetică (cu incremente absolute egale în lanț), atunci funcție liniară:

    Dacă există o dinamică în progresia geometrică (cu rate egale de creștere a lanțului), atunci este necesar să se utilizeze functie exponentiala:

    la t = a 0 A 1 t .

    Dacă dezvoltarea are loc cu rate de creștere egale, se folosește cu functie de putere, de exemplu de ordinul doi (parabola):

    la t = a 0 + a 1 t+ a 2 t 2 .

    Criteriul pentru alegerea corectă a ecuației de tendință este eroare de aproximare . Reprezintă abaterea standard a nivelurilor efective ale seriei de dinamică față de cele teoretice:

    Ecuația cu cea mai mică eroare de aproximare este considerată optimă.

    Luați în considerare „tehnica” de nivelare a seriilor temporale în funcție de funcție liniară:


    Unde A 0 , A 1 sunt parametrii ecuației drepte; t- indicatori de timp (de regulă, numărul de serie al perioadei sau al punctului de timp).

    Parametri de linie A 0 și A 1 , care satisface metoda celor mai mici pătrate, se găsesc prin rezolvarea următorului sistem de ecuații normale:

    Unde n este numărul de niveluri ale seriei de dinamică; parametru A 1 corespunde creșterii medii absolute.

    Pentru a simplifica calculul indicatorilor de timp
    pot fi date valori astfel încât
    , apoi

    Pentru a face acest lucru, în rândurile cu un număr impar de nivele, intervalul central este luat ca început al referinței de timp, unde t egal cu zero. Pe ambele părți ale lui zero, există șiruri de numere naturale negative și, respectiv, pozitive, de exemplu:

    Interval de timp

    (numar in ordine)

    t i

    Pentru un număr par de niveluri, numărarea se efectuează din două intervale centrale, în care t egal cu (-1) și respectiv (+1), iar pe ambele părți există șiruri de numere impare negative și pozitive, de exemplu:

    Interval de timp

    (numar in ordine)

    t i

    Schema de calcul a parametrilor unei ecuații liniare

    Intervalele de timp

    Niveluri dinamice ale seriei

    la i

    t i

    i t 2

    la i t i

    la ti

    Pe baza ecuației de tendință calculată, este posibil să se producă extrapolare – găsirea nivelurilor probabilistice (proiectate) în afara seriei inițiale de dinamică.

    RĂSPUNS

    O evaluare cantitativă a gradului de apropiere a comunicării conform datelor empirice constă în calcularea indicatorilor de apropiere a comunicării:

    · Coeficientul empiric de determinare (raportul de dispersie empiric) - r 2 .

    Acest indicator se calculează în funcție de datele grupării analitice (tabel), ca raport dintre varianța intergrup a trăsăturii rezultatului Y (d y 2) și varianța totală Y (s y 2):

    Conform teoremei de descompunere a varianței, varianța intergrup este legată de varianța totală: s y 2 =d y 2 +e y 2 . Apoi coeficientul empiric de determinare poate fi calculat prin varianța reziduală folosind formula:

    unde s j 2 este varianța rezultatului Y în cadrul grupului j-a.

    Coeficientul empiric de determinare caracterizează puterea influenței atributului de grupare (X) asupra formării variației globale a atributului rezultat Y și arată procentul (ponderea) variației atributului rezultat datorită factorului de atribut care stă la baza gruparea.

    Este convenabil să calculați r 2 în tabel:

    Factor-semn X j Nj Valoarea medie a caracteristicii-rezultat s j 2 N j
    x1 N 1 s 1 2 N 1
    x2 N 2 s 2 2 N 2
    .... ...
    X m N m s m 2 N m
    Total N X es j 2

    Apoi .

    Luați în considerare un exemplu. Să fie dat un set de 20 de muncitori, caracterizați prin următoarele caracteristici: Y - randamentul unui muncitor (piesă / schimb) și X - calificare (grad). Datele inițiale sunt prezentate în tabel:

    X
    Y

    Este necesară evaluarea gradului de apropiere a relației dintre caracteristici folosind coeficientul empiric de determinare (r 2).

    Pentru a calcula r 2, vom efectua o grupare analitică a populației. Ca factor-semn, luăm X (categoria unui lucrător), ca rezultat-semn - Y, rezultatul unui lucrător). Gruparea analitică se face pe baza lui X.B acest caz va fi discret (deoarece valorile atributului X se repetă destul de des). Numărul de grupuri este egal cu numărul de valori ale atributului X în agregat, adică. 6. Rezultatele grupării și calculului lui r 2 sunt rezumate în tabel:

    Factorul de semn X Atributul rezultat Y Numărul de unități dintr-un grup, N j Valoarea medie a semnului rezultat în grup, (-) 2 N j Dispersia trăsăturii-rezultat în grup, s 2 j s 2 j N j
    (10+12+13)/3=11,7 (11,7-17,1) 2 3=88,56 s 2 1 \u003d ((10-11,7) 2 + (12-11,7) 2 + (13-11,7) 2) / 3 \u003d 1,56 4,7
    (11+14)/2=12,5 (12,5-17,1) 2 2=42,3 s 2 2 \u003d ((11-12,5) 2 + (14-12,5) 2) / 2 \u003d 2,25 4,5
    (12+13+15+16)/4= 14 (14-17,1) 2 4=38,4 s 2 3 \u003d ((12-14) 2 + (13-14) 2 + (15-14) 2 + (16-14) 2) / 4 \u003d 2,5
    (15+17+17+18)/4= 16,75 (16,75-17,1) 2 4=0,49 s 2 4 \u003d ((15-16.75) 2 + (17-16.75) 2 ++ (17-16.75) 2 + (18-16.75) 2) / 4 \u003d 1.9 4,75
    (18+20+22)/3=20 (20-17,1) 2 3=25,23 s 2 5 \u003d ((18-20) 2 + (20-20) 2 + (22-20) 2) / 3 \u003d 2,7
    (23+24+27+25)/4= 24,75 (24,75-17,1) 2 4=234,1 s 2 6 \u003d ((23-24.75) 2 + (24-24.75) 2 + (27-24.75) 2 + (25-24.75) 2) / 4 \u003d 2.19 8,75
    =17,1 429,1 40,7

    Coeficientul empiric de determinare este egal cu raportul dintre varianța intergrup a atributului rezultat (d y 2) și varianța totală a atributului rezultat (s y 2): r 2 = d y 2 /s y 2 = d y 2 /(d y 2) + e y 2).

    Dispersia intergrupurilor Y va fi egală cu: d y 2 = å( - ) 2 N j / N = 429,1/20=21,45.

    Varianta reziduala Y va fi: e y 2 = ås 2 j ·N j / N= 40,7/20= 2,035.

    Apoi: r 2 \u003d 21,45 / (21,45 + 2,035) \u003d 429,1 / (429,1 + 40,7) \u003d 0,913.

    Concluzie: 91,3% din variația producției muncitorilor se datorează influenței factorului de descărcare.

    · Relația de corelație empirică - r.

    Acest indicator este rădăcina coeficientului empiric de determinare. Ea arată strânsoarea conexiunii (nu doar liniară!) dintre gruparea și caracteristicile productive. Intervalul valorilor permise ale raportului de corelație empirică este de la 0 la +1.

    Cea mai apropiată conexiune posibilă este o conexiune funcțională, când fiecare valoare a rezultatului Y este determinată în mod unic de valoarea factorului X (adică rezultatul grupării). În acest caz, varianța mijloacelor grupului (d y 2) este egală cu varianța totală (s y 2), adică. nu va exista variație intragrup. În acest caz, dispersia reziduală (e y 2) este egală cu 0, iar coeficientul empiric de determinare este egal cu 1.

    Dacă nu există nicio legătură între semne, atunci toate mediile grupului sunt egale între ele, nu va exista nicio variație intergrup (d y 2 = 0), iar coeficientul empiric de determinare este 0.

    Să calculăm raportul de corelație empirică pentru exemplul nostru: r= 0,9555. Concluzie: semnele „producției unui muncitor” și „descărcării” sunt destul de strâns legate.

    Indicatorii r și r 2 sunt determinați nu numai de prezența unei legături între caracteristicile X și Y, ci și de faptul grupării datelor primare. Pe măsură ce numărul de grupuri m crește, varianța intergrupurilor d 2 crește și se apropie de varianța totală. Dacă numărul de grupuri este mai mic decât numărul de unități de populație N, atunci valorile lui r și r 2 nu vor fi niciodată egale cu 1, chiar și cu o relație funcțională strictă.

    Rețineți că valoarea indicatorului de apropiere a conexiunii nu este în sine dovada prezenței unei relații cauzale între trăsăturile studiate, ci este o evaluare a gradului de consistență reciprocă a modificărilor caracteristicilor. Stabilirea unei relaţii cauză-efect trebuie neapărat precedată de o analiză a naturii calitative a fenomenelor.

    Relația de corelație empirică

    Apropierea sau puterea unei relații dintre două caracteristici poate fi măsurată printr-un indicator numit raportul de corelație empirică. Acest indicator se numește empiric, deoarece poate fi calculat pe baza grupării obișnuite după factor și atribut rezultat, adică pe baza unui tabel de corelare. Raportul de corelație empirică se obține din regula de adunare a variațiilor, conform căreia , unde este varianța totală; - dispersie intergrup; - dispersia intragrup (media a privatului). Varianta intergrup este o măsură a fluctuației datorată unui atribut de factor. Media variațiilor parțiale este o măsură a fluctuației datorată tuturor celorlalte caracteristici (cu excepția factoriale). Apoi raportul exprimă ponderea fluctuației care rezultă din semnul factorului în fluctuația totală. Rădăcina pătrată a acestui raport se numește raportul de corelație empirică: .

    Aceasta implică regula conform căreia, cu cât varianța dintre grupuri este mai mare, cu atât trăsătura factorului afectează mai puternic variația trăsăturii rezultate. Rapoartele componente ale variațiilor sunt calculate din datele din tabelul de corelare folosind următoarele formule:

    ; ,

    unde sunt mediile private; - media generală; - totaluri pe baza de ; - totaluri pe baza de ; - numărul de observații. Aceeași relație se păstrează și pentru valorile condiționate primite prin transformare numerică.

    Raportul de varianță în sine (expresia radicală) se numește coeficient de determinare (este egal și cu pătratul raportului de corelație empiric). Raportul de corelație empirică variază într-un interval larg (de la 0 la 1). Dacă este egal cu zero, atunci semnul factorului nu afectează semnul corelației. Dacă =1, atunci semnul rezultat depinde complet de factorul unu. Dacă raportul de corelație empirică este o fracție apropiată de unu, atunci se vorbește despre o relație strânsă între caracteristicile factoriale și efective. Dacă această fracție este mică (aproape de zero), atunci se vorbește despre o legătură slabă între ele.

    
    Top