Coeficientul empiric de determinare arată. Pentru exemplul nostru, corelația empirică

Ce se înțelege prin varianță în cadrul unui grup pentru o populație? Care este formula de calcul a acestuia? Dă un exemplu. Ce se înțelege prin varianța populației intergrup? Care este formula de calcul a acestuia? Dă un exemplu.

Varianta intragrup () indică o variație aleatorie care nu depinde de trăsătura care stă la baza grupării.

, Unde

Media grupului

Variația medie intra-grup se calculează după cum urmează: mai întâi se calculează variațiile pentru grupuri individuale (), apoi se calculează variația medie intra-grup:

Caracterizează variația sistematică, adică diferențe de amploare a trăsăturii studiate, care stă la baza grupării. Această dispersie este calculată prin formula

, Unde

Valoarea medie pentru un grup separat

n i- numărul de unități din grup

- media aritmetică generală a întregii populaţii studiate.

Toate cele trei tipuri de varianță sunt interconectate: varianța totală este egală cu suma variației medii intragrup și a varianței intergrup:

Acest raport reflectă legea, care se numește regula de adunare a varianței.

20.

Ce se înțelege prin variația totală a populației? Care este formula de calcul a acestuia? Modul în care grupurile sunt grupate afectează varianța totală? Dă un exemplu.

Varianta totală () caracterizează variația trăsăturii întregii populații sub influența tuturor acelor factori care au determinat această variație. Această valoare este determinată de formulă

, Unde

media aritmetică generală a întregii populaţii studiate.

Pe de altă parte, varianța totală este egală cu suma variației medii intragrup și a varianței intergrup:

Acest raport reflectă legea, care se numește regula de adunare a varianței.. Datorită regulii de adunare a variațiilor, este posibil să se determine ce parte din variația totală se află sub influența factorului caracteristic care stă la baza grupării.

Cu cât este mai mare proporția varianței intergrupurilor în varianța totală, cu atât influența atributului (rangul) factorului asupra rezultatului (producția) este mai puternică.

Această proporție este caracterizată de un coeficient empiric de determinare:

Pentru o evaluare calitativă a proximității relației dintre semne se folosesc relațiile lui Chaddock.

0-0,2

0,2-0,3

0,3-0,5

0,5-0,7

0,7-0,9

0,9-0,99

Puterea conexiunii

absent

foarte slab

slab

moderat

evidentă

închide

foarte aproape

funcţional-

nazal

21.

Ce arată coeficientul de determinare? Care este formula de calcul a acestuia? În ce unități se măsoară acest indicator? Care sunt valorile posibile pentru acest indicator? Ce arată corelația empirică? Care este formula de calcul a acestuia? În ce unități se măsoară acest indicator? Care sunt valorile posibile pentru acest indicator?

Coeficientul empiric de determinare () caracterizează ponderea varianței intergrupurilor în varianța totală:

Ia valori de la -1 la 1 și arată cât de mult se datorează variației trăsăturii în agregat factorului de grupare.

Dispersia intergrupurilor;

varianta totala.

Determinat prin formula:

Acceptă valori de la -1 la 1

Exemplu

grup

Numar fabrici din grup, buc.

Producția brută medie la prețuri comparabile, milioane de ruble

Să determinăm acum valoarea medie, variația totală și variația intergrup a producției brute în prețuri comparabile ale fabricilor:

milioane de ruble;

Milion frecare.2;

Milion freacă.2.

Coeficientul de determinare va fi egal cu:

Ca urmare, raportul de corelație empirică va fi egal cu:

Valoarea calculată a raportului de corelație empirică indică o relație statistică destul de ridicată între producția brută în prețuri comparabile și costul mediu anual al activelor fixe de producție ale fabricilor.

22.

Cum se calculează o statistică de test în analiza univariată a varianței? Care este legea distribuției sale sub valabilitatea ipotezei principale? Care sunt parametrii acestei legi? Cum se ia o decizie într-o analiză unidirecțională a varianței bazată pe valoarea calculată a criteriului statistic?

Sarcina analizei varianței este de a studia influența unuia sau mai multor factori asupra trăsăturii luate în considerare.

Analiza unidirecțională a varianței este utilizată atunci când sunt disponibile trei sau mai multe eșantioane independente, obținute din aceeași populație generală prin modificarea unui factor independent pentru care, din anumite motive, nu există măsurători cantitative.

Ca criteriu, este necesar să se utilizeze criteriul Fisher:

., Unde

Q 1 este suma abaterilor pătrate ale mediilor eșantionului față de media totală

Q 2 este suma abaterilor pătrate ale valorilor observate de la media eșantionului

Dacă valoarea calculată a criteriului Fisher este mai mică decât valoarea tabelară, nu există niciun motiv să credem că factorul independent afectează răspândirea valorilor medii ( acestea. ipoteza nu a fost confirmată). În caz contrar, factorul independent are un efect semnificativ asupra răspândirii valorilor medii ( ipoteza este corecta).

23-25.

1. La intervale egale, utilizați media aritmetică simplă:

unde y sunt nivelurile absolute ale seriei;
n- numărul de niveluri din serie.
2. Pentru intervale inegale, utilizați media aritmetică ponderată:

unde u 1 ,...,уn - niveluri ale seriei de dinamică;
t1,... tn - ponderi, durata intervalelor de timp.

Nivelul mediu al seriei de momente dinamica se calculează cu formula:
1. Cu niveluri echidistante se calculează prin formula seriei momentelor cronologice medii:

unde u 1 ,...,уn - nivelurile perioadei pentru care se face calculul;
n- numărul de niveluri;
n-1 - durata perioadei de timp.
2. C inegal nivelurile se calculează folosind formula medie ponderată cronologică:

unde u 1 ,...,уn - niveluri ale serii temporale;
t- interval de timp dintre nivelele adiacente

în statistici

Creștere medie absolută este definită ca media câștigurilor absolute pe intervale de timp egale ale unei perioade. Se calculează prin formulele: 1. Pe baza datelor în lanț privind creșterea absolută pe un număr de ani, creșterea medie absolută este calculată ca medie aritmetică simplă:

Unde n este numărul de incremente absolute ale legii puterii în perioada studiată.
2. Se calculează creșterea medie absolutăprin creşterea absolută de bază în cazul intervalelor egale

Unde m - numărul de niveluri ale unei serii de dinamici în perioada de studiu, inclusiv cel de bază.

Rata medie de creștere este o caracteristică de generalizare liberă a intensității schimbării de nivelserie de dinamică și arată de câte ori se modifică nivelul seriei de dinamică în medie pe unitatea de timp.
Ca bază și criteriu pentru corectitudinea calculării ratei medii de creștere (scădere), este utilizat un indicator de generalizare, care este calculat ca produsul ratelor de creștere în lanț egal cu rata de creștere pentru întreaga perioadă luată în considerare. Dacă valoarea atributului este formată ca produs opțiuni individuale, atunci se folosește media geometrică.
Întrucât rata medie de creștere este coeficientul mediu de creștere, exprimat în procente, atunci pentru seria echivalentă de dinamică, calculele folosind media geometrică se reduc la calcularea coeficienților medii de creștere din cei în lanț folosind „metoda lanțului”:

Unde n este numărul de factori de creștere în lanț;
kts- factori de creștere în lanț;
Kb - rata de creștere de bază pentru întreaga perioadă.
Determinarea factorului mediu de creșterepoate fi simplificată dacă nivelurile seriei temporale sunt clare. Deoarece produsul factorilor de creștere a lanțului este egal cu cel de bază, factorul de creștere a bazei este substituit în expresia radicalului.
Formula pentru determinarea factorului mediu de creșterepentru serii echidistante de dinamică conform „metodei de bază” va fi după cum urmează:

36.

Care sunt indicatorii absoluti ai schimbărilor de nivel al seriei cunoscute de tine?

Toți acești indicatori pot fi determinați în mod de bază, atunci când nivelul perioadă dată comparativ cu prima perioadă (de bază), sau într-un mod în lanț - când se compară două niveluri de perioade învecinate.

Scrieți formule de calcul.

Schimbarea absolută de bază este diferența dintre nivelul specific și primul nivel al seriei, determinată de formulă

Arată cât de mult (în unități de indicatori ai seriei) nivelul unei (i-a) perioade este mai mult sau mai mic decât primul nivel (de bază) și, prin urmare, poate avea semnul „+” (cu o creștere în niveluri) sau „–” (cu o scădere a nivelurilor).

Schimbarea absolută a lanțului este diferența dintre nivelurile specifice și anterioare ale seriei, este determinată de formulă

Arată cât de mult (în unități de indicatori ai seriei) nivelul unei (i-a) perioade este mai mult sau mai mic decât nivelul anterior și poate avea semnul „+” sau „-”.

Explicați modul în care metoda de calcul depinde de alegerea bazei de comparație.

Ce indicatori relativi de schimbare a nivelului seriei vă sunt cunoscuți? Scrieți formule de calcul.

Modificarea relativă de bază (rata de creștere de bază sau indicele de dinamică de bază) este raportul dintre un nivel specific și primul nivel al seriei, determinat de formula

Schimbarea relativă a lanțului (rata de creștere a lanțului sau indicele dinamicii lanțului) este raportul dintre un nivel specific și un nivel anterior al seriei, determinat de formula

Explicați modul în care metoda de calcul depinde de alegerea bazei de comparație.

Modificarea relativă arată de câte ori este mai mare nivelul unei perioade date decât nivelul oricărei perioade anterioare (pentru i > 1) sau ce parte din acesta este (pentru i<1). Относительное изменение может выражаться в виде коэффициентов, то есть простого кратного отношения(если база сравнения принимается за единицу), и в процентах (если база сравнения принимается за 100 единиц) путем домножения относительного изменения на 100%.

37.

Care sunt indicatorii medii ai schimbării nivelului seriei cunoscute de tine? Scrieți formulele de calcul a creșterii medii absolute, a ratei de creștere și a ratei de creștere a nivelurilor seriei.

Creșterea medie absolută este definită ca media creșterii absolute pentru perioade egale de timp într-o perioadă. Se calculează prin formulele: 1. Pe baza datelor în lanț privind creșterea absolută pe un număr de ani, creșterea medie absolută este calculată ca medie aritmetică simplă:

Unde n este numărul de incremente absolute ale legii puterii în perioada studiată.

2. Creșterea medie absolută se calculează prin creșterea absolută de bază în cazul intervalelor egale

Unde m - numărul de niveluri ale unei serii de dinamici în perioada de studiu, inclusiv cel de bază.

Rata medie de creștere este o caracteristică de generalizare liberă a intensității modificărilor nivelurilor unei serii de dinamică și arată de câte ori se modifică în medie nivelul unei serii de dinamici pe unitatea de timp.

Ca bază și criteriu pentru corectitudinea calculării ratei medii de creștere (scădere), este utilizat un indicator de generalizare, care este calculat ca produsul ratelor de creștere în lanț egal cu rata de creștere pentru întreaga perioadă luată în considerare. Dacă valoarea caracteristică este formată ca un produs al opțiunilor individuale, atunci se utilizează media geometrică.

Întrucât rata medie de creștere este coeficientul mediu de creștere, exprimat în procente, atunci pentru seria echivalentă de dinamică, calculele folosind media geometrică se reduc la calcularea coeficienților medii de creștere din cei în lanț folosind „metoda lanțului”:

Unde n este numărul de factori de creștere în lanț;

Кц - coeficienții de creștere în lanț;

Kb - rata de creștere de bază pentru întreaga perioadă.

Rata de schimbare (rata de creștere) a nivelurilor este un indicator relativ care arată cât de procente este un anumit nivel mai mare (sau mai mic) decât altul, luat ca bază de comparație. Se calculează scăzând 100% din modificarea relativă, adică prin formula:

sau ca procent din modificarea absolută a nivelului față de care se calculează modificarea absolută (linia de bază), adică conform formulei:

.

Care sunt dezavantajele acestor indicatori? În ce cazuri este indicat să le folosim? Cum pot fi remediate aceste neajunsuri? Scrieți formule de calcul a mediilor care să asigure păstrarea valorii totale a seriei.

38.

Cum se determină tipul tendinței principale prin valorile indicatorilor de modificări ale nivelurilor seriei? Dă exemple.

Identificarea tendinței generale a seriei de timp se poate face prin netezirea seriei de timp folosind metoda mediei mobile. Esența acestei tehnici este că nivelurile calculate (teoretice) sunt determinate de la nivelurile inițiale ale seriei (date empirice).

Condiția principală pentru aplicarea acestei metode este calcularea legăturilor medii mobile (în mișcare) de la un astfel de număr de niveluri ale seriei care să corespundă duratei dinamicii ciclului observată în serie.

Relația de corelație empirică

Apropierea sau puterea unei relații dintre două caracteristici poate fi măsurată printr-un indicator numit raportul de corelație empirică. Acest indicator se numește empiric, deoarece poate fi calculat pe baza grupării obișnuite după factor și atribut rezultat, adică pe baza unui tabel de corelare. Corelația empirică se obține din regula de adunare a varianței, conform căreia , unde
- varianta totala;
- dispersie intergrup;
- dispersia intragrup (media a privatului). Varianta intergrup este o măsură a fluctuației datorată unui atribut de factor. Media variațiilor parțiale este o măsură a fluctuației datorată tuturor celorlalte caracteristici (cu excepția factoriale). Apoi raportul exprimă ponderea fluctuației care rezultă din semnul factorului în fluctuația totală. Rădăcina pătrată a acestui raport se numește raportul de corelație empirică:
.

Aceasta implică regula conform căreia, cu cât varianța dintre grupuri este mai mare, cu atât trăsătura factorului afectează mai puternic variația trăsăturii rezultate. Rapoartele componente ale variațiilor sunt calculate din datele din tabelul de corelare folosind următoarele formule:

;
,

unde sunt mediile private; - media generală; - totaluri pe caracteristici ; - totaluri pe caracteristici ;
- numărul de observații. Aceeași relație este valabilă pentru valorile condiționate
, obtinut prin transformare numerica .

Raportul de varianță în sine (expresia radicală) se numește coeficient de determinare (este egal și cu pătratul raportului de corelație empiric). Raportul de corelație empirică variază într-un interval larg (de la 0 la 1). Dacă este egal cu zero, atunci semnul factorului nu afectează semnul corelației. Dacă =1, ceea ce înseamnă că semnul rezultat depinde complet de factorul unu. Dacă raportul de corelație empirică este o fracție apropiată de unu, atunci se vorbește despre o relație strânsă între caracteristicile factoriale și efective. Dacă această fracție este mică (aproape de zero), atunci se vorbește despre o legătură slabă între ele.

Coeficient de corelație liniară și indice de corelație

O măsură a strângerii relației dintre două caracteristici legate statistic este coeficientul de corelație liniară sau pur și simplu coeficientul de corelație. Are aceeași semnificație ca raportul de corelație empirică, dar poate lua atât valori pozitive, cât și negative. Coeficientul de corelație are o expresie matematică strictă pentru o relație liniară. O valoare pozitivă va indica o relație directă între caracteristici, o valoare negativă va indica contrariul.

Coeficientul de corelație de pereche în cazul unei forme liniare de comunicare se calculează prin formula

,

și valoarea eșantionului acesteia - conform formulei

Cu un număr mic de observații, este convenabil să se calculeze coeficientul de corelație al eșantionului folosind următoarea formulă:

Valoarea coeficientului de corelație se modifică în interval
.

La
există o relaţie funcţională între cele două variabile, când
- conexiune funcțională directă. Dacă
, atunci valorile lui X și Y din eșantion sunt necorelate; dacă sistemul de variabile aleatoare
are o distribuție normală bidimensională, atunci mărimile X și Y vor fi și ele independente.

Dacă coeficientul de corelaţie este în interval
, atunci există o corelație inversă între X și Y. Acest lucru este confirmat și de analiza vizuală a informațiilor inițiale. În acest caz, abaterea lui Y de la valoarea medie este luată cu semnul opus.

Dacă fiecare pereche de valori X și Y este cel mai adesea simultan deasupra (dedesubt) valorilor medii corespunzătoare, atunci există o corelație directă între valori, iar coeficientul de corelație este în interval
.

Dacă, pe de altă parte, abaterea valorii lui X de la valoarea medie provoacă la fel de des abateri ale valorii lui Y în jos de la valoarea medie, iar abaterile sunt tot timpul diferite, atunci putem presupune că valoarea lui coeficientul de corelare tinde spre zero.

De remarcat faptul că valoarea coeficientului de corelație nu depinde de unitățile de măsură și de alegerea punctului de referință. Aceasta înseamnă că dacă variabilele X și Y se reduc (măresc) de K ori sau cu același număr C, atunci coeficientul de corelație nu se va modifica.

Pentru a simplifica calculul măsurii de etanșeitate a corelației, este adesea utilizat indicele de corelație, care este determinat de următoarele formule:

,
,

Unde
- variaţia reziduală, care caracterizează variaţia atributului rezultat sub influenţa altor factori necontabilizaţi.

Corelație multiplă

Corelație multiplă - dependența rezultatului și a două sau mai multe caracteristici factori incluse în studiu. Un indicator al strângerii relației dintre rezultantă și două sau mai multe caracteristici factori se numește coeficient de corelație multiplă sau cumulativă și este notat cu R. Coeficientul cumulat implică prezența unei relații liniare între fiecare pereche de caracteristici, care poate fi exprimată folosind coeficienți de corelație perechi. Dacă există o măsură cumulativă a strângerii relației dintre caracteristica efectivă () și caracteristicile a doi factori ( și ), atunci calculul coeficientului de corelație cumulat se efectuează după formula:

,

Unde indicele indică între ce caracteristici este studiată relația de pereche.

În formulele pentru calcularea coeficienților de corelație perechi, se modifică doar simbolurile care denotă unul sau altul factor. Deci, dacă coeficientul de corelație dintre și este calculat prin formula , atunci coeficientul de corelație dintre și se calculează: ; intre si - deci:

Partea de decontare

Sarcina 31

    Următoarele date sunt disponibile pentru zece întreprinderi pentru perioada de raportare:

masa 2

Întreprinderi

Costul mediu anual al activelor fixe de producție, mln. rub.

Ieșire, milioane de ruble

Pentru a studia relația dintre mărimea costului mediu anual al mijloacelor fixe și producția, calculați ecuația relației liniare.

2. Pe baza datelor date: a) se calculează: coeficientul de corelație liniară; b) se verifică corectitudinea alegerii formei de comunicare prin calcularea indicelui de corelare.

    Folosind procesorul de foi de calcul Microsoft Excel, vom construi o foaie de lucru:

Tabelul 3

Calculul sumelor pentru calcularea parametrilor ecuației unei drepte

239,74 *1236 = 539,1 distribuții de probabilitate... economic analiză, rezolvat pe baza de regresie economic modele. Să considerăm y - un semn eficient și x - semne factor. Metode în mod corelativ-regresie analiză ...

  • Programul disciplinei „Metode computerizate pentru analiza datelor sociologice” (Introducere în statistica matematică și analiza datelor) Pentru direcția 040200. 68 „Sociologie”

    program disciplinar

    Aplicații. 11 3 2 6 Dispersiv analiză 9 2 2 5 Dublu și multiplu regresiv analiză 9 2 2 5 Proprietăţile coeficienţilor... de către utilizatorul SPSS 11.0 Siskov V.I. corelație analiză V economic cercetare. M. 1975. Eddous M., Stansfield...

  • Analiza G. L. Savitskaya a activității economice a întreprinderii

    Document

    Excelență, cele mai recente tehnici economic cercetare. Analiză ar trebui să fie complexă. Complexitatea cercetării... la nivelul producției orare medii în mod corelativ-regresiv analiză. într-un multifactorial corelație model de producție orară medie...

  • 3. Raportul de corelație empirică se calculează prin formula

    Varianta intergrup, care caracterizează valoarea pătratului abaterii mediilor grupului de la media generală a atributului efectiv.

    Varianta totală, care arată valoarea medie a abaterilor pătrate ale valorii caracteristicii rezultate de la nivelul lor mediu.

    Să construim un tabel pentru a calcula varianța totală (vezi Tabelul 8)

    Tabelul 8

    Tabel de date pentru determinarea varianței totale

    N, p / p Cheltuieli cu alimente
    1 21 441
    2 16 256
    3 26,1 681,21
    4 28 784
    5 26 676
    6 22,5 506,25
    7 27,6 761,76
    8 35 1225
    9 23,9 571,21
    10 22,5 506,25
    11 15 225
    12 25,2 635,04
    13 29 841
    14 21,4 457,96
    15 24,9 620,01
    16 24,8 615,04
    17 16 256
    18 23,6 556,96
    19 27,2 739,84
    20 35 1225
    21 17 289
    22 23,8 566,44
    23 22,6 510,76
    24 25 625
    25 27 729
    26 30 900
    27 35 1225
    28 25,4 645,16
    29 27,2 739,84
    30 26,3 691,69
    Total 750 19502,42

    Varianta totală a atributului rezultat este calculată prin formula:

    =

    Dispersia intergrup este calculată prin formula:

    Să construim un tabel auxiliar pentru calcularea datelor (vezi Tabelul 9)


    Tabelul 9

    Tabel de date pentru calcularea varianței între grupuri

    Număr de grup Număr de gospodării, buc Cheltuieli cu alimente, mii de ruble
    Total Media pe gospodărie
    f
    1 28-40 3 48 16 -9 81 243
    2 40-52 5 105 21 -4 16 80
    3 52-64 12 300 25 0 0 0
    4 64-76 6 165 27,5 2,5 6,25 37,5
    5 76-88 4 132 33 8 64 256
    Total 30 750 616,5

    Concluzie: relația dintre factori este foarte strânsă, deoarece ia valori de la 0,9 la 0,99.

    Coeficientul de determinare este pătratul corelației empirice. Prin urmare,

    (81,9%)

    Concluzie: producția la aceste întreprinderi depinde de 81,9% din randamentul activelor și 18,1% de alți factori.

    Sarcina 3

    Pe baza rezultatelor sarcinii 1, cu o probabilitate de 0,9543, determinați:

    1. Eroarea de eșantionare a venitului mediu brut pe membru al gospodăriei pe an și limitele în care se va afla în populația generală.

    2. Eroarea de eșantionare a ponderii gospodăriilor cu un venit brut mai mic de 52 de mii de ruble. și mai mult de un milion de ruble. și limitele în care se va situa cota generală.

    1. Eroarea de eșantionare pentru medie este determinată de formula:

    , Unde

    varianța eșantionului;

    n - dimensiunea eșantionului;

    t este coeficientul de încredere, care este determinat din tabelul de valori al funcției integrale Laplace pentru o probabilitate dată. În acest caz, la P=0,954, valoarea t=2.

    N-numar de unitati in populatia generala, N=6000 buc.

    Să calculăm varianța. Datele vor fi prezentate sub forma unui tabel (vezi Tabelul 11).

    Tabelul 11

    Date pentru calcularea dispersiei nivelului de rentabilitate a activelor

    Număr de grup Gruparea gospodăriilor după venitul brut Număr de gospodării, buc
    f
    1 28-40 3 34 -25,1 630,01 1890,03
    2 40-52 5 46 -13,1 171,61 858,05
    3 52-64 12 58 -1,1 1,21 14,52
    4 64-76 6 70 10,9 118,81 712,86
    5 76-88 4 82 22,9 524,41 2097,64
    Total 30 5573,1

    Relația de corelație empirică

    Mai mulți indicatori sunt utilizați pentru a măsura gradul de asociere. La o conexiune în pereche, etanșeitatea conexiunii este determinată, în primul rând, de raportul de corelație, care este notat cu η. Pătratul raportului de corelație este raportul dintre varianța intergrup a trăsăturii rezultate, care exprimă efectul diferențelor în trăsătura factorului de grupare asupra valorii medii a trăsăturii rezultate, și varianța totală a trăsăturii rezultate, care exprimă impactul tuturor cauzelor și condițiilor asupra acesteia. Pătratul raportului de corelație se numește coeficient de determinare.

    ny fenomene și semnele lor: ________________ sau rigid deterministe

    unde k este numărul de grupuri

    N este numărul de observații

    y i - valorile inițiale ale caracteristicii efective

    y j - valori medii ale atributului efectiv pentru acest grup

    y este valoarea medie a caracteristicii

    f j este mărimea grupului

    Formula de mai sus este utilizată la calcularea indicatorului de apropiere a conexiunii pentru o grupare analitică. La calcularea raportului de corelare în funcție de nivelul de comunicare, se utilizează următoarea formulă:

    Suma pătratelor din numărător este varianța caracteristicii rezultate y explicată prin relația cu factorul x (factori). Se calculează din datele individuale obținute pentru fiecare unitate a populației pe baza ecuației de regresie.

    Dacă ecuația este aleasă incorect sau se face o eroare la calcularea parametrilor ei, atunci suma pătratelor din numărător poate fi mai mare decât în ​​numitor, iar raportul își va pierde sensul pe care ar trebui să-l aibă. Pentru a evita un rezultat eronat, este mai bine să calculați raportul de corelare folosind următoarea formulă:

    Această formulă se bazează pe regula binecunoscută pentru extinderea sumelor abaterilor pătrate la gruparea populației:

    D uzual=D intergr+D intragr

    Conform acestei reguli, în loc de variația intergrup (factorială), puteți folosi diferența:

    D uzual-D intragr

    ce dă:

    Când calculăm η nu prin grupare, ci prin ecuația de corelație (ecuația de regresie), folosim formula. În acest caz, regula de descompunere pentru suma abaterilor pătrate ale caracteristicii rezultate se scrie ca

    D total \u003d D core + D rest

    Cel mai important punct care ar trebui învățat acum de oricine dorește să aplice corect metoda analizei corelației-regresiune este interpretarea formulelor (1.2) și (1.3). Această prevedere prevede:

    Ecuația de corelație măsoară relația dintre variația caracteristicii rezultate și variația caracteristicii factorilor. Măsurile de etanșeitate a conexiunii măsoară proporția de variație a caracteristicii rezultate, care este asociată cu variația caracteristicii factorului (trăsături).

    | următoarea prelegere =>

    Raportul de corelație empirică măsoară cât de mult din fluctuația totală a atributului rezultat este cauzată de factorul studiat. Media de corelație empirică variază de la 0 la 1.

    O corelație empirică se găsește de obicei în următoarele tipuri sarcini:

    • 1) când este necesar să se producă o grupare analitică pentru două serii de date X și Y
    • 2) gruparea a fost deja făcută, este necesar să se verifice regula de adăugare a variațiilor
    • 3) pentru două serii de date X și Y, este necesar să se găsească ecuația de regresie și să se evalueze semnificația acesteia

    Formula variației caracteristică alternativă

    Pe baza celor de mai sus, putem deriva o formulă pentru găsirea varianței unei caracteristici alternative dacă cunoaștem procentul unei astfel de caracteristici în eșantionul total.

    Inițial, presupunem că caracteristica ia doar două valori.

    Astfel, suma proporției elementelor în care elementele seriei statistice au valoarea de atribut „nu” și elementele seriei care au valoarea de atribut „da” este egală cu unu.

    Pentru a găsi valoarea medie a seriei, înlocuim valorile caracteristicilor alternative (0 și 1) în formula de găsire a valorii medii ponderate a seriei statistice. De unde, destul de evident, va fi o unitate la numitor, iar valoarea procentuală a elementelor „1” la numărător. Adică exact valoarea procentuală a elementelor cu atributul „1”. (Formula 2)

    Formula varianței este media ponderată a abaterilor pătrate ale fiecărei valori din seria de date. (Formula 3)

    Deoarece în seria noastră datele au doar două tipuri de valori - „0” și „1”, atunci formula pentru găsirea varianței pentru o serie cu o caracteristică alternativă este redusă la Formula 4. Explicație. întrucât tocmai am dedus că media eșantionului este egală cu p (Formula 2), atunci valoarea pătratului diferenței dintre valoarea (0/1) și valoarea medie, conform formulei 1, va fi (1- p)2 în primul caz, iar în al doilea caz (1-q)2 , aplicând acum corolarul din prima formulă: q = 1 - p, p = 1- q . Obținem p2 și q2. În consecință, proporția valorilor „0” și „1” este egală cu p și q, ca urmare, în numărător și rezultă q2 p și p2 q. Suma cotelor caracteristicilor valorilor „0” și „1” conform formulei 1 este egală cu 1. Prin urmare, Formula 4 ia valoarea pq, care va fi egală cu valoarea varianței caracteristica alternativă. Pe baza valorii găsite a varianței caracteristicii alternative, vom găsi abaterea standard (Formula 5). Punând valoarea din Formula 1 în Formula 5, obținem formula abaterii standard pentru varianța unei serii cu o caracteristică alternativă.

    
    Top