Il coefficiente empirico di determinazione mostra. Per il nostro esempio, la correlazione empirica

Cosa si intende per varianza all'interno del gruppo per una popolazione? Qual è la formula per il suo calcolo? Dare un esempio. Cosa si intende per varianza della popolazione intergruppo? Qual è la formula per il suo calcolo? Dare un esempio.

Varianza infragruppo () indica una variazione casuale che non dipende dal tratto sottostante il raggruppamento.

, Dove

Media di gruppo

La varianza media intragruppo viene calcolata come segue: prima vengono calcolate le varianze per i singoli gruppi (), quindi viene calcolata la varianza media intragruppo:

Caratterizza la variazione sistematica, cioè differenze nella grandezza del tratto in esame, che è la base del raggruppamento. Questa dispersione è calcolata dalla formula

, Dove

Valore medio per un gruppo separato

io- numero di unità nel gruppo

- la media aritmetica generale dell'intera popolazione studiata.

Tutti e tre i tipi di varianza sono interconnessi: la varianza totale è uguale alla somma della varianza infragruppo media e della varianza intergruppo:

Questo rapporto riflette la legge, che si chiama regola dell'addizione della varianza.

20.

Cosa si intende per varianza totale della popolazione? Qual è la formula per il suo calcolo? Il modo in cui i gruppi sono raggruppati influisce sulla varianza totale? Dare un esempio.

La varianza totale () caratterizza la variazione del tratto dell'intera popolazione sotto l'influenza di tutti quei fattori che hanno causato questa variazione. Questo valore è determinato dalla formula

, Dove

la media aritmetica generale dell'intera popolazione studiata.

D'altra parte, la varianza totale è uguale alla somma della varianza infragruppo media e della varianza intergruppo:

Questo rapporto riflette la legge, che si chiama regola dell'addizione della varianza.. Grazie alla regola dell'addizione delle varianze, è possibile determinare quale parte della varianza totale è sotto l'influenza del fattore caratteristico sottostante il raggruppamento.

Maggiore è la proporzione della varianza intergruppo nella varianza totale, maggiore è l'influenza dell'attributo fattoriale (grado) sulla risultante (produzione).

Questa proporzione è caratterizzata da un coefficiente di determinazione empirico:

Per una valutazione qualitativa della vicinanza della relazione tra i segni, vengono utilizzate le relazioni di Chaddock.

0-0,2

0,2-0,3

0,3-0,5

0,5-0,7

0,7-0,9

0,9-0,99

Forza della connessione

assente

molto debole

Debole

moderare

cospicuo

vicino

molto vicino

funzionale-

nasale

21.

Cosa indica il coefficiente di determinazione? Qual è la formula per il suo calcolo? In quali unità viene misurato questo indicatore? Quali sono i possibili valori per questo indicatore? Cosa mostra la correlazione empirica? Qual è la formula per il suo calcolo? In quali unità viene misurato questo indicatore? Quali sono i possibili valori per questo indicatore?

Coefficiente empirico di determinazione () caratterizza la quota di varianza intergruppo nella varianza totale:

Prende valori da -1 a 1 e mostra quanto la variazione del tratto nell'aggregato è dovuta al fattore di raggruppamento.

dispersione intergruppo;

varianza totale.

Determinato dalla formula:

Accetta valori da -1 a 1

Esempio

Gruppo

Numero di piante nel gruppo, pz.

Produzione lorda media a prezzi comparabili, milioni di rubli

Determiniamo ora il valore medio, la varianza totale e la varianza intergruppo della produzione lorda a prezzi comparabili delle fabbriche:

milioni di rubli;

Milioni strofinare.2;

Milioni strofinare.2.

Il coefficiente di determinazione sarà pari a:

Di conseguenza, il rapporto di correlazione empirica sarà pari a:

Il valore calcolato del rapporto di correlazione empirica indica un rapporto statistico piuttosto elevato tra la produzione lorda a prezzi comparabili e il costo medio annuo delle immobilizzazioni produttive delle fabbriche.

22.

Come viene calcolata una statistica test nell'analisi univariata della varianza? Qual è la legge della sua distribuzione sotto la validità dell'ipotesi principale? Quali sono i parametri di questa legge? Come viene presa una decisione in un'analisi della varianza unidirezionale basata sul valore calcolato della statistica del criterio?

Il compito dell'analisi della varianza è studiare l'influenza di uno o più fattori sul tratto in esame.

L'analisi della varianza unidirezionale viene utilizzata quando sono disponibili tre o più campioni indipendenti, ottenuti dalla stessa popolazione generale modificando alcuni fattori indipendenti per i quali, per qualche motivo, non esistono misurazioni quantitative.

Come criterio è necessario utilizzare il criterio di Fisher:

., Dove

Q 1 è la somma dei quadrati delle deviazioni delle medie campionarie dalla media totale

Q 2 è la somma dei quadrati delle deviazioni dei valori osservati dalla media campionaria

Se il valore calcolato del criterio di Fisher è inferiore al valore tabulare, non vi è motivo di ritenere che il fattore indipendente influisca sulla diffusione dei valori medi ( quelli. ipotesi non è stata confermata). In caso contrario, il fattore indipendente ha un effetto significativo sulla diffusione dei valori medi ( l'ipotesi è corretta).

23-25.

1. A intervalli uguali, usa la semplice media aritmetica:

dove y sono i livelli assoluti della serie;
N- il numero di livelli nella serie.
2. Per intervalli disuguali, utilizzare la media aritmetica ponderata:

dove sei 1 ,...,уn - livelli della serie di dinamiche;
t1,... tn - pesi, durata degli intervalli di tempo.

Livello medio delle serie di momenti la dinamica è calcolata dalla formula:
1. Con livelli equidistanti è calcolato dalla formula della serie di momenti cronologici medi:

dove sei 1 ,...,уn - livelli del periodo per il quale viene effettuato il calcolo;
N- numero di livelli;
n-1 - durata del periodo di tempo.
2.C diseguale i livelli sono calcolati utilizzando la formula della media ponderata cronologica:

dove sei 1 ,...,уn - livelli di serie temporali;
T- intervallo di tempo tra livelli adiacenti

nelle statistiche

Crescita media assoluta è definito come la media dei guadagni assoluti su intervalli di tempo uguali di un periodo. Viene calcolato dalle formule: 1. Sulla base dei dati a catena sulla crescita assoluta per un certo numero di anni, la crescita assoluta media viene calcolata come media aritmetica semplice:

Dove n è il numero di incrementi assoluti della legge di potenza nel periodo in esame.
2. Viene calcolato l'incremento assoluto medioattraverso la crescita assoluta di base nel caso di intervalli uguali

Dove m - il numero di livelli di una serie di dinamiche nel periodo di studio, compreso quello di base.

Tasso di crescita medio è una caratteristica di generalizzazione libera dell'intensità del cambiamento di livelloserie dinamica e mostra quante volte il livello della serie di dinamiche cambia in media per unità di tempo.
Come base e criterio per la correttezza del calcolo del tasso medio di crescita (diminuzione), viene utilizzato un indicatore generalizzante, calcolato come prodotto di tassi di crescita a catena pari al tasso di crescita per l'intero periodo considerato. Se il valore dell'attributo è formato come un prodotto opzioni individuali, allora viene utilizzata la media geometrica.
Poiché il tasso di crescita medio è il coefficiente di crescita medio, espresso in percentuale, quindi per la serie equivalente di dinamiche, i calcoli che utilizzano la media geometrica si riducono al calcolo dei coefficienti di crescita medi da quelli a catena utilizzando il "metodo a catena":

Dove n è il numero di fattori di crescita della catena;
kts- fattori di crescita della catena;
Kb - tasso di crescita di base per l'intero periodo.
Determinazione del fattore di crescita mediopuò essere semplificato se i livelli delle serie temporali sono chiari. Poiché il prodotto dei fattori di crescita della catena è uguale a quello della base, il fattore di crescita della base viene sostituito nell'espressione radicale.
Formula per la determinazione del fattore di crescita medioper serie equidistanti di dinamiche secondo il "metodo base" sarà il seguente:

36.

Quali sono gli indicatori assoluti dei cambiamenti nel livello della serie che conosci?

Tutti questi indicatori possono essere determinati in modo basilare, quando il livello determinato periodo rispetto al primo periodo (di base), o in modo concatenato - quando vengono confrontati due livelli di periodi adiacenti.

Scrivere formule di calcolo.

La variazione assoluta di base è la differenza tra lo specifico e il primo livello della serie, determinata dalla formula

Mostra quanto (in unità di indicatori della serie) il livello di un (i-esimo) periodo è maggiore o minore del primo livello (di base) e, quindi, può avere un segno "+" (con un aumento in livelli) o “–” (con una diminuzione dei livelli).

Il cambiamento assoluto della catena è la differenza tra i livelli specifici e precedenti della serie, è determinato dalla formula

Mostra quanto (in unità di indicatori della serie) il livello di un (i-esimo) periodo è maggiore o minore del livello precedente e può avere un segno "+" o "-".

Spiegare come il metodo di calcolo dipende dalla scelta della base di confronto.

Quali indicatori relativi di cambiamento nel livello della serie ti sono noti? Scrivere formule di calcolo.

La variazione relativa di base (tasso di crescita di base o indice di dinamica di base) è il rapporto tra uno specifico e il primo livello della serie, determinato dalla formula

La variazione relativa della catena (tasso di crescita della catena o indice di dinamica della catena) è il rapporto tra un livello specifico e uno precedente della serie, determinato dalla formula

Spiegare come il metodo di calcolo dipende dalla scelta della base di confronto.

La variazione relativa mostra quante volte il livello di un dato periodo è maggiore del livello di qualsiasi periodo precedente (per i > 1) o quale parte di esso è (per i<1). Относительное изменение может выражаться в виде коэффициентов, то есть простого кратного отношения(если база сравнения принимается за единицу), и в процентах (если база сравнения принимается за 100 единиц) путем домножения относительного изменения на 100%.

37.

Quali sono gli indicatori medi del cambiamento del livello della serie che conosci? Scrivi le formule per calcolare la crescita media assoluta, il tasso di crescita e il tasso di crescita dei livelli della serie.

La crescita assoluta media è definita come la media della crescita assoluta per periodi di tempo uguali in un periodo. Viene calcolato dalle formule: 1. Sulla base dei dati a catena sulla crescita assoluta per un certo numero di anni, la crescita assoluta media viene calcolata come media aritmetica semplice:

Dove n è il numero di incrementi assoluti della legge di potenza nel periodo in esame.

2. L'incremento assoluto medio è calcolato attraverso l'incremento assoluto di base nel caso di intervalli uguali

Dove m - il numero di livelli di una serie di dinamiche nel periodo di studio, compreso quello di base.

Il tasso di crescita medio è una caratteristica di generalizzazione libera dell'intensità dei cambiamenti nei livelli di una serie di dinamiche e mostra quante volte il livello di una serie di dinamiche cambia in media per unità di tempo.

Come base e criterio per la correttezza del calcolo del tasso medio di crescita (diminuzione), viene utilizzato un indicatore generalizzante, calcolato come prodotto di tassi di crescita a catena pari al tasso di crescita per l'intero periodo considerato. Se il valore caratteristico è formato come prodotto di singole opzioni, viene utilizzata la media geometrica.

Poiché il tasso di crescita medio è il coefficiente di crescita medio, espresso in percentuale, quindi per la serie equivalente di dinamiche, i calcoli che utilizzano la media geometrica si riducono al calcolo dei coefficienti di crescita medi da quelli a catena utilizzando il "metodo a catena":

Dove n è il numero di fattori di crescita della catena;

Кц - coefficienti di crescita a catena;

Kb - tasso di crescita di base per l'intero periodo.

Il tasso di variazione (tasso di crescita) dei livelli è un indicatore relativo che mostra di quanta percentuale un dato livello è maggiore (o minore) di un altro, preso come base di confronto. Viene calcolato sottraendo il 100% dalla variazione relativa, ovvero con la formula:

o come percentuale della variazione assoluta rispetto al livello rispetto al quale viene calcolata la variazione assoluta (linea di base), ovvero secondo la formula:

.

Quali sono gli svantaggi di questi indicatori? In quali casi è opportuno utilizzarli? Come si possono rimediare a queste carenze? Scrivi formule per il calcolo delle medie che assicurino la conservazione del valore totale della serie.

38.

Come determinare il tipo di tendenza principale in base ai valori degli indicatori dei cambiamenti nei livelli della serie? Dare esempi.

L'identificazione dell'andamento generale delle serie storiche può essere effettuata appianando le serie storiche utilizzando il metodo della media mobile. L'essenza di questa tecnica è che i livelli calcolati (teorici) sono determinati dai livelli iniziali della serie (dati empirici).

La condizione principale per applicare questo metodo è calcolare i collegamenti medi mobili (mobili) da un tale numero di livelli della serie che corrisponde alla durata della dinamica del ciclo osservata nella serie.

Relazione di correlazione empirica

La vicinanza o la forza di una relazione tra due caratteristiche può essere misurata da un indicatore chiamato rapporto di correlazione empirica. Questo indicatore è detto empirico, in quanto può essere calcolato sulla base del consueto raggruppamento per fattore e attributo risultante, cioè sulla base di una tavola di correlazione. La correlazione empirica si ottiene dalla regola dell'addizione della varianza, secondo cui , dove
- varianza totale;
- dispersione intergruppi;
- dispersione infragruppo (media dei privati). La varianza intergruppo è una misura della fluttuazione dovuta a un tratto fattoriale. La media delle varianze parziali è una misura della fluttuazione dovuta a tutte le altre caratteristiche (tranne il fattoriale). Quindi il rapporto esprime la quota di fluttuazione derivante dal segno del fattore nella fluttuazione totale. La radice quadrata di questo rapporto è chiamata rapporto di correlazione empirica:
.

Ciò implica la regola secondo cui maggiore è la varianza intergruppo, più forte è il tratto fattoriale che influenza la variazione del tratto risultante. I rapporti dei componenti delle varianze sono calcolati dai dati della tavola di correlazione utilizzando le seguenti formule:

;
,

dove sono le medie private; - media generale; - totali per caratteristica ; - totali per caratteristica ;
- numero di osservazioni. La stessa relazione vale per i valori condizionali
, ottenuto per trasformazione numerica .

Il rapporto di varianza stesso (espressione radicale) è chiamato coefficiente di determinazione (è anche uguale al quadrato del rapporto di correlazione empirico). Il rapporto di correlazione empirica varia in un ampio intervallo (da 0 a 1). Se è uguale a zero, il segno del fattore non influisce sul segno di correlazione. Se =1, il che significa che il segno risultante dipende completamente dal fattore uno. Se il rapporto di correlazione empirico è una frazione vicina a uno, allora parlano di una stretta relazione tra le caratteristiche fattoriali ed effettive. Se questa frazione è piccola (prossima allo zero), allora si parla di una debole connessione tra di loro.

Coefficiente di correlazione lineare e indice di correlazione

Una misura della vicinanza della relazione tra due caratteristiche statisticamente correlate è il coefficiente di correlazione lineare o semplicemente il coefficiente di correlazione. Ha lo stesso significato del rapporto di correlazione empirica, ma può assumere sia valori positivi che negativi. Il coefficiente di correlazione ha un'espressione matematica rigorosa per una relazione lineare. Un valore positivo indicherà una relazione diretta tra le caratteristiche, un valore negativo indicherà il contrario.

Il coefficiente di correlazione della coppia nel caso di una forma di comunicazione lineare è calcolato dalla formula

,

e il suo valore campione - secondo la formula

Con un piccolo numero di osservazioni, è conveniente calcolare il coefficiente di correlazione del campione utilizzando la seguente formula:

Il valore del coefficiente di correlazione cambia nell'intervallo
.

A
esiste una relazione funzionale tra le due variabili, quando
- collegamento funzionale diretto. Se
, allora i valori di X e Y nel campione non sono correlati; se il sistema di variabili casuali
ha distribuzione normale bidimensionale, allora anche le grandezze X e Y saranno indipendenti.

Se il coefficiente di correlazione è nell'intervallo
, allora esiste una correlazione inversa tra X e Y. Ciò è confermato anche dall'analisi visiva delle informazioni iniziali. In questo caso lo scostamento di Y dal valore medio viene preso con il segno opposto.

Se ogni coppia di valori X e Y è più spesso simultaneamente sopra (sotto) i corrispondenti valori medi, allora c'è una correlazione diretta tra i valori e il coefficiente di correlazione è nell'intervallo
.

Se, d'altra parte, la deviazione del valore di X dal valore medio provoca ugualmente spesso deviazioni del valore di Y verso il basso rispetto al valore medio, e le deviazioni sono sempre diverse, allora possiamo assumere che il valore di il coefficiente di correlazione tende a zero.

Si noti che il valore del coefficiente di correlazione è indipendente dalle unità di misura e dalla scelta del punto di riferimento. Ciò significa che se le variabili X e Y vengono ridotte (aumentate) di K volte o dello stesso numero C, allora il coefficiente di correlazione non cambierà.

Per semplificare il calcolo della misura di tenuta della correlazione, viene spesso utilizzato l'indice di correlazione, che è determinato dalle seguenti formule:

,
,

Dove
- varianza residua, che caratterizza la variazione dell'attributo risultante sotto l'influenza di altri fattori non contabilizzati.

Correlazione multipla

Correlazione multipla: la dipendenza delle caratteristiche risultanti e di due o più fattori inclusi nello studio. Un indicatore della vicinanza della relazione tra la risultante e due o più caratteristiche fattoriali è chiamato coefficiente di correlazione multiplo o cumulativo ed è indicato con R. Il coefficiente cumulativo implica la presenza di una relazione lineare tra ciascuna coppia di caratteristiche, che può essere espresso utilizzando coefficienti di correlazione accoppiati. Se esiste una misura cumulativa della tenuta della relazione tra la caratteristica effettiva () e le caratteristiche a due fattori ( e ), quindi il calcolo del coefficiente di correlazione cumulativo viene eseguito secondo la formula:

,

Dove i pedici indicano tra quali caratteristiche si sta studiando la relazione di coppia.

Nelle formule per il calcolo dei coefficienti di correlazione accoppiati, cambiano solo i simboli che denotano l'uno o l'altro fattore. Quindi, se il coefficiente di correlazione tra e viene calcolato dalla formula , allora viene calcolato il coefficiente di correlazione tra e: ; tra e - così:

Parte di liquidazione

Compito 31

    I seguenti dati sono disponibili per dieci imprese per il periodo di riferimento:

Tavolo 2

Imprese

Costo medio annuo delle immobilizzazioni di produzione, mln.

Uscita, milioni di rubli

Per studiare la relazione tra la dimensione del costo medio annuo delle immobilizzazioni e la produzione, calcolare l'equazione della relazione lineare.

2. Sulla base dei dati forniti: a) calcolare: coefficiente di correlazione lineare; b) verificare la correttezza della scelta della forma di comunicazione mediante il calcolo dell'indice di correlazione.

    Utilizzando il processore di fogli di calcolo Microsoft Excel, creeremo un foglio di lavoro:

Tabella 3

Calcolo delle somme per il calcolo dei parametri dell'equazione di una retta

239,74 *1236 = 539,1 distribuzioni di probabilità... economico analisi, risolto sulla base di regressione economico Modelli. Consideriamo y - un segno effettivo e x - segni del fattore. Metodi correlativamente-regressione analisi ...

  • Il programma della disciplina "Metodi informatici per l'analisi dei dati sociologici" (Introduzione alla statistica matematica e all'analisi dei dati) Per indirizzo 040200. 68 "Sociologia"

    programma disciplinare

    Applicazioni. 11 3 2 6 Dispersivo analisi 9 2 2 5 Doppio e multiplo regressivo analisi 9 2 2 5 Proprietà dei coefficienti... dell'utente SPSS 11.0 Siskov V.I. correlazione analisi v economico ricerca. M. 1975. Eddous M., Stansfield...

  • G. L. Savitskaya analisi dell'attività economica dell'impresa

    Documento

    Eccellenza, ultime tecniche economico ricerca. Analisi dovrebbe essere complesso. La complessità della ricerca... sul piano della produzione oraria media correlativamente-regressivo analisi. in un multifattoriale correlazione modello di produzione oraria media...

  • 3. Il rapporto di correlazione empirica è calcolato dalla formula

    Varianza intergruppo, che caratterizza il valore del quadrato della deviazione delle medie di gruppo dalla media generale dell'attributo effettivo.

    La varianza totale, che mostra il valore medio delle deviazioni al quadrato del valore dell'elemento risultante dal loro livello medio.

    Costruiamo una tabella per calcolare la varianza totale (vedi Tabella 8)

    Tabella 8

    Tabella dei dati per la determinazione della varianza totale

    N, p / p Spese alimentari
    1 21 441
    2 16 256
    3 26,1 681,21
    4 28 784
    5 26 676
    6 22,5 506,25
    7 27,6 761,76
    8 35 1225
    9 23,9 571,21
    10 22,5 506,25
    11 15 225
    12 25,2 635,04
    13 29 841
    14 21,4 457,96
    15 24,9 620,01
    16 24,8 615,04
    17 16 256
    18 23,6 556,96
    19 27,2 739,84
    20 35 1225
    21 17 289
    22 23,8 566,44
    23 22,6 510,76
    24 25 625
    25 27 729
    26 30 900
    27 35 1225
    28 25,4 645,16
    29 27,2 739,84
    30 26,3 691,69
    Totale 750 19502,42

    La varianza totale dell'attributo risultante è calcolata dalla formula:

    =

    La dispersione intergruppo è calcolata dalla formula:

    Costruiamo una tabella ausiliaria per il calcolo dei dati (vedi Tabella 9)


    Tabella 9

    Tabella dati per il calcolo della varianza intergruppo

    Numero del gruppo Numero di famiglie, pz Spesa per il cibo, mille rubli
    Totale Media per nucleo familiare
    F
    1 28-40 3 48 16 -9 81 243
    2 40-52 5 105 21 -4 16 80
    3 52-64 12 300 25 0 0 0
    4 64-76 6 165 27,5 2,5 6,25 37,5
    5 76-88 4 132 33 8 64 256
    Totale 30 750 616,5

    Conclusione: la relazione tra i fattori è molto stretta, perché assume valori da 0,9 a 0,99.

    Il coefficiente di determinazione è il quadrato della correlazione empirica. Quindi,

    (81,9%)

    Conclusione: la produzione di queste imprese dipende per l'81,9% dalla produttività del capitale e per il 18,1% da altri fattori.

    Compito 3

    Sulla base dei risultati dell'attività 1, con una probabilità di 0,9543, determinare:

    1. L'errore di campionamento del reddito lordo medio per membro della famiglia all'anno e i confini in cui si troverà nella popolazione generale.

    2. Errore di campionamento della quota di famiglie con un reddito lordo inferiore a 52 mila rubli. e più di un milione di rubli. e i confini entro i quali sarà localizzata la quota generale.

    1. L'errore di campionamento per la media è determinato dalla formula:

    , Dove

    varianza di campionamento;

    n - dimensione del campione;

    t è il coefficiente di confidenza, che è determinato dalla tabella dei valori della funzione integrale di Laplace per una data probabilità. In questo caso, a P=0.954, il valore t=2.

    N-numero di unità nella popolazione generale, N=6000 pz.

    Calcoliamo la varianza. I dati saranno presentati sotto forma di tabella (vedi Tabella 11).

    Tabella 11

    Dati per il calcolo della dispersione del livello di rendimento delle attività

    Numero del gruppo Raggruppamento delle famiglie per reddito lordo Numero di famiglie, pz
    F
    1 28-40 3 34 -25,1 630,01 1890,03
    2 40-52 5 46 -13,1 171,61 858,05
    3 52-64 12 58 -1,1 1,21 14,52
    4 64-76 6 70 10,9 118,81 712,86
    5 76-88 4 82 22,9 524,41 2097,64
    Totale 30 5573,1

    Relazione di correlazione empirica

    Diversi indicatori vengono utilizzati per misurare la vicinanza dell'associazione. Con una connessione a coppia, la tenuta della connessione è determinata, prima di tutto, dal rapporto di correlazione, che è indicato con η. Il quadrato del rapporto di correlazione è il rapporto tra la varianza intergruppo del tratto risultante, che esprime l'effetto delle differenze nel tratto del fattore di raggruppamento sul valore medio del tratto risultante, e la varianza totale del tratto risultante, che esprime la l'impatto di tutte le cause e condizioni su di esso. Il quadrato del rapporto di correlazione si chiama coefficiente di determinazione.

    ny fenomeni e loro segni: ________________ o rigidamente deterministici

    dove k è il numero di gruppi

    N è il numero di osservazioni

    y i - valori iniziali della caratteristica effettiva

    y j - valori medi dell'attributo effettivo per questo gruppo

    y è il valore medio della caratteristica

    f j è la dimensione del gruppo

    La formula di cui sopra viene utilizzata per il calcolo dell'indicatore di vicinanza della connessione per un raggruppamento analitico. Quando si calcola il rapporto di correlazione in base al livello di comunicazione, viene utilizzata la seguente formula:

    La somma dei quadrati al numeratore è la varianza della caratteristica risultante y spiegata dalla relazione con il fattore x (fattori). Viene calcolato dai dati individuali ottenuti per ciascuna unità della popolazione in base all'equazione di regressione.

    Se l'equazione viene scelta in modo errato o viene commesso un errore durante il calcolo dei suoi parametri, la somma dei quadrati nel numeratore potrebbe essere maggiore di quella nel denominatore e il rapporto perderà il significato che dovrebbe avere. Per evitare un risultato errato, è meglio calcolare il rapporto di correlazione utilizzando la seguente formula:

    Questa formula si basa sulla ben nota regola per espandere le somme dei quadrati delle deviazioni quando si raggruppa la popolazione:

    D comune= D intergr+D intragr

    Secondo questa regola, invece della varianza intergruppo (fattoriale), puoi usare la differenza:

    D comune-D intragr

    cosa dà:

    Quando calcoliamo η non per raggruppamento, ma per l'equazione di correlazione (equazione di regressione), usiamo la formula. In questo caso, la regola di scomposizione per la somma dei quadrati delle deviazioni dell'elemento risultante è scritta come

    D totale \u003d D core + D resto

    Il punto più importante che dovrebbe ora essere appreso da chiunque voglia applicare correttamente il metodo dell'analisi di correlazione-regressione è l'interpretazione delle formule (1.2) e (1.3). Questa disposizione recita:

    L'equazione di correlazione misura la relazione tra la variazione della caratteristica risultante e la variazione delle caratteristiche del fattore. Le misure di tenuta della connessione misurano la proporzione della variazione della caratteristica risultante, che è associata alla variazione della caratteristica del fattore (caratteristiche).

    | prossima lezione ==>

    Il rapporto di correlazione empirica misura quanta parte della fluttuazione totale dell'attributo risultante è causata dal fattore studiato. La media di correlazione empirica varia da 0 a 1.

    Di solito si trova una correlazione empirica i seguenti tipi compiti:

    • 1) quando è necessario produrre un raggruppamento analitico per due serie di dati X e Y
    • 2) il raggruppamento è già stato eseguito, è necessario verificare la regola per l'aggiunta delle varianze
    • 3) per due serie di dati X e Y, è necessario trovare l'equazione di regressione e valutarne la significatività

    Formula di varianza caratteristica alternativa

    Sulla base di quanto sopra, possiamo derivare una formula per trovare la varianza di una caratteristica alternativa se conosciamo la percentuale di tale caratteristica nel campione totale.

    Inizialmente, assumiamo che la funzione assuma solo due valori.

    Pertanto, la somma della proporzione di elementi in cui gli elementi della serie statistica hanno il valore di attributo "no" e gli elementi della serie che hanno il valore di attributo "sì" è uguale a uno.

    Per trovare il valore medio della serie, sostituiamo i valori delle caratteristiche alternative (0 e 1) nella formula per trovare il valore medio ponderato della serie statistica. Da dove, ovviamente, ci sarà un'unità al denominatore e il valore percentuale degli elementi "1" al numeratore. Cioè, esattamente il valore percentuale degli elementi con l'attributo "1". (Formula 2)

    La formula della varianza è la media ponderata delle deviazioni al quadrato di ciascun valore nella serie di dati. (Formula 3)

    Poiché nella nostra serie i dati hanno solo due tipi di valori: "0" e "1", la formula per trovare la varianza per una serie con una caratteristica alternativa è ridotta alla Formula 4. Spiegazione. poiché abbiamo appena dedotto che la media campionaria è uguale a p (Formula 2), allora il valore del quadrato della differenza tra il valore (0/1) e il valore medio, secondo la Formula 1, sarà (1- p)2 nel primo caso, e nel secondo caso (1-q)2 , applicando ora il corollario della prima formula: q = 1 - p, p = 1- q . Otteniamo p2 e q2 . Di conseguenza, la proporzione dei valori "0" e "1" è uguale a p e q, di conseguenza, nel numeratore e risulta q2 p e p2 q. La somma delle quote delle caratteristiche dei valori "0" e "1" secondo la Formula 1 è uguale a 1. Di conseguenza, la Formula 4 assume il valore pq, che sarà uguale al valore della varianza di la caratteristica alternativa. Sulla base del valore trovato della varianza della caratteristica alternativa, troveremo la deviazione standard (Formula 5). Mettendo il valore dalla Formula 1 nella Formula 5, otteniamo la formula della deviazione standard per la varianza di una serie con una caratteristica alternativa.

    
    Superiore