Determinare un esempio di relazione di correlazione empirica. Coefficiente di correlazione e coefficiente di determinazione

Soluzione. Per calcolare le varianze di gruppo, calcoliamo le medie per ciascun gruppo:

PC.; computer.

I calcoli intermedi delle varianze per gruppo sono presentati nella tabella. 3.2. Sostituendo i valori ottenuti nella formula (3.4), otteniamo:

Media delle varianze di gruppo

Quindi calcoliamo la varianza tra gruppi. Per fare ciò, definiamo innanzitutto la media complessiva come media ponderata delle medie del gruppo:

Ora determiniamo la varianza intergruppo

Pertanto, la varianza totale secondo la regola di somma delle varianze:

Controlliamo il risultato ottenuto calcolando la varianza totale nel solito modo:

Sulla base della regola per l'aggiunta delle varianze, è possibile determinare l'indicatore della vicinanza della relazione tra il raggruppamento (fattore) e le caratteristiche risultanti. Si chiama rapporto di correlazione empirico, indicato con (“eta”) e calcolato mediante la formula

Per il nostro esempio, empirico relazione di correlazione

.

Un valore di 0,86 caratterizza una relazione significativa tra raggruppamento e caratteristiche prestazionali.

Il valore è chiamato coefficiente di determinazione e mostra la quota della varianza intergruppo nella varianza totale.

Insieme alla variazione delle caratteristiche quantitative, si può osservare anche la variazione delle caratteristiche qualitative. Questo studio della variazione si ottiene, per quanto riguarda le proporzioni delle caratteristiche quantitative, calcolando e analizzando i seguenti tipi di varianze.

La dispersione delle azioni all'interno del gruppo è determinata dalla formula

. (3.17)

La media delle varianze all'interno del gruppo viene calcolata come

. (3.18)

La formula per la varianza intergruppo è la seguente:

, (3.19)

Dove no io– numero di unità in gruppi separati;

– la proporzione della caratteristica studiata nell’intera popolazione, che è determinata dalla formula

La varianza totale ha la forma

. (3.21)

I tre tipi di varianza sono correlati tra loro come segue:

. (3.22)

Esempio 3.4

Determiniamo le varianze di gruppo, la media del gruppo, le varianze intergruppo e totali secondo i dati nella tabella. 3.3.

Tabella 3.3

Numero e peso specifico una delle categorie
allevamenti bovini della regione



Soluzione

Determiniamo la quota complessiva di vacche da latte per tre aziende:

Variazione totale nella quota di vacche da latte:

Variazioni all'interno del gruppo:

; ; .

Media delle varianze all'interno del gruppo:

Varianza intergruppo:

Usando la regola per sommare le varianze, otteniamo: 0,1025+0,0031=0,1056. L'esempio è risolto correttamente.

Esempio 3.5

Dall'indagine campionaria sulle retribuzioni dei lavoratori del settore pubblico sono stati ottenuti i seguenti indicatori (Tabella 3.4).

Tabella 3.4

Definire:

1) salari medi in due settori;

2) dispersione salariale:

a) la media degli scostamenti di gruppo (settore),

b) intergruppo (intersettoriale),

3) coefficiente di determinazione;

4) relazione di correlazione empirica.

Soluzione

1. Medio salario lavoratori in due settori viene calcolato utilizzando la formula (2.10):

strofinare.

2. Dispersione salariale:

a) la media delle varianze di gruppo secondo la (3.14)

b) varianza intergruppo secondo la (3.12)

c) varianza totale ottenuta in base alla regola di somma delle varianze (3.15):

3. Il coefficiente di determinazione è uguale al valore

quelli. , ovvero il 44,24%.

Da esso emerge che i salari dipendono per il 44,24% dall'appartenenza dei lavoratori al settore e per il 55,76% da ragioni intra-industriali.

Secondo la formula (3.16), la relazione di correlazione empirica ,

il che indica un’influenza significativa delle caratteristiche del settore sulla differenziazione salariale.

3.2. COMPITI PER UNA SOLUZIONE INDIPENDENTE

Problema 3.1

Di seguito sono disponibili i dati relativi alla distribuzione di 60 lavoratori per categoria tariffaria (Tabella 3.5).

Tabella 3.5

Definire:

1) categoria salariale media dei lavoratori;

2) deviazione lineare media;

3) dispersione;

4) deviazione standard;

5) coefficiente di variazione.

Problema 3.2

Sulla base dei risultati della sessione d'esame del 1 ° e 2 ° corso di una delle università, sono disponibili i seguenti dati: nel 1 ° anno l'85% degli studenti ha superato la sessione senza fallire, nel 2 ° anno - 90%.

In ciascun corso, determinare la dispersione della percentuale di studenti che superano con successo la sessione.

Problema 3.3

Le società di capitali della regione in base al numero medio dei dipendenti al 1° gennaio 2004 sono distribuite come segue (Tabella 3.6).

Tabella 3.6

Calcolare:

1) deviazione lineare media;

2) dispersione;

3) deviazione standard;

4) coefficiente di variazione.

Problema 3.4

Sono disponibili dati sulla distribuzione delle famiglie dei dipendenti delle imprese per numero di figli (Tabella 3.7).

Tabella 3.7

Calcolare:

1) varianze all'interno del gruppo;

2) la media degli scostamenti intragruppo;

3) varianza intergruppo;

4) varianza totale.

Controlla la correttezza dei tuoi calcoli utilizzando la regola per aggiungere varianze.

Problema 3.5

La distribuzione del costo dei prodotti destinati all'esportazione tra i laboratori dell'impresa è presentata dai seguenti dati (Tabella 3.8).

Tabella 3.8

Calcolare:

1) la media delle quote intragruppo, intergruppo e totale dei prodotti esportati;

2) coefficiente di determinazione e rapporto di correlazione empirica.

Problema 3.6

Secondo un sondaggio condotto tra le banche commerciali della città, il 70% del numero totale dei clienti erano persone giuridiche con un importo medio di prestito di 120 mila rubli. e un coefficiente di variazione del 25% e del 20% – individui con un importo medio del prestito di 20 mila rubli. con una deviazione standard di 6 mila rubli.

Utilizzando le regole per l'aggiunta delle varianze, determinare la stretta relazione tra l'entità del prestito e la tipologia del cliente calcolando il rapporto di correlazione empirico.

Sezione 4. Osservazione del campione

4.1. ISTRUZIONI METODOLOGICHE
E SOLUZIONE DI PROBLEMI TIPICI

Lo scopo dell'osservazione del campione è determinare le caratteristiche della popolazione generale: la media generale (o) e la quota generale ( R). Le caratteristiche della popolazione campione - media campionaria () e proporzione campionaria () differiscono dalle caratteristiche generali per la quantità di errore di campionamento (). Pertanto, per determinare le caratteristiche della popolazione generale, è necessario calcolare l'errore di campionamento, o errore di rappresentatività, che viene determinato utilizzando formule sviluppate nella teoria della probabilità per ciascun tipo di campione e metodo di selezione.

In realtà campionamento casuale e meccanico. Con il campionamento ripetuto casuale, l'errore di campionamento massimo per la media () e per la quota () viene calcolato utilizzando le formule

; (4.1)

(4.2)

dove è la varianza della popolazione campione;

N- misura di prova;

T– coefficiente di confidenza, che è determinato dalla tabella dei valori della funzione integrale di Laplace con una data probabilità ( P Dov.) (Tabella P1).

Con la selezione casuale e meccanica non ripetitiva, l'errore di campionamento massimo viene calcolato utilizzando le formule

; (4.3)

, (4.4)

Dove N– dimensione della popolazione generale.

Esempio 4.1

Per determinare il contenuto di ceneri del carbone nel deposito, sono stati esaminati 100 campioni di carbone mediante campionamento casuale. Come risultato dell'indagine, è stato stabilito che il contenuto medio di ceneri del carbone nel campione è del 16%, la deviazione standard è del 5%. In dieci campioni, il contenuto di ceneri del carbone era superiore al 20%. Con una probabilità di 0,954, determinare i limiti entro i quali si troveranno il contenuto medio di ceneri del carbone nel deposito e la quota di carbone con un contenuto di ceneri superiore al 20%.

Soluzione

Il contenuto medio di ceneri del carbone sarà entro

Per determinare i limiti della media generale, calcoliamo l'errore massimo di campionamento per la media utilizzando la formula (4.1):

. (4.5)

Con una probabilità di 0,954, si può affermare che il contenuto medio di ceneri del carbone nel deposito sarà compreso tra 16% e 1%, o tra 15% e 17%.

La quota di carbone con un contenuto di ceneri superiore al 20% rientrerà

La quota del campione è determinata dalla formula

Dove M– la proporzione di unità che possiedono il tratto

Calcoliamo l'errore di campionamento per la quota () utilizzando la formula (4.2):

o ±6%.

Con una probabilità di 0,954 si può affermare che la quota di carbone con un contenuto di ceneri superiore al 20% nel deposito sarà entro , O .

Esempio 4.2

Per determinare il periodo medio di utilizzo di un prestito a breve termine presso la banca, è stato effettuato un campione meccanico del 5%, che comprendeva 100 conti. Come risultato dell'indagine, è emerso che il periodo medio per l'utilizzo di un prestito a breve termine è di 30 giorni con una deviazione standard di 9 giorni. In cinque casi la durata del prestito ha superato i 60 giorni. Con una probabilità di 0,954, determinare i limiti entro i quali cadranno il periodo di utilizzo di un prestito a breve termine nella popolazione generale e la quota di conti con un periodo di utilizzo di un prestito a breve termine superiore a 60 giorni.

Soluzione

Durata media l'utilizzo di un prestito bancario rientra nei limiti

.

Poiché il campionamento è meccanico, l'errore di campionamento è determinato dalla formula (2.3):

giorno.

Con una probabilità di 0,954 si può affermare che il periodo per l'utilizzo di un prestito a breve termine da parte di una banca rientra nell'intervallo = 30 giorni 2 giorni, o

28 giorni della giornata.

Rientra entro la quota dei prestiti con durata di utilizzo superiore a 60 giorni

La quota del campione sarà

Determiniamo l'errore di campionamento per la quota utilizzando la formula (4.4):

o 4,2%.

Con una probabilità di 0,954 si può affermare che la quota dei prestiti bancari con una durata di utilizzo superiore a 60 giorni si collocherà nell'intervallo O

Campione tipico. Con la selezione tipica (zonata), la popolazione generale è divisa in gruppi tipici omogenei, regioni. Viene effettuata la selezione delle unità di osservazione nella popolazione campione vari metodi. Consideriamo un campione tipico con selezione proporzionale all'interno di gruppi tipici.

La dimensione del campione di un gruppo tipico in una selezione proporzionale al numero di gruppi tipici è determinata dalla formula

Dove no io– dimensione del campione di un gruppo tipico;

N i– volume di un gruppo tipico.

L'errore massimo della media campionaria e della proporzione con non ripetizione casuale e meccanicamente la selezione all'interno dei gruppi tipici viene calcolata utilizzando le formule

; (4.8)

, (4.9)

dove è la varianza della popolazione campione.

Esempio 4.3

Per determinare l'età media degli uomini che si sposano nella regione, è stato prelevato un campione tipico del 5% con la selezione di unità proporzionali al numero di gruppi tipici. All’interno dei gruppi è stata utilizzata la selezione meccanica. I dati sono riassunti nella tabella. 4.1.

Tabella 4.1

Con probabilità 0,954, determinare i limiti entro i quali età media uomini che si sposano e percentuale di uomini che si sposano per la seconda volta.

Soluzione

L'età media in cui gli uomini si sposano è compresa

.

L'età media alla quale gli uomini si sposano nella popolazione campione viene determinata utilizzando la formula della media ponderata

= dell'anno.

La varianza media del campione è determinata dalla formula
media

=

Calcoliamo l'errore massimo di campionamento utilizzando la formula (4.8):

dell'anno.

Con una probabilità pari a 0,954 si può affermare che l'età media degli uomini che si sposeranno sarà entro l'anno, ovvero

24 anni.

La percentuale di uomini che si sposeranno per la seconda volta risulterà entro i limiti

Determiniamo la quota campionaria utilizzando la formula media

o il 14%.

Varianza media del campione segno alternativo calcolato utilizzando la formula

(4.12)

Determiniamo l'errore di campionamento per la quota utilizzando la formula (4.9):

o 6%.

Con una probabilità pari a 0,954 si può affermare che la percentuale di uomini che si sposeranno per la seconda volta rientrerà nell’intervallo , O .

Campionamento seriale. Con il metodo della selezione seriale la popolazione generale viene divisa in gruppi di uguale dimensione – serie. Le serie vengono selezionate nella popolazione campione. All'interno della serie viene effettuata l'osservazione continua delle unità incluse nella serie.

Con la selezione ripetuta delle serie, gli errori massimi della media e della proporzione del campione sono determinati dalla formula

, (4.13)

dov'è la dispersione interserie;

R– numero di serie nella popolazione generale;

R– numero di serie selezionate.

Esempio 4.4

Ci sono 10 squadre di lavoratori nell'officina dello stabilimento. Per studiare la produttività del lavoro è stato effettuato un campione seriale del 20%, che comprendeva 2 squadre. Come risultato dell'indagine, è stato stabilito che la produzione media dei lavoratori nelle squadre era di 4,6 e 3 tonnellate. Con una probabilità di 0,997, determinare i limiti entro i quali sarà la produzione media dei lavoratori dell'officina. t, o T.

Esempio 4.5

In magazzino prodotti finiti L'officina contiene 200 scatole di parti, 40 pezzi in ciascuna scatola. Per verificare la qualità del prodotto finito è stato effettuato un campionamento del lotto del 10%. Dal campione è emerso che la percentuale di parti difettose è del 15%. La varianza del campione seriale è 0,0049.

Determinare con una probabilità pari a 0,997 i limiti entro i quali si trova la percentuale di prodotti difettosi in un lotto di scatole.

Soluzione

La percentuale di parti difettose sarà compresa

Determiniamo l'errore di campionamento massimo per la quota utilizzando la formula (4.13):

o 4,4%.

Con una probabilità di 0,997 si può affermare che la percentuale di pezzi difettosi nel lotto è compresa tra il 10,6% e il 19,6%.

Esempio 4.6

In una regione composta da 20 distretti è stata effettuata un'indagine campionaria di rendimento basata sulla selezione di serie (distretti). Le medie campionarie per le regioni sono state rispettivamente di 14,5 q/ha; 16; 15,5; 15 e 14 q/ha. Con probabilità 0,954, trova i limiti di rendimento per l'intera regione.

Soluzione

Calcoliamo la media complessiva:

c/ha.

Varianza tra gruppi (tra serie).

Determiniamo ora l'errore massimo del campionamento seriale non ripetitivo (t = 2, à dov = 0,954) utilizzando la formula (4.13):

.

Di conseguenza, il rendimento nella regione (con una probabilità di 0,954) sarà entro

15-1,7≤ ≤15+1,7,

13,3 q/ha ≤ ≤ 16,7 q/ha.

Nella pratica di progettazione dell'osservazione del campione, è necessario trovare la dimensione del campione, necessaria per garantire una certa precisione nel calcolo delle caratteristiche generali: la media e la proporzione. In questo caso si conosce in anticipo l'errore massimo di campionamento, la probabilità del suo verificarsi e la variazione della caratteristica.

Con il campionamento ripetuto casuale, la dimensione del campione viene determinata dall'espressione

In caso di campionamento casuale non ripetitivo e meccanico, la dimensione del campione viene calcolata utilizzando la formula

. (4.16)

Per un campione tipico

. (4.17)

Per il campionamento seriale

. (4.18)

Esempio 4.7

Ci sono 2.000 famiglie che vivono nella zona. Si prevede di condurre un'indagine campionaria su di essi utilizzando un metodo di selezione casuale e non ripetitivo per individuare la dimensione media della famiglia. Determinare la dimensione del campione richiesta, a condizione che con probabilità 0,954 l'errore di campionamento non superi una persona con una deviazione standard di tre persone (=3).

Soluzione

Con il campionamento casuale non ripetitivo, la dimensione del campione secondo la formula (4.16) sarà famiglie.

Dimensione del campione: almeno 36 famiglie.

Esempio 4.8

La città A ha 10.000 famiglie. Utilizzando il campionamento meccanico, si prevede di determinare la percentuale di famiglie con tre o più figli. Quale dovrebbe essere la dimensione del campione affinché con probabilità 0,954 l'errore di campionamento non superi 0,02 se, sulla base di indagini precedenti, è noto che la varianza è 0,2?

Soluzione

Determiniamo la dimensione del campione richiesta utilizzando la formula (4.16):

.

Dimensione del campione: non meno di 1667.

In statistica è spesso necessario confrontare i risultati di due (o più) campioni. Sulla base del confronto di due medie campionarie (o proporzioni), si giunge a una conclusione sulla casualità o sul significato della loro discrepanza.

Per fare ciò, la differenza assoluta tra le medie campionarie viene confrontata con l'errore medio della differenza:

. (4.19)

Trovato T calc. paragonato a T tavolo Di T– Distribuzione degli studenti (Tabella A2) per il numero di gradi di libertà v=N 1 +N 2 -2 e un dato livello di significatività a. (Qui N 1 e N 2 – volumi dei campioni confrontati).

RISPOSTA

Una valutazione quantitativa della tenuta della connessione basata su dati empirici consiste nel calcolare gli indicatori della vicinanza della connessione:

· Coefficiente empirico di determinazione (rapporto di dispersione empirico) - r 2 .

Questo indicatore è calcolato in base ai dati di raggruppamento analitico (tabella), come rapporto tra la varianza intergruppo del tratto di risultato Y (d y 2) e la varianza totale Y (s y 2):

Secondo il teorema della scomposizione della varianza, la varianza tra gruppi è correlata alla varianza totale: s y 2 =d y 2 +e y 2 . Poi coefficiente empirico la determinazione può essere calcolata attraverso la varianza residua utilizzando la formula:

dove s j 2 è la varianza del tratto di risultato Y all'interno del j-esimo gruppo.

Il coefficiente empirico di determinazione caratterizza la forza dell'influenza della caratteristica di raggruppamento (X) sulla formazione della variazione generale della caratteristica risultante Y e mostra la percentuale (quota) di variazione nella caratteristica risultante causata dal fattore-attributo che forma la base del raggruppamento.

È conveniente calcolare r2 nella tabella:

Fattore di segno Xj N j Valore medio della caratteristica del risultato sj2Nj
X1 N1 s12N1
X2 N2 s22N2
.... ...
Xm N·m s·m2 N·m
Totale N X ås j 2

Poi .

Diamo un'occhiata a un esempio. Sia dato un insieme di 20 lavoratori, caratterizzati dalle seguenti caratteristiche: Y - rendimento dell'operaio (pezzi/turno) e X - qualifica (grado). I primi dati sono presentati nella tabella:

X
Y

È necessario valutare la vicinanza della relazione tra le caratteristiche utilizzando il coefficiente di determinazione empirico (r 2).

Per calcolare r 2 eseguiremo un raggruppamento analitico della popolazione. Prendiamo X (il voto del lavoratore) come attributo fattore e Y la produzione del lavoratore come attributo risultato). Il raggruppamento analitico viene effettuato secondo X. B in questo caso sarà discreto (poiché i valori dell'attributo X si ripetono abbastanza spesso). Il numero di gruppi è uguale al numero di valori dell'attributo X nell'aggregato, vale a dire 6. Riassumiamo i risultati del raggruppamento e del calcolo di r 2 nella tabella:

Fattore di segno X Attributo del risultato Y Numero di unità in un gruppo, N j Il valore medio della caratteristica del risultato nel gruppo, ( - ) 2 ·Nj Varianza dell'attributo-risultato nel gruppo, s 2 j s2jNj
(10+12+13)/3=11,7 (11,7-17,1) 2 3=88,56 s 2 1 =((10-11,7) 2 +(12-11,7) 2 +(13-11,7) 2)/3=1,56 4,7
(11+14)/2=12,5 (12,5-17,1) 2 2=42,3 s22 =((11-12,5)2 +(14-12,5)2)/2=2,25 4,5
(12+13+15+16)/4= 14 (14-17,1) 2 4=38,4 s 2 3 =((12-14) 2 +(13-14) 2 +(15-14) 2 +(16-14) 2)/4=2,5
(15+17+17+18)/4= 16,75 (16,75-17,1) 2 4=0,49 s 2 4 =((15-16,75) 2 +(17-16,75) 2 ++(17-16,75) 2 +(18-16,75) 2)/4=1,9 4,75
(18+20+22)/3=20 (20-17,1) 2 3=25,23 s2 5 =((18-20)2 +(20-20)2 +(22-20)2)/3=2,7
(23+24+27+25)/4= 24,75 (24,75-17,1) 2 4=234,1 s 2 6 =((23-24,75) 2 +(24-24,75) 2 +(27-24,75) 2 +(25-24,75) 2)/4=2,19 8,75
=17,1 429,1 40,7

Il coefficiente empirico di determinazione è uguale al rapporto tra la varianza intergruppo del tratto di risultato (d y 2) e la varianza totale del tratto di risultato (s y 2): r 2 = d y 2 /s y 2 = d y 2 /(d y 2 +ey2).

La varianza intergruppo Y sarà pari a: d y 2 = å( - ) 2 ·N j / N = 429,1/20=21,45.

La varianza residua Y sarà pari a: e y 2 = ås 2 j ·N j / N= 40,7/20= 2,035.

Quindi: r 2 =21,45/(21,45+2,035)= 429,1/(429,1+40,7)=0,913.

Conclusione: il 91,3% della variazione della produzione dei lavoratori è dovuta all'influenza del fattore di dimissione.

· Relazione di correlazione empirica - R.

Questo indicatore è la radice del coefficiente empirico di determinazione. Ciò dimostra la stretta connessione (non solo lineare!) tra raggruppamento e caratteristiche produttive. L'intervallo di valori accettabili del rapporto di correlazione empirica va da 0 a +1.

Massimo stretta connessione– si tratta di una relazione funzionale, quando ciascun valore dell’attributo risultato Y è determinato univocamente dal valore dell’attributo fattore X (cioè il risultato del raggruppamento). In questo caso, la varianza delle medie del gruppo (d y 2) è uguale alla varianza totale (s y 2), cioè non ci saranno variazioni all'interno del gruppo. In questo caso la varianza residua (e y 2) è pari a 0 e il coefficiente empirico di determinazione è pari a 1.

Se non c'è connessione tra le caratteristiche, allora tutte le medie dei gruppi sono uguali tra loro, non ci sarà alcuna variazione intergruppo (d y 2 = 0) e il coefficiente empirico di determinazione è 0.

Calcoliamo il rapporto di correlazione empirico per il nostro esempio: r= 0,9555. Conclusione: i segni di “produzione del lavoratore” e “dimissione” sono strettamente correlati.

Gli indicatori r e r 2 sono determinati non solo dalla presenza di una connessione tra le caratteristiche X e Y, ma anche dal fatto di raggruppare i dati primari. All'aumentare del numero di gruppi m, la varianza intergruppo d 2 aumenta e si avvicina alla varianza totale. Se il numero di gruppi è inferiore al numero di unità di popolazione N, i valori di r e r 2 non saranno mai uguali a 1, anche con una stretta relazione funzionale.

Si noti che il valore dell'indicatore della vicinanza della connessione stessa non è una prova della presenza di una relazione di causa-effetto tra le caratteristiche studiate, ma è una valutazione del grado di reciproca coerenza nei cambiamenti delle caratteristiche. L'instaurazione di un rapporto di causa-effetto deve necessariamente essere preceduta da un'analisi della natura qualitativa dei fenomeni.

Un valore di 0,86 caratterizza una relazione significativa tra raggruppamento e caratteristiche prestazionali.

Grandezza chiamato coefficiente di determinazione e mostra la quota della varianza tra gruppi nella varianza totale.

Insieme alla variazione delle caratteristiche quantitative, si può osservare anche la variazione delle caratteristiche qualitative. Questo studio della variazione si ottiene, per quanto riguarda le proporzioni delle caratteristiche quantitative, calcolando e analizzando i seguenti tipi di varianze.

Varianza delle quote all'interno del gruppo determinato dalla formula

. (3.17)

La media delle varianze all'interno del gruppo viene calcolata come

. (3.18)

Formula varianza intergruppo ha la seguente forma:

, (3.19)

Dove N io– numero di unità in gruppi separati;

– la quota della caratteristica studiata nell’intera popolazione, che è determinata dalla formula

. (3.20)

Varianza totale sembra

. (3.21)

I tre tipi di varianza sono correlati tra loro come segue:

. (3.22)

Esempio 3.4

Determiniamo le varianze di gruppo, la media del gruppo, le varianze intergruppo e totali secondo i dati nella tabella. 3.3.

Tabella 3.3

Numero e percentuale di una categoria di bovini nelle aziende agricole della regione

Soluzione

Determiniamo la quota complessiva di vacche da latte per tre aziende:

;

Variazione totale nella quota di vacche da latte:

Variazioni all'interno del gruppo:

; ;
.

Media delle varianze all'interno del gruppo:

Varianza intergruppo:

Usando la regola per aggiungere le varianze, otteniamo: 0,1025+0,0031=0,1056. L'esempio è risolto correttamente.

Esempio 3.5

Dall'indagine campionaria sulle retribuzioni dei lavoratori del settore pubblico sono stati ottenuti i seguenti indicatori (Tabella 3.4).

Tabella 3.4

Definire:

    salari medi in due settori;

    dispersione salariale:

a) la media degli scostamenti di gruppo (settore),

b) intergruppo (intersettoriale),

    coefficiente di determinazione;

    relazione di correlazione empirica.

Soluzione

    I salari medi dei lavoratori in due settori sono calcolati utilizzando la formula (2.10):

strofinare.

    Variazioni salariali:

a) la media delle varianze di gruppo secondo la (3.14)

b) varianza intergruppo secondo la (3.12)

.

c) varianza totale ottenuta in base alla regola di somma delle varianze (3.15):

    Il coefficiente di determinazione è uguale al valore

; (3.23)

quelli.
, ovvero il 44,24%.

Da esso emerge che i salari dipendono per il 44,24% dall'appartenenza dei lavoratori al settore e per il 55,76% da ragioni intra-industriali.

Secondo la formula (3.16), la relazione di correlazione empirica
,

il che indica un’influenza significativa delle caratteristiche del settore sulla differenziazione salariale.

Relazione di correlazione empirica

Per misurare la tenuta di una connessione vengono utilizzati diversi indicatori. In una connessione a coppie, la tenuta della connessione è determinata principalmente dal rapporto di correlazione, indicato con η. Il rapporto di correlazione al quadrato è il rapporto tra la varianza intergruppo della caratteristica effettiva, che esprime l'influenza delle differenze nella caratteristica del fattore di raggruppamento sul valore medio della caratteristica effettiva, e la varianza totale della caratteristica effettiva, che esprime l'influenza di tutti cause e condizioni su di esso. Il quadrato della relazione di correlazione è chiamato coefficiente di determinazione.

om fenomeni e loro segni: ________________ o strettamente deterministici

dove k è il numero di gruppi

N – numero di osservazioni

y i – valori iniziali della caratteristica risultante

y j – valori medi della caratteristica effettiva per questo gruppo

y – valore medio della caratteristica

fj – dimensione del gruppo

La formula precedente viene utilizzata per calcolare l'indicatore di tenuta della connessione per un raggruppamento analitico. Quando si calcola il rapporto di correlazione per livello di connessione, viene utilizzata la formula:

La somma dei quadrati al numeratore è la varianza della caratteristica risultante y spiegata dalla relazione con il fattore x (fattori). Viene calcolato dai dati individuali ottenuti per ciascuna unità della popolazione in base all'equazione di regressione.

Se l'equazione viene scelta in modo errato o viene commesso un errore nel calcolo dei suoi parametri, la somma dei quadrati al numeratore potrebbe risultare maggiore che al denominatore e il rapporto perderà il significato che dovrebbe avere. Per evitare un risultato errato, è meglio calcolare il rapporto di correlazione utilizzando la seguente formula:

Questa formula si basa sulla ben nota regola per la scomposizione delle somme delle deviazioni quadrate quando si raggruppa una popolazione:

D generalmente=D intergr+D intragr

Secondo questa regola, puoi utilizzare la differenza invece della varianza intergruppo (fattoriale):

D generalmente-D intragr

cosa dà:

Quando calcoliamo η non mediante raggruppamento, ma mediante l'equazione di correlazione (equazione di regressione), utilizziamo la formula. In questo caso, la regola per decomporre la somma delle deviazioni quadrate della caratteristica risultante viene scritta come

D totale = D nucleo + D resto

Il punto più importante che chiunque voglia applicare correttamente il metodo dell'analisi di correlazione-regressione dovrebbe ora comprendere è l'interpretazione delle formule (1.2) e (1.3). Questa disposizione recita:

L'equazione di correlazione misura la relazione tra la variazione dell'attributo risultante e la variazione dell'attributo o degli attributi del fattore. Le misure della vicinanza della relazione misurano la proporzione di variazione nella caratteristica risultante che è associata alla variazione nella caratteristica del fattore (caratteristiche).

| prossima lezione ==>

Il rapporto di correlazione empirico misura quanta parte della variabilità totale nell'attributo risultante è causata dal fattore studiato. La media della correlazione empirica varia da 0 a 1.

La relazione di correlazione empirica si trova solitamente in seguenti tipi compiti:

  • 1) quando è necessario effettuare un raggruppamento analitico basato su due serie di dati X e Y
  • 2) il raggruppamento è già stato effettuato, è necessario verificare la regola di aggiunta delle varianze
  • 3) utilizzando due serie di dati X e Y, è necessario trovare un'equazione di regressione e valutarne il significato

Formula alternativa della varianza dei tratti

Sulla base di quanto sopra, possiamo ricavare una formula per trovare la varianza di una caratteristica alternativa se conosciamo la percentuale di tale caratteristica nel campione totale.

Inizialmente, assumiamo che l'attributo assuma solo due valori.

Pertanto, la somma della proporzione di elementi in cui gli elementi della serie statistica hanno il valore dell'attributo “no” e gli elementi della serie che hanno il valore dell'attributo “sì” è pari a uno.

Per trovare il valore medio di una serie, sostituiamo i valori delle caratteristiche alternative (0 e 1) nella formula per trovare il valore medio ponderato di una serie statistica. Da qui, è abbastanza ovvio che il denominatore avrà uno, e il numeratore avrà il valore percentuale degli elementi “1”. Cioè esattamente il valore percentuale degli elementi con il segno “1”. (Formula 2)

La formula di dispersione è la media ponderata delle deviazioni quadrate di ciascun valore in una serie di dati. (Formula 3)

Poiché nella nostra serie i dati hanno solo due tipi di valori: "0" e "1", la formula per trovare la varianza per una serie che ha un attributo alternativo si riduce alla Formula 4. Spiegazione. poiché abbiamo appena dedotto che la media campionaria è uguale a p (Formula 2), allora il valore della differenza al quadrato tra il valore (0/1) e il valore medio, secondo la Formula 1, sarà nel primo caso ( 1-p)2, e nel secondo caso (1-q)2, ora, applicando il corollario della prima formula: q = 1 - p, p = 1- q. Otteniamo p2 e q2. Di conseguenza, la proporzione dei valori “0” e “1” è uguale a p e q, risultando in q2 p e p2 q al numeratore. La somma delle quote delle caratteristiche dei valori “0” e “1” secondo la Formula 1 è uguale a 1. Di conseguenza, la Formula 4 assume il valore pq, che sarà uguale al valore della varianza di la caratteristica alternativa. In base al valore trovato della varianza dell'attributo alternativo, troviamo la deviazione standard (Formula 5). Inserendo il valore della Formula 1 nella Formula 5, otteniamo la formula per la deviazione standard della varianza di una serie con un attributo alternativo.


Superiore