Nosakiet empīriskās korelācijas attiecības piemēru. Korelācijas koeficients un determinācijas koeficients

Risinājums. Lai aprēķinātu grupu novirzes, mēs aprēķinām vidējos rādītājus katrai grupai:

gab.; gab.

Starpposma dispersiju aprēķini pa grupām ir parādīti tabulā. 3.2. Aizvietojot iegūtās vērtības formulā (3.4), mēs iegūstam:

Grupu novirzes vidējā vērtība

Pēc tam mēs aprēķinām dispersiju starp grupām. Lai to izdarītu, mēs vispirms definējam kopējo vidējo kā vidējo svērto grupu vidējo vērtību:

Tagad noteiksim starpgrupu dispersiju

Tādējādi kopējā dispersija saskaņā ar dispersiju pievienošanas noteikumu:

Pārbaudīsim rezultātu, kas iegūts, aprēķinot kopējo dispersiju parastajā veidā:

Pamatojoties uz dispersiju pievienošanas noteikumu, ir iespējams noteikt grupējuma (faktora) un iegūto raksturlielumu attiecības ciešuma rādītāju. To sauc par empīrisko korelācijas koeficientu, ko apzīmē (“eta”) un aprēķina, izmantojot formulu

Mūsu piemēram, empīriski korelācijas attiecības

.

Vērtība 0,86 raksturo būtisku saistību starp grupēšanu un veiktspējas raksturlielumiem.

Vērtību sauc par determinācijas koeficientu un parāda starpgrupu dispersijas daļu kopējā dispersijā.

Līdzās kvantitatīvo raksturlielumu izmaiņām var novērot arī kvalitatīvo raksturlielumu atšķirības. Šis variāciju pētījums, tāpat kā kvantitatīvo raksturlielumu proporcijas, tiek veikts, aprēķinot un analizējot šādus novirzes veidus.

Daļas dispersiju grupā nosaka pēc formulas

. (3.17)

Grupas iekšējo dispersiju vidējo vērtību aprēķina kā

. (3.18)

Starpgrupu dispersijas formula ir šāda:

, (3.19)

Kur n i– vienību skaits atsevišķās grupās;

– pētāmā raksturlieluma īpatsvars visā populācijā, ko nosaka pēc formulas

Kopējai dispersijai ir forma

. (3.21)

Trīs dispersiju veidi ir savstarpēji saistīti šādi:

. (3.22)

Piemērs 3.4

Noteiksim grupu dispersijas, grupas vidējo, starpgrupu un kopējās dispersijas pēc tabulas datiem. 3.3.

3.3. tabula

Skaits un īpatnējais svars viena no kategorijām
reģiona liellopu fermas



Risinājums

Noteiksim slaucamo govju īpatsvaru kopumā trim saimniecībām:

Kopējā slaucamo govju īpatsvara atšķirība:

Atšķirības grupas ietvaros:

; ; .

Vidējās atšķirības grupas ietvaros:

Starpgrupu dispersija:

Izmantojot dispersiju pievienošanas noteikumu, iegūstam: 0,1025+0,0031=0,1056. Piemērs ir pareizi atrisināts.

Piemērs 3.5

Saskaņā ar sabiedriskajā sektorā strādājošo darba samaksas izlases apsekojumu iegūti šādi rādītāji (3.4. tabula).

3.4. tabula

Definēt:

1) vidējās algas divās nozarēs;

2) algu dispersija:

a) grupu novirzes (nozare),

b) starpgrupu (starpnozaru),

3) determinācijas koeficients;

4) empīriskā korelācijas sakarība.

Risinājums

1. Vidēja algas strādnieku skaitu divās nozarēs aprēķina pēc formulas (2.10):

berzēt.

2. Algu dispersija:

a) grupu novirzes vidējā vērtība saskaņā ar (3.14.)

b) starpgrupu dispersija saskaņā ar (3.12.)

c) kopējā dispersija, kas iegūta, pamatojoties uz dispersiju saskaitīšanas noteikumu (3.15.):

3. Determinācijas koeficients ir vienāds ar vērtību

tie. jeb 44,24%.

Tas parāda, ka algas par 44,24% ir atkarīgas no darbinieku piederības nozarei un par 55,76% no nozares iekšējiem iemesliem.

Saskaņā ar formulu (3.16) empīriskā korelācijas sakarība ,

kas norāda uz būtisku nozares raksturlielumu ietekmi uz algu diferenciāciju.

3.2. UZDEVUMI NEATKARĪGAM RISINĀJUMAM

Problēma 3.1

Par 60 strādājošo sadalījumu pa tarifu kategorijām ir pieejami šādi dati (3.5. tabula).

3.5. tabula

Definēt:

1) strādnieku vidējās algas kategorija;

2) vidējā lineārā novirze;

3) dispersija;

4) standartnovirze;

5) variācijas koeficients.

Problēma 3.2

Pamatojoties uz vienas augstskolas 1. un 2. kursa eksāmenu sesijas rezultātiem, ir pieejami šādi dati: 1. kursā sesiju nesekmīgi nokārtoja 85% studentu, 2. kursā - 90%.

Noteikt katra kursa sesiju sekmīgi nokārtojušo studentu īpatsvara izkliedi.

Problēma 3.3

Reģiona akciju sabiedrības pēc vidējā darbinieku skaita uz 2004.gada 1.janvāri sadalījās šādi (3.6.tabula).

3.6. tabula

Aprēķināt:

1) vidējā lineārā novirze;

2) dispersija;

3) standartnovirze;

4) variācijas koeficients.

Problēma 3.4

Ir dati par uzņēmumu darbinieku ģimeņu sadalījumu pēc bērnu skaita (3.7. tabula).

3.7. tabula

Aprēķināt:

1) dispersijas grupas ietvaros;

2) grupas iekšējās novirzes vidējā vērtība;

3) starpgrupu dispersija;

4) kopējā dispersija.

Pārbaudiet aprēķinu pareizību, izmantojot dispersiju pievienošanas noteikumu.

Problēma 3.5

Eksportam paredzētās produkcijas pašizmaksas sadalījumu pa uzņēmuma cehiem atspoguļo šādi dati (3.8. tabula).

3.8. tabula

Aprēķināt:

1) eksporta produkcijas grupas iekšējo, starpgrupu un kopējo daļu vidējo;

2) determinācijas koeficients un empīriskās korelācijas koeficients.

Problēma 3.6

Saskaņā ar pilsētas komercbanku aptauju 70% no kopējā klientu skaita bija juridiskas personas ar vidējo kredīta apmēru 120 tūkstoši rubļu. un variācijas koeficients 25% un 20% – privātpersonām ar vidējo aizdevuma apmēru 20 tūkstoši rubļu. ar standarta novirzi 6 tūkstoši rubļu.

Izmantojot dispersiju pievienošanas noteikumus, nosakiet aizdevuma lieluma un klienta veida attiecības ciešumu, aprēķinot empīrisko korelācijas koeficientu.

4. sadaļa. Parauga novērošana

4.1. METODISKIE NORĀDĪJUMI
UN TIPISKO PROBLĒMU RISINĀJUMS

Izlases novērošanas mērķis ir noteikt vispārējās populācijas raksturlielumus - vispārējo vidējo (o) un vispārējo īpatsvaru ( r). Izlases kopas raksturlielumi - izlases vidējais () un izlases īpatsvars () atšķiras no vispārīgajiem raksturlielumiem ar izlases kļūdas lielumu (). Tāpēc, lai noteiktu vispārējās kopas raksturlielumus, ir jāaprēķina izlases kļūda jeb reprezentativitātes kļūda, ko nosaka, izmantojot varbūtības teorijā izstrādātas formulas katram izlases veidam un atlases metodei.

Faktiski nejauša un mehāniska paraugu ņemšana. Izmantojot izlases atkārtotu izlasi, maksimālā izlases kļūda vidējam () un īpatsvaram () tiek aprēķināta, izmantojot formulas

; (4.1)

(4.2)

kur ir izlases kopas dispersija;

n– izlases lielums;

t– ticamības koeficients, ko nosaka no Laplasa integrālās funkcijas vērtību tabulas pie noteiktas varbūtības ( P Dov.) (P1 tabula).

Ar neatkārtotu nejaušu un mehānisku atlasi maksimālā izlases kļūda tiek aprēķināta, izmantojot formulas

; (4.3)

, (4.4)

Kur N– kopējās populācijas lielums.

Piemērs 4.1

Lai noteiktu ogļu pelnu saturu atradnē, izlases veidā tika pārbaudīti 100 akmeņogļu paraugi. Aptaujas rezultātā tika konstatēts, ka vidējais pelnu saturs oglēs izlasē ir 16%, standartnovirze ir 5%. Desmit paraugos ogļu pelnu saturs bija vairāk nekā 20%. Ar varbūtību 0,954 noteikt robežas, kurās būs vidējais ogļu pelnu saturs atradnē un ogļu īpatsvars ar pelnu saturu virs 20%.

Risinājums

Vidējais pelnu saturs oglēs būs robežās

Lai noteiktu vispārējā vidējā robežas, mēs aprēķinām vidējo maksimālo izlases kļūdu, izmantojot formulu (4.1):

. (4.5)

Ar varbūtību 0,954 var apgalvot, ka ogļu vidējais pelnu saturs atradnē būs 16% 1% vai 15% 17% robežās.

Ogļu īpatsvars ar pelnu saturu vairāk nekā 20% būs robežās

Izlases daļu nosaka pēc formulas

Kur m– to vienību īpatsvars, kurām piemīt pazīme

Mēs aprēķinām daļas () izlases kļūdu, izmantojot formulu (4.2):

vai ±6%.

Ar varbūtību 0,954 var apgalvot, ka ogļu īpatsvars ar pelnu saturu vairāk nekā 20% atradnē būs robežās. , vai .

Piemērs 4.2

Lai noteiktu vidējo īstermiņa kredīta lietošanas periodu bankā, tika veikta 5% mehāniskā parauga, kurā bija iekļauti 100 konti. Aptaujas rezultātā tika noskaidrots, ka vidējais īstermiņa kredīta izmantošanas termiņš ir 30 dienas ar standartnovirzi 9 dienas. Piecos kontos aizdevuma termiņš pārsniedza 60 dienas. Ar varbūtību 0,954 nosakiet ierobežojumus, kuros atradīsies īstermiņa aizdevuma izmantošanas termiņš iedzīvotāju vidū un to kontu īpatsvars, kuru īstermiņa kredīta izmantošanas termiņš pārsniedz 60 dienas.

Risinājums

Vidējais termiņš bankas kredīta izmantošana ir limitos

.

Tā kā paraugu ņemšana ir mehāniska, izlases kļūdu nosaka pēc formulas (2.3):

diena.

Ar varbūtību 0,954 var apgalvot, ka īstermiņa kredīta izmantošanas termiņš bankā ir robežās = 30 dienas 2 dienas vai

28 dienas dienā.

Kredītu daļa ar izlietojuma termiņu virs 60 dienām ir robežās

Izlases daļa būs

Mēs nosakām daļas izlases kļūdu, izmantojot formulu (4.4):

jeb 4,2%.

Ar varbūtību 0,954 var apgalvot, ka kredītu īpatsvars bankā ar izlietojuma termiņu virs 60 dienām būs robežās vai

Tipisks paraugs. Ar tipisku (zonētu) atlasi vispārējā populācija tiek sadalīta viendabīgās tipiskās grupās, reģionos. Tiek veikta novērojumu vienību atlase izlases populācijā dažādas metodes. Apskatīsim tipisku paraugu ar proporcionālu atlasi tipiskās grupās.

Izlases lielumu no tipiskas grupas atlasē, kas ir proporcionāla tipisko grupu skaitam, nosaka pēc formulas

Kur n i– izlases lielums no tipiskas grupas;

N i– tipiskas grupas apjoms.

Izlases vidējā un proporcijas maksimālā kļūda ar neatkārtošanos nejauši un mehāniski atlase tipiskajās grupās tiek aprēķināta, izmantojot formulas

; (4.8)

, (4.9)

kur ir izlases kopas dispersija.

Piemērs 4.3

Lai noteiktu reģionā precēto vīriešu vidējo vecumu, tika ņemta 5% tipiskā izlase ar vienību atlasi proporcionāli tipisko grupu skaitam. Grupu ietvaros tika izmantota mehāniskā atlase. Dati ir apkopoti tabulā. 4.1.

4.1. tabula

Ar varbūtību 0,954 nosakiet robežas, kurās pusmūžs vīriešu, kuri precas, un to vīriešu īpatsvars, kuri precas otrreiz.

Risinājums

Vidējais vecums, kurā vīrieši apprecas, ir robežās

.

Vidējais vecums, kurā vīrieši apprecas izlases populācijā, tiek noteikts, izmantojot vidējo svērto formulu

= gadā.

Vidējo izlases dispersiju nosaka pēc formulas
vidēji

=

Mēs aprēķinām maksimālo izlases kļūdu, izmantojot formulu (4.8):

gadā.

Ar varbūtību 0,954 var apgalvot, ka vīriešu vidējais vecums laulībā būs gada robežās vai

24 gadus vecs.

To vīriešu īpatsvars, kuri apprecas otrreiz, būs robežās

Mēs nosakām izlases daļu, izmantojot vidējo formulu

jeb 14%.

Vidējā izlases dispersija alternatīva zīme aprēķināts, izmantojot formulu

(4.12)

Mēs nosakām daļas izlases kļūdu, izmantojot formulu (4.9):

vai 6%.

Ar varbūtību 0,954 var apgalvot, ka otrreiz apprecēto vīriešu īpatsvars būs robežās , vai .

Sērijveida paraugu ņemšana. Ar sērijveida atlases metodi vispārējā populācija tiek sadalīta vienāda lieluma grupās - sērijās. Sērijas tiek atlasītas izlases populācijā. Sērijas ietvaros tiek veikta nepārtraukta sērijā iekļauto vienību novērošana.

Atkārtoti izvēloties sērijas, izlases vidējās un proporcijas maksimālās kļūdas nosaka pēc formulas

, (4.13)

kur ir starpsēriju dispersija;

R– sēriju skaits vispārējā populācijā;

r– atlasīto sēriju skaits.

Piemērs 4.4

Rūpnīcas cehā strādā 10 strādnieku brigādes. Lai pētītu viņu darba ražīgumu, tika veikta 20% sērijveida izlase, kurā bija iekļautas 2 komandas. Aptaujas rezultātā tika noskaidrots, ka strādnieku vidējā izlaide brigādes bija 4,6 un 3 tonnas ar varbūtību 0,997, noteikt robežas, kurās būs ceha strādnieku vidējā izlaide. t, vai T.

Piemērs 4.5

Noliktavā gatavie izstrādājumi Darbnīcā ir 200 detaļu kastes, katrā kastē 40 gab. Lai pārbaudītu gatavā produkta kvalitāti, tika veikta 10% partijas paraugu ņemšana. Izlases rezultātā tika konstatēts, ka defektīvo detaļu īpatsvars ir 15%. Sērijveida parauga dispersija ir 0,0049.

Ar varbūtību 0,997 nosakiet robežas, kurās atrodas bojāto produktu īpatsvars kastīšu partijā.

Risinājums

Bojāto daļu īpatsvars būs robežās

Nosakīsim maksimālo daļu izlases kļūdu, izmantojot formulu (4.13):

jeb 4,4%.

Ar varbūtību 0,997 var apgalvot, ka bojāto detaļu īpatsvars partijā ir no 10,6% līdz 19,6%.

Piemērs 4.6

Reģionā, kas sastāv no 20 rajoniem, tika veikts izlases ražas apsekojums, pamatojoties uz sēriju (rajonu) atlasi. Izlases vidējie rādītāji reģioniem bija attiecīgi 14,5 c/ha; 16; 15,5; 15 un 14 c/ha. Ar varbūtību 0,954 atrodiet ienesīguma ierobežojumus visam reģionam.

Risinājums

Aprēķināsim kopējo vidējo:

c/ha.

Starpgrupu (starp sēriju) dispersija

Tagad noteiksim sērijveida neatkārtotas izlases maksimālo kļūdu (t = 2, Р dav = 0,954), izmantojot formulu (4.13):

.

Līdz ar to ienesīgums reģionā (ar varbūtību 0,954) būs robežās

15-1,7≤ ≤15+1,7,

13,3 c/ha≤ ≤16,7 c/ha.

Izlases novērošanas projektēšanas praksē rodas nepieciešamība atrast izlases lielumu, kas nepieciešams, lai nodrošinātu noteiktu precizitāti vispārīgo raksturlielumu - vidējā un proporcijas - aprēķināšanā. Šajā gadījumā jau iepriekš ir zināma maksimālā izlases kļūda, tās rašanās varbūtība un raksturlieluma variācijas.

Izmantojot izlases atkārtotu izlasi, izlases lielumu nosaka pēc izteiksmes

Nejaušas neatkārtotas un mehāniskas izlases gadījumā izlases lielumu aprēķina, izmantojot formulu

. (4.16)

Tipiskam paraugam

. (4.17)

Sērijveida paraugu ņemšanai

. (4.18)

Piemērs 4.7

Apkārtnē dzīvo 2000 ģimeņu. Viņu izlases aptauju plānots veikt, izmantojot nejaušas, neatkārtojas atlases metodi, lai noskaidrotu vidējo ģimenes lielumu. Nosakiet nepieciešamo izlases lielumu ar nosacījumu, ka ar varbūtību 0,954 izlases kļūda nepārsniegs vienu personu ar standarta novirzi trīs cilvēki (=3).

Risinājums

Ar neatkārtotu nejaušu izlasi izlases lielums saskaņā ar formulu (4.16.) būs ģimenes

Izlases lielums: vismaz 36 ģimenes.

Piemērs 4.8

Pilsētā A ir 10 000 ģimeņu. Izmantojot mehānisko izlasi, paredzēts noteikt to ģimeņu īpatsvaru, kurās ir trīs un vairāk bērni. Kādam jābūt izlases lielumam, lai ar varbūtību 0,954 izlases kļūda nepārsniegtu 0,02, ja, pamatojoties uz iepriekšējiem apsekojumiem, ir zināms, ka dispersija ir 0,2?

Risinājums

Noteiksim nepieciešamo izlases lielumu, izmantojot formulu (4.16):

.

Parauga lielums: ne mazāks par 1667.

Statistikā bieži ir jāsalīdzina divu (vai vairāku) paraugu rezultāti. Balstoties uz divu izlases vidējo (vai proporciju) salīdzinājumu, tiek izdarīts secinājums par to nesakritības nejaušību vai nozīmīgumu.

Lai to izdarītu, absolūtā starpība starp parauga vidējo vērtību tiek salīdzināta ar starpības vidējo kļūdu:

. (4.19)

Atrasts t aprēķins salīdzinot ar t tabula Autors t– Studentu sadalījums (A2 tabula) brīvības pakāpju skaitam v=n 1 +n 2 -2 un dotais nozīmīguma līmenis a. (Šeit n 1 un n 2 – salīdzināto paraugu apjomi).

ATBILDE

Savienojuma blīvuma kvantitatīvais novērtējums, pamatojoties uz empīriskiem datiem, sastāv no savienojuma ciešuma rādītāju aprēķināšanas:

· Empīriskais determinācijas koeficients (empīriskā dispersijas attiecība) - r 2 .

Šis rādītājs tiek aprēķināts saskaņā ar analītiskās grupēšanas datiem (tabula) kā rezultāta pazīmes Y (d y 2) starpgrupu dispersijas attiecība pret kopējo dispersiju Y (s y 2):

Saskaņā ar dispersijas dekompozīcijas teorēmu starpgrupu dispersija ir saistīta ar kopējo dispersiju: ​​s y 2 =d y 2 +e y 2 . Tad empīriskais koeficients noteikšanu var aprēķināt, izmantojot atlikušo dispersiju, izmantojot formulu:

kur s j 2 ir iznākuma pazīmes Y dispersija j-tajā grupā.

Empīriskais determinācijas koeficients raksturo grupēšanas raksturlieluma (X) ietekmes stiprumu uz rezultējošā raksturlieluma Y vispārējās variācijas veidošanos un parāda rezultējošā raksturlieluma variācijas procentuālo daļu (dalību), ko izraisa veidojošais faktora atribūts. grupēšanas pamats.

R2 ir ērti aprēķināt tabulā:

Zīmes faktors X j N j Rezultāta raksturlieluma vidējā vērtība s j 2 N j
X 1 N 1 s 1 2 N 1
X 2 N 2 s 2 2 N 2
.... ...
Xm Nm s m 2 N m
Kopā N X ås j 2

Tad .

Apskatīsim piemēru. Ļaujiet dot 20 strādnieku kopu, ko raksturo šādi raksturlielumi: Y - strādnieku izlaide (gab./maiņa) un X - kvalifikācija (pakāpe). Sākotnējie dati ir parādīti tabulā:

X
Y

Ir nepieciešams novērtēt raksturlielumu attiecības ciešumu, izmantojot empīrisko determinācijas koeficientu (r 2).

Lai aprēķinātu r 2, mēs veiksim populācijas analītisko grupēšanu. Ņemsim X (darba ņēmēja atzīmi) kā faktora atribūtu un Y darba ņēmēja izlaidi kā rezultāta atribūtu). Analītiskā grupēšana tiek veikta saskaņā ar X. B šajā gadījumā tas būs diskrēts (jo atribūta X vērtības tiek atkārtotas diezgan bieži). Grupu skaits ir vienāds ar atribūta X vērtību skaitu apkopojumā, t.i. 6. Grupēšanas un r 2 aprēķināšanas rezultātus apkopojam tabulā:

Zīmes faktors X Rezultāta atribūts Y Vienību skaits grupā, N j rezultāta pazīmes vidējā vērtība grupā, ( - ) 2 ·N j Iznākuma pazīmes dispersija grupā, s 2 j s 2 j N j
(10+12+13)/3=11,7 (11,7-17,1) 2 3=88,56 s 2 1 =((10-11,7) 2 +(12-11,7) 2 +(13-11,7) 2)/3 = 1,56 4,7
(11+14)/2=12,5 (12,5-17,1) 2 2=42,3 s 2 2 =((11-12,5) 2 +(14-12,5) 2)/2=2,25 4,5
(12+13+15+16)/4= 14 (14-17,1) 2 4=38,4 s 2 3 =((12-14) 2 +(13-14) 2 +(15-14) 2 +(16-14) 2)/4 = 2,5
(15+17+17+18)/4= 16,75 (16,75-17,1) 2 4=0,49 s 2 4 =((15-16,75) 2 +(17-16,75) 2 ++(17-16,75) 2 +(18-16,75) 2)/4=1,9 4,75
(18+20+22)/3=20 (20-17,1) 2 3=25,23 s 2 5 =((18-20) 2 +(20-20) 2 +(22-20) 2)/3 = 2,7
(23+24+27+25)/4= 24,75 (24,75-17,1) 2 4=234,1 s 2 6 =((23-24,75) 2 +(24-24,75) 2 +(27-24,75) 2 +(25-24,75) 2)/4=2,19 8,75
=17,1 429,1 40,7

Empīriskais determinācijas koeficients ir vienāds ar iznākuma pazīmes (d y 2) starpgrupu dispersijas attiecību pret iznākuma pazīmes kopējo dispersiju (s y 2): r 2 = d y 2 /s y 2 = d y 2 /(d y 2) +e y 2).

Starpgrupu dispersija Y būs vienāda ar: d y 2 = å( - ) 2 ·N j / N = 429,1/20=21,45.

Atlikusī dispersija Y būs vienāda ar: e y 2 = ås 2 j ·N j / N= 40,7/20= 2,035.

Tad: r 2 =21,45/(21,45+2,035)= 429,1/(429,1+40,7)=0,913.

Secinājums: 91,3% no strādnieku izlaides izmaiņām ir saistītas ar izlādes faktora ietekmi.

· Empīriskās korelācijas attiecības - r.

Šis rādītājs ir empīriskā determinācijas koeficienta sakne. Tas parāda ciešo saikni (ne tikai lineāru!) starp grupēšanas un ražošanas īpašībām. Empīriskās korelācijas koeficienta pieņemamo vērtību diapazons ir no 0 līdz +1.

Maksimums ciešs savienojums– tā ir funkcionāla sakarība, kad katru rezultāta-atribūta Y vērtību unikāli nosaka faktora-atribūta X vērtība (t.i., grupēšanas rezultāts). Šajā gadījumā grupas vidējo dispersija (d y 2) ir vienāda ar kopējo dispersiju (s y 2), t.i. nebūs atšķirības grupas ietvaros. Šajā gadījumā atlikušā dispersija (e y 2) ir vienāda ar 0, un empīriskais determinācijas koeficients ir vienāds ar 1.

Ja starp pazīmēm nav saiknes, tad visi grupu vidējie ir vienādi viens ar otru, starpgrupu variācijas nebūs (d y 2 = 0), un empīriskais determinācijas koeficients ir 0.

Aprēķināsim mūsu piemēra empīriskās korelācijas koeficientu: r= 0,9555. Secinājums: “strādnieka produkcijas” un “atlaišanas” pazīmes ir cieši saistītas.

Rādītājus r un r 2 nosaka ne tikai saikne starp pazīmēm X un Y, bet arī primāro datu grupēšanas fakts. Palielinoties grupu skaitam m, starpgrupu dispersija d 2 pieaug un tuvojas kopējai dispersijai. Ja grupu skaits ir mazāks par populācijas vienību skaitu N, tad r un r 2 vērtības nekad nebūs vienādas ar 1 pat ar stingru funkcionālu savienojumu.

Ņemiet vērā, ka pašas saiknes ciešuma indikatora vērtība nav pierādījums par cēloņsakarības esamību starp pētītajiem raksturlielumiem, bet gan ir novērtējums par raksturlielumu izmaiņu savstarpējās konsekvences pakāpi. Pirms cēloņu un seku attiecību noteikšanas noteikti ir jāveic parādību kvalitatīvā rakstura analīze.

Vērtība 0,86 raksturo būtisku saistību starp grupēšanu un veiktspējas raksturlielumiem.

Lielums sauca determinācijas koeficients un parāda starpgrupu dispersijas daļu kopējā dispersijā.

Līdzās kvantitatīvo raksturlielumu izmaiņām var novērot arī kvalitatīvo raksturlielumu atšķirības. Šis variāciju pētījums, tāpat kā kvantitatīvo raksturlielumu proporcijas, tiek veikts, aprēķinot un analizējot šādus novirzes veidus.

Grupas daļas dispersija nosaka pēc formulas

. (3.17)

Grupas iekšējo dispersiju vidējo vērtību aprēķina kā

. (3.18)

Formula starpgrupu dispersija ir šāda forma:

, (3.19)

Kur n i– vienību skaits atsevišķās grupās;

– pētāmā raksturlieluma īpatsvars visā populācijā, ko nosaka pēc formulas

. (3.20)

Kopējā dispersija izskatās

. (3.21)

Trīs dispersiju veidi ir savstarpēji saistīti šādi:

. (3.22)

Piemērs 3.4

Noteiksim grupu dispersijas, grupas vidējo, starpgrupu un kopējās dispersijas pēc tabulas datiem. 3.3.

3.3. tabula

Vienas kategorijas liellopu skaits un īpatsvars saimniecībās reģionā

Risinājums

Noteiksim slaucamo govju īpatsvaru kopumā trim saimniecībām:

;

Kopējā slaucamo govju īpatsvara atšķirība:

Atšķirības grupas ietvaros:

; ;
.

Vidējās atšķirības grupas ietvaros:

Starpgrupu dispersija:

Izmantojot dispersiju pievienošanas noteikumu, iegūstam: 0,1025+0,0031=0,1056. Piemērs ir pareizi atrisināts.

Piemērs 3.5

Saskaņā ar valsts sektorā strādājošo darba samaksas izlases apsekojumu iegūti šādi rādītāji (3.4. tabula).

3.4. tabula

Definēt:

    vidējās algas divās nozarēs;

    algu dispersija:

a) grupu novirzes (nozare) vidējā vērtība,

b) starpgrupu (starpnozaru),

    determinācijas koeficients;

    empīriskās korelācijas attiecības.

Risinājums

    Divu nozaru strādnieku vidējo algu aprēķina pēc formulas (2.10):

berzēt.

    Algu atšķirības:

a) grupu novirzes vidējā vērtība saskaņā ar (3.14.)

b) starpgrupu dispersija saskaņā ar (3.12.)

.

c) kopējā dispersija, kas iegūta, pamatojoties uz dispersiju saskaitīšanas noteikumu (3.15.):

    Determinācijas koeficients ir vienāds ar vērtību

; (3.23)

tie.
jeb 44,24%.

Tas parāda, ka algas par 44,24% ir atkarīgas no darbinieku piederības nozarei un par 55,76% no nozares iekšējiem iemesliem.

Saskaņā ar formulu (3.16) empīriskā korelācijas sakarība
,

kas norāda uz būtisku nozares raksturlielumu ietekmi uz algu diferenciāciju.

Empīriskās korelācijas attiecības

Savienojuma blīvuma mērīšanai tiek izmantoti vairāki indikatori. Pāru savienojumā savienojuma blīvumu galvenokārt nosaka korelācijas koeficients, ko apzīmē ar η. Kvadrātveida korelācijas koeficients ir efektīvā raksturlieluma starpgrupu dispersijas attiecība, kas izsaka grupēšanas faktora raksturlieluma atšķirību ietekmi uz efektīvā raksturlieluma vidējo vērtību pret kopējo efektīvā raksturlieluma dispersiju, izsakot visu cēloņi un nosacījumi par to. Korelācijas attiecības kvadrātu sauc par determinācijas koeficientu.

om parādības un to pazīmes: ____________________ vai stingri deterministiski

kur k ir grupu skaits

N – novērojumu skaits

y i – iegūtā raksturlieluma sākotnējās vērtības

y j – šīs grupas efektīvā raksturlieluma vidējās vērtības

y – raksturlieluma vidējā vērtība

f j – grupas lielums

Iepriekš minētā formula tiek izmantota, aprēķinot savienojuma tuvuma indikatoru analītiskajai grupai. Aprēķinot korelācijas koeficientu pēc savienojuma līmeņa, tiek izmantota formula:

Kvadrātu summa skaitītājā ir iegūtā raksturlieluma y dispersija, kas izskaidrota ar saistību ar faktoru x (faktori). To aprēķina no atsevišķiem datiem, kas iegūti katrai populācijas vienībai, pamatojoties uz regresijas vienādojumu.

Ja vienādojums ir izvēlēts nepareizi vai tiek pieļauta kļūda, aprēķinot tā parametrus, tad kvadrātu summa skaitītājā var izrādīties lielāka nekā saucējā, un attiecība zaudēs nozīmi, kādai tai vajadzētu būt. Lai izvairītos no kļūdaina rezultāta, labāk ir aprēķināt korelācijas koeficientu, izmantojot šādu formulu:

Šīs formulas pamatā ir labi zināms noviržu kvadrātu summu sadalīšanas noteikums, grupējot populāciju:

D vispār= D intergr+D intragr

Saskaņā ar šo noteikumu starpgrupu (faktoriālās) dispersijas vietā varat izmantot atšķirību:

D vispār-D intragr

kas dod:

Aprēķinot η nevis pēc grupēšanas, bet pēc korelācijas vienādojuma (regresijas vienādojuma), izmantojam formulu. Šajā gadījumā noteikums iegūtā raksturlieluma noviržu kvadrātu summas sadalīšanai ir rakstīts kā

D kopā = D kodols + D atpūta

Vissvarīgākais, kas tagad būtu jāsaprot ikvienam, kurš vēlas pareizi pielietot korelācijas-regresijas analīzes metodi, ir (1.2) un (1.3) formulu interpretācija. Šis noteikums skan:

Korelācijas vienādojums mēra saistību starp rezultējošā atribūta variāciju un faktora atribūta(-u) variāciju. Savienojuma ciešuma mēri mēra rezultējošā raksturlieluma izmaiņu proporciju, kas ir saistīta ar faktora raksturlieluma(-u) izmaiņām.

| nākamā lekcija ==>

Empīriskā korelācijas attiecība mēra, cik lielu daļu no iegūtā atribūta kopējās mainīguma izraisa pētāmais faktors. Empīriskās korelācijas vidējais svārstās no 0 līdz 1.

Empīriskās korelācijas attiecības parasti atrodamas sekojošiem veidiem uzdevumi:

  • 1) ja nepieciešams veikt analītisko grupēšanu, pamatojoties uz divām datu sērijām X un Y
  • 2) grupēšana jau ir veikta, nepieciešams pārbaudīt dispersiju pievienošanas noteikumu
  • 3) izmantojot divas datu sērijas X un Y, jāatrod regresijas vienādojums un jānovērtē tā nozīme

Alternatīvā pazīmju dispersijas formula

Pamatojoties uz iepriekš minēto, mēs varam iegūt formulu alternatīva raksturlieluma dispersijas atrašanai, ja mēs zinām, cik procentuālais rādītājs ir kopējā izlasē.

Sākotnēji mēs pieņemam, ka atribūtam ir tikai divas vērtības.

Tādējādi to elementu proporcijas summa, kurā statistikas rindas elementiem ir atribūta “nē” vērtība un rindas elementiem, kuriem ir atribūta “jā” vērtība, ir vienāda ar vienu.

Lai atrastu sērijas vidējo vērtību, statistiskās rindas vidējās svērtās vērtības noteikšanas formulā aizstājam alternatīvo raksturlielumu vērtības (0 un 1). No kurienes ir pilnīgi skaidrs, ka saucējam būs viens, bet skaitītājā elementu procentuālā vērtība “1”. Tas ir, tieši to elementu procentuālā vērtība ar zīmi “1”. (Formula 2)

Izkliedes formula ir katras datu sērijas vērtības kvadrātveida noviržu vidējais svērtais lielums. (Formula 3)

Tā kā mūsu sērijās datiem ir tikai divu veidu vērtības - "0" un "1", formula dispersijas atrašanai sērijai, kurai ir alternatīvs atribūts, tiek samazināta līdz 4. formulai. Paskaidrojums. tā kā tikko secinājām, ka izlases vidējais ir vienāds ar p (Formula 2), tad vērtības (0/1) un vidējās vērtības starpības kvadrātā vērtība saskaņā ar 1. formulu būs pirmajā gadījumā ( 1-p)2 un otrajā gadījumā (1-q)2, tagad, piemērojot pirmās formulas secinājumu: q = 1 - p, p = 1- q. Mēs iegūstam p2 un q2. Attiecīgi vērtību “0” un “1” proporcija ir vienāda ar p un q, kā rezultātā skaitītājā ir q2 p un p2 q. Vērtību “0” un “1” pazīmju daļu summa saskaņā ar 1. formulu ir vienāda ar 1. Rezultātā 4. formula iegūst vērtību pq, kas būs vienāda ar dispersijas vērtību alternatīvā funkcija. Pamatojoties uz atrasto alternatīvā atribūta dispersijas vērtību, mēs atrodam standartnovirzi (5. formula). Ievietojot 1. formulas vērtību formulā 5, mēs iegūstam virknes ar alternatīvu atribūtu dispersijas standartnovirzes formulu.


Augšā