Определете примера за емпирично съотношение на корелация. Коефициент на корелация и коефициент на детерминация

Решение. За да изчислим груповите дисперсии, изчисляваме средните стойности за всяка група:

НАСТОЛЕН КОМПЮТЪР.; НАСТОЛЕН КОМПЮТЪР.

Междинните изчисления на дисперсии по групи са представени в табл. 3.2. Замествайки получените стойности във формула (3.4), получаваме:

Средна стойност на груповите дисперсии

След това изчисляваме междугруповата дисперсия. За да направим това, първо дефинираме общата средна стойност като среднопретеглената средна стойност на групата:

Сега дефинираме междугруповата дисперсия

Така общата дисперсия според правилото за добавяне на дисперсии:

Нека проверим резултата, като изчислим общата дисперсия по обичайния начин:

Въз основа на правилото за добавяне на дисперсии е възможно да се определи показателят за близостта на връзката между груповите (факториалните) и ефективните характеристики. Нарича се емпирично съотношение на корелация, означава се ("това") и се изчислява по формулата

За нашия пример, емпиричният корелационна връзка

.

Стойността от 0,86 характеризира значителна връзка между групирането и характеристиките на ефективността.

Стойността се нарича коефициент на детерминация и показва дела на междугруповата вариация в общата вариация.

Наред с изменението на количествените признаци може да се наблюдава и изменение на качествените признаци. Такова изследване на вариациите се постига, както за пропорциите на количествените признаци, чрез изчисляване и анализиране на следните видове вариации.

Вътрешногруповата вариация на дела се определя по формулата

. (3.17)

Средната стойност на дисперсиите в рамките на групата се изчислява като

. (3.18)

Формулата за междугруповата дисперсия е следната:

, (3.19)

Където n i– брой единици в отделни групи;

- делът на изследвания признак в цялата популация, който се определя по формулата

Общата дисперсия има формата

. (3.21)

Трите вида дисперсии са свързани помежду си, както следва:

. (3.22)

Пример 3.4

Нека дефинираме груповите дисперсии, средната стойност на груповите, междугруповите и общите дисперсии според данните в табл. 3.3.

Таблица 3.3

Номер и специфично теглоедна от категориите
район на говедовъдни ферми



Решение

Нека определим общия дял на млечните крави за три ферми:

Общо отклонение в дела на млечните крави:

Вътрешногрупови отклонения:

; ; .

Средна стойност на вариациите в рамките на групата:

Междугрупова вариация:

Използвайки правилото за добавяне на дисперсии, получаваме: 0,1025+0,0031=0,1056. Примерът е правилен.

Пример 3.5

Въз основа на данните от извадковото изследване на заплатите на наетите в обществения сектор са получени следните показатели (Таблица 3.4).

Таблица 3.4

Определете:

1) средна работна заплата в две отрасли;

2) дисперсия на заплатите:

а) средната стойност на груповите дисперсии (отрасъл),

б) междугрупови (междусекторни),

3) коефициент на детерминация;

4) емпирична корелация.

Решение

1. Среден заплатаслужители в две индустрии се изчислява по формулата (2.10):

търкайте.

2. Разлики в заплатите:

а) средната стойност на груповите дисперсии съгласно (3.14)

б) междугрупова дисперсия съгласно (3.12)

в) общата дисперсия, получена въз основа на правилото за добавяне на дисперсии (3.15):

3. Коефициентът на детерминация е равен на стойността

тези. , или 44,24%.

От него се вижда, че възнаграждението с 44,24% зависи от отрасловата принадлежност на служителите и с 55,76% - от вътрешноотраслови причини.

Съгласно формула (3.16), емпиричното съотношение на корелация ,

което показва значително влияние върху диференциацията на заплатите на отрасловите характеристики.

3.2. ЗАДАЧИ ЗА САМОСТОЯТЕЛНО РЕШАВАНЕ

Задача 3.1

Според разпределението на 60 работници по тарифен разряд са налични следните данни (Таблица 3.5).

Таблица 3.5

Определете:

1) категорията на средната заплата на работниците;

2) средно линейно отклонение;

3) дисперсия;

4) стандартно отклонение;

5) коефициент на вариация.

Задача 3.2

Според резултатите от изпитната сесия на 1-ви и 2-ри курс на един от университетите са налични следните данни: през 1-ва година 85% от студентите са издържали сесията без двойки, през 2-ра година - 90%.

Определете за всеки курс дисперсията на дела на студентите, преминали успешно сесията.

Задача 3.3

Акционерните дружества от региона според средносписъчния брой на заетите лица към 1 януари 2004 г. са разпределени, както следва (Таблица 3.6).

Таблица 3.6

Изчисли:

1) средно линейно отклонение;

2) дисперсия;

3) стандартно отклонение;

4) коефициент на вариация.

Задача 3.4

Има данни за разпределението на семействата на служителите на предприятието по брой деца (Таблица 3.7).

Таблица 3.7

Изчисли:

1) вътрешногрупова дисперсия;

2) средната стойност на вътрешногруповите дисперсии;

3) междугрупова дисперсия;

4) обща дисперсия.

Проверете правилността на изчисленията, като използвате правилото за добавяне на отклонения.

Задача 3.5

Разпределението на себестойността на продуктите, предназначени за износ, по цеховете на предприятието е представено от следните данни (Таблица 3.8).

Таблица 3.8

Изчисли:

1) средната стойност на вътрешногруповите, междугруповите и общите дялове на експортните продукти;

2) коефициент на детерминация и емпирична корелация.

Задача 3.6

Според проучване на търговските банки в града 70% от общия брой клиенти са юридически лица със среден заем от 120 хиляди рубли. и коефициент на вариация от 25%, и 20% - лицасъс среден размер на заема от 20 хиляди рубли. със средно квадратно отклонение от 6 хиляди рубли.

Използвайки правилата за добавяне на отклонения, определете близостта на връзката между размера на кредита и вида на клиента, като изчислите емпиричното съотношение на корелация.

Раздел 4. Селективно наблюдение

4.1. МЕТОДИЧЕСКИ УКАЗАНИЯ
И РЕШЕНИЕ НА ТИПОВИ ЗАДАЧИ

Целта на извадковото наблюдение е да се определят характеристиките на генералната съвкупност - обща средна стойност ( o) и общ дял ( Р). Характеристиките на извадковата съвкупност - средната извадка () и извадковият дял () се различават от общите характеристики по размера на извадковата грешка (). Следователно, за да се определят характеристиките на генералната съвкупност, е необходимо да се изчисли грешката на извадката или грешката на представителността, която се определя по формули, разработени в теорията на вероятностите за всеки тип извадка и метод за подбор.

Правилно произволно и механично вземане на проби.В случай на повторна случайна извадка, пределната извадкова грешка за средната () и за пропорцията () се изчислява по формулите

; (4.1)

(4.2)

където е дисперсията на извадката;

н– размер на извадката;

Tе коефициентът на доверие, който се определя от таблицата със стойности на интегралната функция на Лаплас за дадена вероятност ( P дос.) (Таблица A1).

При неповтарящ се случаен и механичен подбор пределната грешка на извадката се изчислява по формулите

; (4.3)

, (4.4)

Където н- размерът на генералната съвкупност.

Пример 4.1

За определяне на пепелното съдържание на въглищата в находището са изследвани на случаен принцип 100 проби от въглища. В резултат на проучването е установено, че средното пепелно съдържание на въглищата в пробата е 16%, стандартното отклонение е 5%. В десет проби пепелното съдържание на въглищата е над 20%. С вероятност от 0,954 определете границите, в които ще бъде средното съдържание на пепел на въглищата в находището и делът на въглищата със съдържание на пепел над 20%.

Решение

Средното пепелно съдържание на въглищата ще бъде в рамките

За да определим границите на общата средна стойност, изчисляваме пределната извадкова грешка за средната стойност, използвайки формула (4.1):

. (4.5)

С вероятност от 0,954 може да се твърди, че средното пепелно съдържание на въглищата в находището ще бъде в рамките на 16% 1%, или 15% 17%.

Делът на въглищата с пепелно съдържание над 20% ще бъде в рамките

Извадковият дял се определя по формулата

Където ме делът на единиците с признака

Грешката на извадката за дела () се изчислява по формулата (4.2):

или ±6%.

С вероятност от 0,954 може да се твърди, че делът на въглищата със съдържание на пепел над 20% в находището ще бъде в рамките на , или .

Пример 4.2

За определяне на средния срок на ползване на краткосрочен кредит в банка е направена 5% механична извадка, която включва 100 сметки. В резултат на проучването е установено, че средният срок за ползване на краткосрочен кредит е 30 дни със стандартно отклонение от 9 дни. При пет сметки срокът на ползване на заема е над 60 дни. С вероятност от 0,954 определете границите, в които ще бъде срокът на използване на краткосрочен заем в общата съвкупност и делът на сметките със срок на използване на краткосрочен заем над 60 дни.

Решение

Среден срокползване на банков кредит е в рамките

.

Тъй като вземането на проби е механично, грешката на пробите се определя по формулата (2.3):

ден.

С вероятност от 0,954 може да се твърди, че срокът за ползване на краткосрочен заем в банка е в рамките на = 30 дни 2 дни, или

28 дни на ден.

В рамките е делът на кредитите със срок над 60 дни

Примерният дял ще бъде

Извадковата грешка за дела се определя по формулата (4.4):

или 4,2%.

С вероятност от 0,954 може да се твърди, че делът на банковите кредити с падеж над 60 дни ще бъде в рамките на или

Типична проба.При типична (зонална) селекция общата популация се разделя на хомогенни типични групи, райони. Извършва се подбор на единици за наблюдение в извадката различни методи. Помислете за типична извадка с пропорционален подбор в типични групи.

Размерът на извадката от типична група в селекцията, пропорционален на броя на типичните групи, се определя по формулата

Където n iе размерът на извадката от типична група;

N iе обемът на типична група.

Пределната грешка на средната стойност на извадката и пропорцията за неповтарящи се произволни и механичен начинселекцията в типичните групи се изчислява по формулите

; (4.8)

, (4.9)

където е дисперсията на извадката от съвкупността.

Пример 4.3

За определяне на средната възраст на мъжете, които встъпват в брак, в областта е направена 5% типична извадка с подбор на единици пропорционално на размера на типичните групи. В рамките на групите е използван механичен подбор. Данните са обобщени в табл. 4.1.

Таблица 4.1

С вероятност от 0,954 определете границите, в които средна възрастмъжете, които се женят, и делът на мъжете, които се женят втори път.

Решение

Средната брачна възраст за мъжете е в рамките на

.

Средната брачна възраст на мъжете от извадката се определя по формулата на среднопретеглената стойност

= на годината.

Средната дисперсия на извадката се определя по формулата
средата

=

Изчисляваме пределната извадкова грешка по формулата (4.8):

на годината.

С вероятност от 0,954 може да се твърди, че средната възраст на мъжете, които встъпват в брак, ще бъде в рамките на годината от годината, или

24 години.

Делът на мъжете, които се женят повторно, ще бъде в рамките на

Извадковият дял се определя по формулата на средната стойност

или 14%.

Средна дисперсия на извадката алтернативна функцияизчислете по формулата

(4.12)

Извадковата грешка за дела се определя по формулата (4.9):

или 6%.

С вероятност от 0,954 може да се твърди, че делът на мъжете, които се женят втори път, ще бъде в рамките на , или .

серийно вземане на проби.При серийния метод на подбор генералната съвкупност се разделя на групи с еднакъв размер - серии. Сериите са избрани в примерния набор. В рамките на серията се извършва непрекъснато наблюдение на единиците, попаднали в серията.

В случай на неповтаряща се селекция от серии, пределните грешки на средната стойност на извадката и пропорцията се определят по формулата

, (4.13)

където е междусерийната дисперсия;

Ре броят на сериите в генералната съвкупност;

r– брой избрани серии.

Пример 4.4

В цеха на предприятието работят 10 екипа работници. За изследване на тяхната производителност на труда е проведена 20% серийна извадка, която включва 2 бригади. В резултат на проучването се установи, че средната производителност на работниците в екипите е 4,6 и 3 т. С вероятност 0,997 определете границите, в които ще бъде средната производителност на цеховите работници. t, или T.

Пример 4.5

В наличност Завършени продуктиРаботилницата съдържа 200 кутии с части, по 40 броя във всяка кутия. За проверка на качеството на готовия продукт е направена 10% серийна проба. В резултат на пробовземането е установено, че делът на дефектните части е 15%. Дисперсията на серийната проба е 0,0049.

С вероятност от 0,997 определете границите, в които се намира делът на дефектните продукти в партида от кутии.

Решение

Делът на дефектните части ще бъде в рамките

Нека определим пределната извадкова грешка за дела по формула (4.13):

или 4,4%.

С вероятност от 0,997 може да се твърди, че делът на дефектните части в партидата е в диапазона от 10,6% 19,6%.

Пример 4.6

В област, състояща се от 20 области, беше проведено извадково изследване на добива въз основа на подбора на серии (райони). Извадковите средни стойности за областите са съответно 14,5 ц/ха; 16; 15,5; 15 и 14 q/ha. С вероятност от 0,954 намерете границите на добива в цялата област.

Решение

Изчислете общата средна стойност:

ц/ха.

Междугрупова (междусерийна) дисперсия

Нека сега определим пределната грешка на сериен неповтарящ се образец (t = 2, P dov = 0,954), използвайки формула (4.13):

.

Следователно доходността в региона (с вероятност от 0,954) ще бъде в рамките на

15-1,7≤ ≤15+1,7,

13,3 c/ha ≤ ≤16,7 c/ha.

В практиката на проектиране на извадково наблюдение е необходимо да се намери размерът на извадката, който е необходим, за да се осигури определена точност при изчисляването на общите характеристики - средната стойност и пропорцията. В този случай пределната грешка на извадката, вероятността за нейното възникване и вариацията на характеристиката са известни предварително.

При случайно повторно вземане на проби размерът на извадката се определя от израза

При случаен неповтарящ се и механичен подбор размерът на извадката се изчислява по формулата

. (4.16)

За типична проба

. (4.17)

За серийно вземане на проби

. (4.18)

Пример 4.7

В областта живеят 2000 семейства. Предвижда се да се проведе извадково изследване на тях по метода на случаен еднократен подбор за определяне на средния размер на семейството. Определете необходимия размер на извадката, при условие че с вероятност от 0,954 грешката на извадката не надвишава едно лице със стандартно отклонение от трима души ( = 3).

Решение

При неповтарящ се случаен подбор размерът на извадката по формулата (4.16) ще бъде семейства.

Размер на извадката: най-малко 36 семейства.

Пример 4.8

Град А има 10 000 семейства. С помощта на механично вземане на проби се предвижда да се определи делът на семействата с три или повече деца. Какъв трябва да бъде размерът на извадката, така че да има вероятност от 0,954 грешката на извадката да не надвишава 0,02, ако е известно, че дисперсията е 0,2 от предишни проучвания?

Решение

Нека определим необходимия размер на извадката по формулата (4.16):

.

Размер на извадката: не по-малко от 1667.

В статистиката често е необходимо да се сравнят резултатите от две (или повече) проби. Въз основа на сравнение на две извадкови средни (или дялове) се прави заключение за случайността или значимостта на тяхното несъответствие.

За това абсолютната разлика между показателите на средните извадки се сравнява със средната грешка на разликата:

. (4.19)

Намерени Tкалк. в сравнение с Tраздел. от T- Разпределение на Стюдънт (Таблица P2) за броя на степените на свобода v=н 1 +н 2 -2 и дадено ниво на значимост a. (Тук н 1 и н 2 – обеми на сравнявани проби).

ОТГОВОР

Количествената оценка на близостта на комуникацията според емпиричните данни се състои в изчисляване на показателите за близост на комуникацията:

· Емпиричен коефициент на детерминация (емпиричен коефициент на дисперсия) - r 2 .

Този показател се изчислява според данните на аналитичната групировка (таблица), като отношение на междугруповата дисперсия на резултатния признак Y (d y 2) към общата дисперсия Y (s y 2):

Съгласно теоремата за разлагане на дисперсията междугруповата дисперсия е свързана с общата дисперсия: s y 2 =d y 2 +e y 2 . Тогава емпиричен коефициентопределянето може да се изчисли чрез остатъчната дисперсия по формулата:

където s j 2 е дисперсията на резултата Y в рамките на j-тата група.

Емпиричният коефициент на определяне характеризира силата на влиянието на групиращия признак (X) върху формирането на общата вариация на резултантния атрибут Y и показва процента (дяла) на вариацията на резултатния атрибут, дължащ се на фактора на атрибута, лежащ в основата групирането.

Удобно е да се изчисли r 2 в таблицата:

Знак-фактор X j Nj Средна стойност на признака-резултат s j 2 N j
x1 N 1 s 1 2 N 1
x2 N 2 s 2 2 N 2
.... ...
Xm N m s m 2 N m
Обща сума н х es j 2

Тогава .

Помислете за пример. Нека е дадено множество от 20 работници, характеризиращо се със следните характеристики: Y - продукцията на работник (парче / смяна) и X - квалификация (ранг). Първоначалните данни са представени в таблицата:

х
Y

Необходимо е да се оцени близостта на връзката между характеристиките с помощта на емпиричния коефициент на детерминация (r 2).

За да изчислим r 2, ще извършим аналитично групиране на съвкупността. Като знак-фактор приемаме X (категорията на работника), като знак-резултат - Y, продукцията на работника). Аналитичното групиране се извършва на базата на X. B този случайще бъде дискретно (тъй като стойностите на атрибута X се повтарят доста често). Броят на групите е равен на броя на стойностите на атрибута X в съвкупността, т.е. 6. Резултатите от групирането и изчисляването на r 2 са обобщени в таблицата:

Знаков фактор X Атрибут на резултата Y Брой единици в група, N j Средната стойност на знака-резултат в групата, ( - ) 2 N j Дисперсия на признака-резултат в групата, s 2 j s 2 j N j
(10+12+13)/3=11,7 (11,7-17,1) 2 3=88,56 s 2 1 \u003d ((10-11,7) 2 + (12-11,7) 2 + (13-11,7) 2) / 3 \u003d 1,56 4,7
(11+14)/2=12,5 (12,5-17,1) 2 2=42,3 s 2 2 \u003d ((11-12,5) 2 + (14-12,5) 2) / 2 \u003d 2,25 4,5
(12+13+15+16)/4= 14 (14-17,1) 2 4=38,4 s 2 3 \u003d ((12-14) 2 + (13-14) 2 + (15-14) 2 + (16-14) 2) / 4 \u003d 2,5
(15+17+17+18)/4= 16,75 (16,75-17,1) 2 4=0,49 s 2 4 \u003d ((15-16,75) 2 + (17-16,75) 2 ++ (17-16,75) 2 + (18-16,75) 2) / 4 \u003d 1,9 4,75
(18+20+22)/3=20 (20-17,1) 2 3=25,23 s 2 5 \u003d ((18-20) 2 + (20-20) 2 + (22-20) 2) / 3 \u003d 2,7
(23+24+27+25)/4= 24,75 (24,75-17,1) 2 4=234,1 s 2 6 \u003d ((23-24,75) 2 + (24-24,75) 2 + (27-24,75) 2 + (25-24,75) 2) / 4 \u003d 2,19 8,75
=17,1 429,1 40,7

Емпиричният коефициент на детерминация е равен на съотношението на междугруповата вариация на резултатния атрибут (d y 2) към общата вариация на резултатния атрибут (s y 2): r 2 = d y 2 /s y 2 = d y 2 /(d y 2 + e y 2).

Междугруповата дисперсия Y ще бъде равна на: d y 2 = å( - ) 2 N j / N = 429.1/20=21.45.

Остатъчната дисперсия Y ще бъде: e y 2 = ås 2 j ·N j / N= 40,7/20= 2,035.

Тогава: r 2 \u003d 21,45 / (21,45 + 2,035) \u003d 429,1 / (429,1 + 40,7) \u003d 0,913.

Извод: 91,3% от вариацията в продукцията на работниците се дължи на влиянието на фактора освобождаване.

· Емпирична корелационна връзка - r.

Този показател е коренът на емпиричния коефициент на детерминация. Той показва плътността на връзката (не само линейна!) между групирането и продуктивните характеристики. Диапазонът на допустимите стойности на емпиричното съотношение на корелация е от 0 до +1.

Максимум тясна връзка- това е функционална връзка, когато всяка стойност на атрибута-резултат Y се определя еднозначно от стойността на атрибут-фактора X (т.е. резултатът от групирането). В този случай дисперсията на груповите средни (d y 2) е равна на общата дисперсия (s y 2), т.е. няма да има вътрешногрупови вариации. В този случай остатъчната дисперсия (e y 2) е равна на 0, а емпиричният коефициент на детерминация е равен на 1.

Ако няма връзка между признаците, тогава всички групови средни са равни помежду си, няма да има междугрупова вариация (d y 2 =0) и емпиричният коефициент на детерминация е 0.

Нека изчислим емпиричното съотношение на корелация за нашия пример: r= 0,9555. Заключение: знаците "производство на работник" и "уволнение" са доста тясно свързани.

Индикаторите r и r 2 се определят не само от наличието на връзка между характеристиките X и Y, но и от факта на групиране на първичните данни. С увеличаването на броя на групите m междугруповата дисперсия d 2 нараства и се доближава до общата дисперсия. Ако броят на групите е по-малък от броя на популационните единици N, тогава стойностите на r и r 2 никога няма да бъдат равни на 1, дори при строга функционална връзка.

Обърнете внимание, че стойността на показателя за близост на връзката сама по себе си не е доказателство за наличието на причинно-следствена връзка между изследваните признаци, а е оценка на степента на взаимно съответствие в промените в признаците. Установяването на причинно-следствената връзка задължително трябва да бъде предшествано от анализ на качествения характер на явленията.

Стойността от 0,86 характеризира значителна връзка между групирането и характеристиките на ефективността.

Стойност Наречен коефициент на детерминацияи показва дела на междугруповата вариация в общата вариация.

Наред с изменението на количествените признаци може да се наблюдава и изменение на качествените признаци. Такова изследване на вариациите се постига, както за пропорциите на количествените признаци, чрез изчисляване и анализиране на следните видове вариации.

Вътрешногрупова вариация на деласе определя по формулата

. (3.17)

Средната стойност на дисперсиите в рамките на групата се изчислява като

. (3.18)

Формула междугрупова дисперсияима следната форма:

, (3.19)

Където н аз– брой единици в отделни групи;

- делът на изследвания признак в цялата популация, който се определя по формулата

. (3.20)

Обща дисперсияима формата

. (3.21)

Трите вида дисперсии са свързани помежду си, както следва:

. (3.22)

Пример 3.4

Нека дефинираме груповите дисперсии, средната стойност на груповите, междугруповите и общите дисперсии според данните в табл. 3.3.

Таблица 3.3

Броят и делът на една от категориите говедовъдни ферми в областта

Решение

Нека определим общия дял на млечните крави за три ферми:

;

Общо отклонение в дела на млечните крави:

Вътрешногрупови отклонения:

; ;
.

Средна стойност на вариациите в рамките на групата:

Междугрупова вариация:

Използвайки правилото за добавяне на дисперсии, получаваме: 0,1025+0,0031=0,1056. Примерът е правилен.

Пример 3.5

Въз основа на данните от извадковото изследване на заплатите на наетите в обществения сектор са получени следните показатели (Таблица 3.4).

Таблица 3.4

Определете:

    средна заплата в два бранша;

    дисперсия на заплатите:

а) средната стойност на груповите дисперсии (отрасъл),

б) междугрупови (междусекторни),

    коефициент на детерминация;

    емпирична корелация.

Решение

    Средната работна заплата на работниците в две индустрии се изчислява по формулата (2.10):

търкайте.

    Разлики в заплатите:

а) средната стойност на груповите дисперсии съгласно (3.14)

б) междугрупова дисперсия съгласно (3.12)

.

в) общата дисперсия, получена въз основа на правилото за добавяне на дисперсии (3.15):

    Коефициентът на детерминация е равен на стойността

; (3.23)

тези.
, или 44,24%.

От него се вижда, че възнаграждението с 44,24% зависи от отрасловата принадлежност на служителите и с 55,76% - от вътрешноотраслови причини.

Съгласно формула (3.16), емпиричното съотношение на корелация
,

което показва значително влияние върху диференциацията на заплатите на отрасловите характеристики.

Емпирична корелационна връзка

Използват се няколко показателя за измерване на близостта на асоциацията. При двойна връзка плътността на връзката се определя преди всичко от съотношението на корелация, което се обозначава с η. Квадратът на съотношението на корелация е съотношението на междугруповата дисперсия на резултантния признак, който изразява ефекта от разликите в признака на групиращия фактор върху средната стойност на резултантния признак, към общата дисперсия на резултантния признак, който изразява въздействие на всички причини и условия върху него. Квадратът на съотношението на корелация се нарича коефициент на детерминация.

всички явления и техните признаци: ________________ или строго детерминирани

където k е броят на групите

N е броят на наблюденията

y i - начални стойности на ефективната характеристика

y j - средни стойности на ефективния атрибут за тази група

y е средната стойност на характеристиката

f j е размерът на групата

Горната формула се използва при изчисляване на показателя за близост на връзката за аналитична група. При изчисляване на коефициента на корелация по ниво на комуникация се използва следната формула:

Сумата от квадратите в числителя е дисперсията на резултантната характеристика y, обяснена чрез връзката с фактора x (фактори). Изчислява се от индивидуални данни, получени за всяка единица от съвкупността въз основа на регресионното уравнение.

Ако уравнението е избрано неправилно или е направена грешка при изчисляването на неговите параметри, тогава сумата от квадратите в числителя може да бъде по-голяма от тази в знаменателя и съотношението ще загуби значението, което трябва да има. За да избегнете грешен резултат, по-добре е да изчислите съотношението на корелация, като използвате следната формула:

Тази формула се основава на добре известното правило за разширяване на сумите на квадратните отклонения при групиране на съвкупността:

д често срещани= D интергр+D интрагр

Съгласно това правило, вместо междугруповата (факториална) дисперсия, можете да използвате разликата:

д често срещаниинтрагр

Какво дава:

Когато изчисляваме η не чрез групиране, а чрез корелационното уравнение (регресионно уравнение), използваме формулата. В този случай правилото за разлагане на сумата от квадратите на отклоненията на резултантната характеристика се записва като

D общо \u003d D ядро ​​+ D почивка

Най-важният момент, който сега трябва да научи всеки, който иска да приложи правилно метода на корелационно-регресионния анализ, е интерпретацията на формули (1.2) и (1.3). Тази разпоредба гласи:

Корелационното уравнение измерва връзката между вариацията на резултантната характеристика и вариацията на факторната характеристика(и). Мерките за плътност на връзката измерват пропорцията на вариацията на резултантната характеристика, която е свързана с вариацията на факторната характеристика (характеристики).

| следваща лекция ==>

Емпиричното съотношение на корелация измерва каква част от общата флуктуация на резултантния атрибут е причинена от изследвания фактор. Средната емпирична корелация варира от 0 до 1.

Обикновено се открива емпирична корелация в следните видовезадачи:

  • 1), когато е необходимо да се създаде аналитично групиране за две серии от данни X и Y
  • 2) групирането вече е направено, необходимо е да се провери правилото за добавяне на отклонения
  • 3) за две серии от данни X и Y е необходимо да се намери регресионното уравнение и да се оцени неговата значимост

Формула за дисперсия на алтернативни характеристики

Въз основа на горното можем да изведем формула за намиране на дисперсията на алтернативен признак, ако знаем процента на такъв признак в общата извадка.

Първоначално приемаме, че функцията приема само две стойности.

По този начин сумата от съотношението на елементите, в които елементите на статистическата поредица имат стойност на атрибута „не“ и елементите на поредицата, които имат стойност на атрибута „да“, е равна на единица.

За да намерим средната стойност на серията, заместваме стойностите на алтернативните характеристики (0 и 1) във формулата за намиране на среднопретеглената стойност на статистическата серия. Откъдето съвсем очевидно в знаменателя ще има единица, а в числителя процентната стойност на елементите "1". Тоест точно процентната стойност на елементи с атрибут "1". (Формула 2)

Формулата за дисперсията е среднопретеглената стойност на квадратните отклонения на всяка стойност в серията данни. (Формула 3)

Тъй като в нашата серия данните имат само два вида стойности - "0" и "1", тогава формулата за намиране на дисперсията за серия с алтернативна характеристика се свежда до Формула 4. Обяснение. тъй като току-що заключихме, че средната стойност на извадката е равна на p (Формула 2), тогава стойността на квадрата на разликата между стойността (0/1) и средната стойност, съгласно Формула 1, ще бъде (1- p)2 в първия случай и във втория случай (1-q)2 , като сега прилагаме следствието от първата формула: q = 1 - p, p = 1- q . Получаваме p2 и q2. Съответно съотношението на стойностите "0" и "1" е равно на p и q, в резултат на това в числителя и се оказва q2 p и p2 q. Сумата от дяловете на характеристиките на стойностите "0" и "1" според Формула 1 е равна на 1. В резултат на това Формула 4 приема стойността pq, която ще бъде равна на стойността на дисперсията на алтернативната функция. Въз основа на намерената стойност на дисперсията на алтернативния признак ще намерим стандартното отклонение (Формула 5). Като поставим стойността от Формула 1 във Формула 5, получаваме формулата за стандартно отклонение за дисперсията на серия с алтернативна характеристика.


Връх