Формула за емпирично съотношение на корелация. Коефициент на детерминация и емпирична корелация

Решение. За да изчислим груповите дисперсии, изчисляваме средните стойности за всяка група:

НАСТОЛЕН КОМПЮТЪР.; НАСТОЛЕН КОМПЮТЪР.

Междинните изчисления на дисперсии по групи са представени в табл. 3.2. Замествайки получените стойности във формула (3.4), получаваме:

Средна стойност на груповите дисперсии

След това изчисляваме междугруповата дисперсия. За да направим това, първо дефинираме общата средна стойност като среднопретеглената средна стойност на групата:

Сега дефинираме междугруповата дисперсия

Така общата дисперсия според правилото за добавяне на дисперсии:

Нека проверим резултата, като изчислим общата дисперсия по обичайния начин:

Въз основа на правилото за добавяне на дисперсии е възможно да се определи показателят за близостта на връзката между груповите (факториалните) и ефективните характеристики. Нарича се емпирично съотношение на корелация, означава се ("това") и се изчислява по формулата

За нашия пример, емпиричният корелационна връзка

.

Стойността от 0,86 характеризира значителна връзка между групирането и характеристиките на ефективността.

Стойността се нарича коефициент на детерминация и показва дела на междугруповата вариация в общата вариация.

Наред с изменението на количествените признаци може да се наблюдава и изменение на качествените признаци. Такова изследване на вариациите се постига, както за пропорциите на количествените признаци, чрез изчисляване и анализиране на следните видове вариации.

Вътрешногруповата вариация на дела се определя по формулата

. (3.17)

Средната стойност на дисперсиите в рамките на групата се изчислява като

. (3.18)

Формулата за междугруповата дисперсия е следната:

, (3.19)

където n i– брой единици в отделни групи;

- делът на изследвания признак в цялата популация, който се определя по формулата

Общата дисперсия има формата

. (3.21)

Трите вида дисперсии са свързани помежду си, както следва:

. (3.22)

Пример 3.4

Нека дефинираме груповите дисперсии, средната стойност на груповите, междугруповите и общите дисперсии според данните в табл. 3.3.

Таблица 3.3

Номер и специфично теглоедна от категориите
район на говедовъдни ферми



Решение

Нека определим общия дял на млечните крави за три ферми:

Общо отклонение в дела на млечните крави:

Вътрешногрупови отклонения:

; ; .

Средна стойност на вариациите в рамките на групата:

Междугрупова вариация:

Използвайки правилото за добавяне на дисперсии, получаваме: 0,1025+0,0031=0,1056. Примерът е правилен.

Пример 3.5

Според извадково проучване заплатислужителите в публичния сектор са получили следните показатели (Таблица 3.4).

Таблица 3.4

Определете:

1) средна работна заплата в две отрасли;

2) дисперсия на заплатите:

а) средната стойност на груповите дисперсии (отрасъл),

б) междугрупови (междусекторни),

3) коефициент на детерминация;

4) емпирична корелация.

Решение

1. Средната работна заплата на работниците в две индустрии се изчислява по формулата (2.10):

търкайте.

2. Разлики в заплатите:

а) средната стойност на груповите дисперсии съгласно (3.14)

б) междугрупова дисперсия съгласно (3.12)

в) общата дисперсия, получена въз основа на правилото за добавяне на дисперсии (3.15):

3. Коефициентът на детерминация е равен на стойността

тези. , или 44,24%.

От него се вижда, че възнаграждението с 44,24% зависи от отрасловата принадлежност на служителите и с 55,76% - от вътрешноотраслови причини.

Съгласно формула (3.16), емпиричното съотношение на корелация ,

което показва значително влияние върху диференциацията на заплатите на отрасловите характеристики.

3.2. ЗАДАЧИ ЗА САМОСТОЯТЕЛНО РЕШАВАНЕ

Задача 3.1

Според разпределението на 60 работници по тарифен разряд са налични следните данни (Таблица 3.5).

Таблица 3.5

Определете:

1) категорията на средната заплата на работниците;

2) средно линейно отклонение;

3) дисперсия;

4) стандартно отклонение;

5) коефициент на вариация.

Задача 3.2

Според резултатите от изпитната сесия на 1-ви и 2-ри курс на един от университетите са налични следните данни: през 1-ва година 85% от студентите са издържали сесията без двойки, през 2-ра година - 90%.

Определете за всеки курс дисперсията на дела на студентите, преминали успешно сесията.

Задача 3.3

Акционерните дружества от региона според средносписъчния брой на заетите лица към 1 януари 2004 г. са разпределени, както следва (Таблица 3.6).

Таблица 3.6

Изчисли:

1) средно линейно отклонение;

2) дисперсия;

3) стандартно отклонение;

4) коефициент на вариация.

Задача 3.4

Има данни за разпределението на семействата на служителите на предприятието по брой деца (Таблица 3.7).

Таблица 3.7

Изчисли:

1) вътрешногрупова дисперсия;

2) средната стойност на вътрешногруповите дисперсии;

3) междугрупова дисперсия;

4) обща дисперсия.

Проверете правилността на изчисленията, като използвате правилото за добавяне на отклонения.

Задача 3.5

Разпределението на себестойността на продуктите, предназначени за износ, по цеховете на предприятието е представено от следните данни (Таблица 3.8).

Таблица 3.8

Изчисли:

1) средната стойност на вътрешногруповите, междугруповите и общите дялове на експортните продукти;

2) коефициент на детерминация и емпирична корелация.

Задача 3.6

Според проучване на търговските банки в града 70% от общия брой клиенти са юридически лица със среден заем от 120 хиляди рубли. и коефициент на вариация от 25%, и 20% - лицасъс среден размер на заема от 20 хиляди рубли. със средно квадратно отклонение от 6 хиляди рубли.

Използвайки правилата за добавяне на отклонения, определете близостта на връзката между размера на кредита и вида на клиента, като изчислите емпиричното съотношение на корелация.

Раздел 4. Селективно наблюдение

4.1. МЕТОДИЧЕСКИ УКАЗАНИЯ
И РЕШЕНИЕ НА ТИПОВИ ЗАДАЧИ

Целта на извадковото наблюдение е да се определят характеристиките на генералната съвкупност - обща средна стойност ( o) и общ дял ( Р). Характеристиките на извадковата съвкупност - средната извадка () и извадковият дял () се различават от общите характеристики по размера на извадковата грешка (). Следователно, за да се определят характеристиките на генералната съвкупност, е необходимо да се изчисли грешката на извадката или грешката на представителността, която се определя по формули, разработени в теорията на вероятностите за всеки тип извадка и метод за подбор.

Правилно произволно и механично вземане на проби.В случай на повторна случайна извадка, пределната извадкова грешка за средната () и за пропорцията () се изчислява по формулите

; (4.1)

(4.2)

където е дисперсията на извадката;

н– размер на извадката;

те коефициентът на доверие, който се определя от таблицата със стойности на интегралната функция на Лаплас за дадена вероятност ( P дос.) (Таблица A1).

При неповтарящ се случаен и механичен подбор пределната грешка на извадката се изчислява по формулите

; (4.3)

, (4.4)

където н- размерът на генералната съвкупност.

Пример 4.1

За определяне на пепелното съдържание на въглищата в находището са изследвани на случаен принцип 100 проби от въглища. В резултат на проучването е установено, че средното пепелно съдържание на въглищата в пробата е 16%, стандартното отклонение е 5%. В десет проби пепелното съдържание на въглищата е над 20%. С вероятност от 0,954 определете границите, в които ще бъде средното съдържание на пепел на въглищата в находището и делът на въглищата със съдържание на пепел над 20%.

Решение

Средното пепелно съдържание на въглищата ще бъде в рамките

За да определим границите на общата средна стойност, изчисляваме пределната извадкова грешка за средната стойност, използвайки формула (4.1):

. (4.5)

С вероятност от 0,954 може да се твърди, че средното пепелно съдържание на въглищата в находището ще бъде в рамките на 16% 1%, или 15% 17%.

Делът на въглищата с пепелно съдържание над 20% ще бъде в рамките

Извадковият дял се определя по формулата

където ме делът на единиците с признака

Грешката на извадката за дела () се изчислява по формулата (4.2):

или ±6%.

С вероятност от 0,954 може да се твърди, че делът на въглищата със съдържание на пепел над 20% в находището ще бъде в рамките на , или .

Пример 4.2

За определяне на средния срок на ползване на краткосрочен кредит в банка е направена 5% механична извадка, която включва 100 сметки. В резултат на проучването е установено, че средният срок за ползване на краткосрочен кредит е 30 дни със стандартно отклонение от 9 дни. При пет сметки срокът на ползване на заема е над 60 дни. С вероятност от 0,954 определете границите, в които ще бъде срокът на използване на краткосрочен заем в общата съвкупност и делът на сметките със срок на използване на краткосрочен заем над 60 дни.

Решение

Среден срокползване на банков кредит е в рамките

.

Тъй като вземането на проби е механично, грешката на пробите се определя по формулата (2.3):

ден.

С вероятност от 0,954 може да се твърди, че срокът за ползване на краткосрочен заем в банка е в рамките на = 30 дни 2 дни, или

28 дни на ден.

В рамките е делът на кредитите със срок над 60 дни

Примерният дял ще бъде

Извадковата грешка за дела се определя по формулата (4.4):

или 4,2%.

С вероятност от 0,954 може да се твърди, че делът на банковите кредити с падеж над 60 дни ще бъде в рамките на или

Типична проба.При типична (зонална) селекция общата популация се разделя на хомогенни типични групи, райони. Извършва се подбор на единици за наблюдение в извадката различни методи. Помислете за типична извадка с пропорционален подбор в типични групи.

Размерът на извадката от типична група в селекцията, пропорционален на броя на типичните групи, се определя по формулата

където n iе размерът на извадката от типична група;

N iе обемът на типична група.

Пределната грешка на средната стойност на извадката и пропорцията за неповтарящи се произволни и механичен начинселекцията в типичните групи се изчислява по формулите

; (4.8)

, (4.9)

където е дисперсията на извадката от съвкупността.

Пример 4.3

За определяне на средната възраст на мъжете, които встъпват в брак, в областта е направена 5% типична извадка с подбор на единици пропорционално на размера на типичните групи. В рамките на групите е използван механичен подбор. Данните са обобщени в табл. 4.1.

Таблица 4.1

С вероятност от 0,954 определете границите, в които средна възрастмъжете, които се женят, и делът на мъжете, които се женят втори път.

Решение

Средната брачна възраст за мъжете е в рамките на

.

Средната брачна възраст на мъжете от извадката се определя по формулата на среднопретеглената стойност

= на годината.

Средната дисперсия на извадката се определя по формулата
средата

=

Изчисляваме пределната извадкова грешка по формулата (4.8):

на годината.

С вероятност от 0,954 може да се твърди, че средната възраст на мъжете, които встъпват в брак, ще бъде в рамките на годината от годината, или

24 години.

Делът на мъжете, които се женят повторно, ще бъде в рамките на

Извадковият дял се определя по формулата на средната стойност

или 14%.

Средната извадкова дисперсия на алтернативен признак се изчислява по формулата

(4.12)

Извадковата грешка за дела се определя по формулата (4.9):

или 6%.

С вероятност от 0,954 може да се твърди, че делът на мъжете, които се женят втори път, ще бъде в рамките на , или .

серийно вземане на проби.При серийния метод на подбор генералната съвкупност се разделя на групи с еднакъв размер - серии. Сериите са избрани в примерния набор. В рамките на серията се извършва непрекъснато наблюдение на единиците, попаднали в серията.

В случай на неповтаряща се селекция от серии, пределните грешки на средната стойност на извадката и пропорцията се определят по формулата

, (4.13)

където е междусерийната дисперсия;

Ре броят на сериите в генералната съвкупност;

r– брой избрани серии.

Пример 4.4

В цеха на предприятието работят 10 екипа работници. За изследване на тяхната производителност на труда е проведена 20% серийна извадка, която включва 2 бригади. В резултат на проучването се установи, че средната производителност на работниците в екипите е 4,6 и 3 т. С вероятност 0,997 определете границите, в които ще бъде средната производителност на цеховите работници. t, или т.

Пример 4.5

В наличност Завършени продуктиРаботилницата съдържа 200 кутии с части, по 40 броя във всяка кутия. За проверка на качеството на готовия продукт е направена 10% серийна проба. В резултат на пробовземането е установено, че делът на дефектните части е 15%. Дисперсията на серийната проба е 0,0049.

С вероятност от 0,997 определете границите, в които се намира делът на дефектните продукти в партида от кутии.

Решение

Делът на дефектните части ще бъде в рамките

Нека определим пределната извадкова грешка за дела по формула (4.13):

или 4,4%.

С вероятност от 0,997 може да се твърди, че делът на дефектните части в партидата е в диапазона от 10,6% 19,6%.

Пример 4.6

В област, състояща се от 20 области, беше проведено извадково изследване на добива въз основа на подбора на серии (райони). Извадковите средни стойности за областите са съответно 14,5 ц/ха; шестнадесет; 15,5; 15 и 14 q/ha. С вероятност от 0,954 намерете границите на добива в цялата област.

Решение

Изчислете общата средна стойност:

ц/ха.

Междугрупова (междусерийна) дисперсия

Нека сега определим пределната грешка на сериен неповтарящ се образец (t = 2, P dov = 0,954), използвайки формула (4.13):

.

Следователно доходността в региона (с вероятност от 0,954) ще бъде в рамките на

15-1,7≤ ≤15+1,7,

13,3 c/ha ≤ ≤16,7 c/ha.

В практиката на проектиране на извадково наблюдение е необходимо да се намери размерът на извадката, който е необходим, за да се осигури определена точност при изчисляването на общите характеристики - средната стойност и пропорцията. В този случай пределната грешка на извадката, вероятността за нейното възникване и вариацията на характеристиката са известни предварително.

При случайно повторно вземане на проби размерът на извадката се определя от израза

При случаен неповтарящ се и механичен подбор размерът на извадката се изчислява по формулата

. (4.16)

За типична проба

. (4.17)

За серийно вземане на проби

. (4.18)

Пример 4.7

В областта живеят 2000 семейства. Предвижда се да се проведе извадково изследване на тях по метода на случаен еднократен подбор за определяне на средния размер на семейството. Определете необходимия размер на извадката, при условие че с вероятност от 0,954 грешката на извадката не надвишава едно лице със стандартно отклонение от трима души ( = 3).

Решение

При неповтарящ се случаен подбор размерът на извадката по формулата (4.16) ще бъде семейства.

Размер на извадката: най-малко 36 семейства.

Пример 4.8

Град А има 10 000 семейства. С помощта на механично вземане на проби се предвижда да се определи делът на семействата с три или повече деца. Какъв трябва да бъде размерът на извадката, така че да има вероятност от 0,954 грешката на извадката да не надвишава 0,02, ако е известно, че дисперсията е 0,2 от предишни проучвания?

Решение

Нека определим необходимия размер на извадката по формулата (4.16):

.

Размер на извадката: не по-малко от 1667.

В статистиката често е необходимо да се сравнят резултатите от две (или повече) проби. Въз основа на сравнение на две извадкови средни (или дялове) се прави заключение за случайността или значимостта на тяхното несъответствие.

За това абсолютната разлика между показателите на средните извадки се сравнява със средната грешка на разликата:

. (4.19)

Намерени ткалк. в сравнение с траздел. На т- Разпределение на Стюдънт (Таблица P2) за броя на степените на свобода v=н 1 +н 2 -2 и дадено ниво на значимост a. (тук н 1 и н 2 – обеми на сравнявани проби).

Емпирична корелационна връзка

Близостта или силата на връзката между две характеристики може да бъде измерена чрез индикатор, наречен емпирично съотношение на корелация. Този показател се нарича емпиричен, тъй като може да се изчисли въз основа на обичайното групиране по фактор и резултатен признак, т.е. въз основа на корелационна таблица. Емпиричната корелация се получава от правилото за добавяне на дисперсии, според което , където
- обща дисперсия;
- междугрупова дисперсия;
- вътрешногрупова (средно частна) дисперсия. Междугруповата дисперсия е мярка за флуктуация, дължаща се на факторна черта. Средната стойност на частичните дисперсии е мярка за флуктуация, дължаща се на всички други (с изключение на факторни) характеристики. Тогава връзката
изразява дела на флуктуацията, възникваща поради знака на фактора в общата флуктуация. Корен квадратен от това съотношение се нарича емпирично съотношение на корелация:
.

Това предполага правилото, че колкото по-голяма е междугруповата вариация, толкова по-силно факторната черта влияе върху вариацията на резултантната черта. Съотношенията на компонентите на дисперсиите се изчисляват от данните от корелационната таблица, като се използват следните формули:

;
,

къде са частните средни стойности; - обща авария; - суми по признак ; - суми по признак ;
- брой наблюдения. Същата връзка се запазва и за условните стойности, получени чрез числена трансформация.

Самото съотношение на дисперсията (радикалният израз) се нарича коефициент на детерминация (той също е равен на квадрата на емпиричното съотношение на корелация). Емпиричното съотношение на корелация варира в широк диапазон (от 0 до 1). Ако е равен на нула, тогава знакът на фактора не влияе върху знака на корелация. Ако =1, което означава, че резултатният знак изцяло зависи от фактора едно. Ако емпиричната корелация е фракция, близка до единица, тогава се говори за тясна връзкамежду факторни и резултантни характеристики. Ако тази част е малка (близо до нула), тогава се говори за слаба връзка между тях.

Линеен коефициент на корелация и индекс на корелация

Мярка за близостта на връзката между две статистически свързани характеристики е коефициентът на линейна корелация или просто коефициентът на корелация. Има същото значение като емпиричното съотношение на корелация, но може да приема както положителни, така и отрицателни стойности. Коефициентът на корелация има строг математически израз за линейна връзка. Положителна стойност ще покаже пряка връзка между характеристиките, отрицателна стойност ще покаже обратното.

Коефициентът на корелация на двойката в случай на линейна форма на комуникация се изчислява по формулата

и извадковата му стойност - по формулата

При малък брой наблюдения е удобно да се изчисли коефициентът на корелация на извадката, като се използва следната формула:

Стойността на корелационния коефициент се променя в интервала
.

При
има функционална връзка между двете променливи, когато
- пряка функционална връзка. Ако
, тогава стойностите на X и Y в извадката не са корелирани; ако системата от случайни величини
има двумерно нормално разпределение, тогава величините X и Y също ще бъдат независими.

Ако коефициентът на корелация е в интервала
, тогава има обратна корелация между X и Y. Това се потвърждава и от визуален анализ на първоначалната информация. В този случай отклонението на Y от средната стойност се приема с обратен знак.

Ако всяка двойка стойности на X и Y най-често е едновременно над (под) съответните средни стойности, тогава има пряка корелация между стойностите и коефициентът на корелация е в интервала
.

Ако, от друга страна, отклонението на стойността на X от средната стойност еднакво често причинява отклонения на стойността на Y надолу от средната стойност и отклоненията през цялото време са различни, тогава можем да приемем, че стойността на коефициентът на корелация клони към нула.

Трябва да се отбележи, че стойността на коефициента на корелация не зависи от мерните единици и избора на референтна точка. Това означава, че ако променливите X и Y се намалят (увеличат) с K пъти или със същото число C, тогава коефициентът на корелация няма да се промени.

За да се опрости изчисляването на мярката за плътност на корелацията, често се използва индексът на корелация, който се определя по следните формули:

,
,

където
- остатъчна дисперсия, характеризираща изменението на резултантния признак под въздействието на други неотчетени фактори.

Множествена корелация

Множествена корелация - зависимостта на резултатната и две или повече факторни характеристики, включени в изследването. Индикатор за близостта на връзката между резултата и два или повече факторни признака се нарича коефициент на множествена или кумулативна корелация и се означава с R. Кумулативният коефициент предполага наличието на линейна връзка между всяка двойка признаци, която може да бъде изразени с помощта на сдвоени коефициенти на корелация. Ако има кумулативна мярка за плътността на връзката между ефективната характеристика () и две факторни характеристики ( и ), тогава изчисляването на кумулативния коефициент на корелация се извършва по формулата:

,

Където долните индекси показват между кои характеристики се изследва връзката на двойката.

Във формулите за изчисляване на сдвоени коефициенти на корелация се променят само символите, обозначаващи един или друг фактор. Така че, ако коефициентът на корелация между и се изчислява по формулата , тогава коефициентът на корелация между и се изчислява: ; между и - така:

Селищна част

Задача 31

    За десет предприятия за отчетния период са налични следните данни:

таблица 2

предприятия

Средногодишната цена на дълготрайните производствени активи, млн. Рубли.

Изход, милиони рубли

За да проучите връзката между размера на средната годишна цена на дълготрайните активи и продукцията, изчислете уравнението на линейната зависимост.

2. Въз основа на дадените данни: а) изчислете: линеен коефициент на корелация; б) проверете правилността на избора на формата на комуникация чрез изчисляване на индекса на корелация.

    Използвайки процесора за електронни таблици Microsoft Excel, ще изградим работен лист:

Таблица 3

Изчисляване на суми за изчисляване на параметрите на уравнението на права линия

239,74 *1236 = 539,1 вероятностни разпределения... икономически анализ, решен на осн регресия икономическимодели. Нека разгледаме y - ефективен знак и x - знаци за фактор. Методи корелативно-регресия анализ ...

  • Програмата на дисциплината "Компютърни методи за анализ на социологически данни" (Въведение в математическата статистика и анализ на данни) За направление 040200. 68 "Социология"

    дисциплинарна програма

    Приложения. 11 3 2 6 Дисперсивен анализ 9 2 2 5 Двойни и многократни регресивен анализ 9 2 2 5 Свойства на коефициентите... от SPSS user 11.0 Siskov V.I. корелация анализв икономически изследвания. M. 1975. Eddous M., Stansfield...

  • G. L. Savitskaya анализ на икономическата дейност на предприятието

    Документ

    съвършенство, най-новите методи икономически изследвания. Анализтрябва да е сложен. Сложността на изследването ... на нивото на средната часова продукция корелативно-регресивен анализ. в многофакторна корелациямодел на средночасова производителност...

  • Корелационният анализ включва измерване на близостта на връзката с помощта на коефициента на корелация и съотношението на корелация. При линейна форма на зависимост силата на връзката се оценява от Коефициент на корелация на Пиърсън :

    Коефициентът на корелация варира от (- 1) до (+ 1), (– 1 r 1).

    Отрицателен знак на индикатора показва обратна връзка, положителен знак показва пряка връзка. Колкото по-близка е стойността на индикатора до единица, по абсолютна стойност, толкова по-силна е връзката, колкото по-близо до нула, толкова по-слаба е връзката.

    За да измерите силата на връзката с всякаква форма на зависимост, както линейна, така и нелинейна, както и да оцените множествената връзка, приложете теоретична корелация (индекс на корелация). Изчислението му се основава на правилото за добавяне на дисперсия:

    където обща дисперсия - отразява изменението на ефективния признак, дължащо се на всички фактори, действащи върху него;

    или

    факторна дисперсия , отразява изменението на ефективната характеристика, дължащо се на фактора (Х).

    остатъчна дисперсия , отразява вариацията на ефективната характеристика поради всички фактори, с изключение на фактора (Х);

    Теоретично съотношение на корелация е корен квадратен от съотношението на факторната дисперсия към общата дисперсия:

    коренен израз - коефициент на детерминация :

    показва съотношението на вариацията на резултантния белег, дължаща се на влиянието на факторния белег, в общата вариация. Колкото по-голям е този дял, толкова по-силна е връзката между характеристиките.

    Теоретично съотношение на корелация се променя от 0 на 1 (0 Р 1) Колкото по-близо до единица е стойността на индикатора, толкова по-силна е връзката.

    За да оцените силата на връзката, можете да използвате мащабз едока:

    Основната тенденция на развитие и методите за нейното откриване

    Всеки ред от динамика има своя собствена тенденция на развитие, т.е. общата посока към увеличаване, намаляване или стабилизиране на нивото на явлението във времето. Тежестта на тази тенденция зависи от влиянието на постоянни, периодични (сезонни) и случайни фактори върху нивата на динамичния ред. Следователно трябва да се говори не само за тенденцията на развитие, а за основната тенденция.

    Основната тенденция на развитие (тенденция) се нарича плавно и стабилно изменение на нивото на явлението във времето, без периодични и случайни колебания.

    За да се идентифицира тенденция, сериите от динамика се обработват чрез методите на разширяване на интервали, пълзяща средна и аналитично подравняване.

    Метод на интервално огрубяване се основава на консолидацията на периоди от време, които включват нивата на серия от динамика. За да направите това, оригиналните данни се комбинират, т.е. сумирани или осреднени за по-дълги интервали от време, докато Общата тенденцияразвитието няма да стане достатъчно ясно. Например дневните данни за производството се комбинират в десетдневни данни, месечните данни в тримесечни данни, годишните данни в многогодишни данни. Предимството на метода е неговата простота. Недостатъкът е, че изгладената серия е много по-къса от оригиналната.

    метод на пълзяща средна се състои в това, че въз основа на първоначалните данни се изчисляват подвижни средни от определен брой първи нива на серията, първо подред, след това от същия брой нива, започвайки от второто, от третото и т.н. Средната стойност, така да се каже, се плъзга по динамичната серия, движейки се с един интервал. Пълзящите средни изглаждат случайните колебания.

    Схема за изчисляване на плъзгащата се средна на 3 нива

    Времеви интервал

    (номер по ред)

    Действителни нива на динамични серии

    при аз

    пълзящи средни

    при ск

    при 1

    при 2

    при 3

    при 4

    при sc3

    при 5

    при sc4

    при 6

    Изгладената серия от динамика е по-къса от оригиналната по стойност (l - 1), ако уголемяването се извършва върху нечетен брой нива, където л е продължителността на периода на разширяване. Например ако l = 3, тогава подравненият ред е с 2 нива по-къс. Така изгладената серия не е много по-къса от оригиналната.

    Метод на аналитично подравняване се състои в замяна на действителните нива на времевия ред с техните теоретични стойности, изчислени въз основа на уравнението на тенденцията:

    Изчисляват се параметрите на уравнението метод на най-малките квадрати:

    където при– действителни нива; при тиса подравнените (изчислените) нива, съответстващи им във времето.

    Ако развитието се извършва в аритметична прогресия (с равни верижни абсолютни нараствания), тогава линейна функция:

    Ако има динамика в геометричната прогресия (с равни темпове на растеж на веригата), тогава е необходимо да се използва експоненциална функция:

    при т = а 0 а 1 т .

    Ако развитието протича с равни темпове на растеж, се използва с степенна функция, например от втори ред (парабола):

    при т = а 0 + а 1 т+ а 2 т 2 .

    Критерият за правилния избор на уравнението на тренда е грешка на приближението . Той представлява стандартното отклонение на действителните нива на динамичните серии от теоретичните:

    Уравнението с най-малка апроксимационна грешка се счита за оптимално.

    Разгледайте „техниката“ за изравняване на времевия ред според линейна функция:


    където а 0 , а 1 са параметрите на уравнението на правата линия; т- индикатори за време (като правило, пореден номер на периода или момент във времето).

    Параметри на линията а 0 и а 1 , удовлетворяващи метода на най-малките квадрати, се намират чрез решаване на следната система от нормални уравнения:

    където не броят на нивата на динамичната серия; параметър а 1 съответства на средното абсолютно увеличение.

    За да се опрости изчисляването на индикаторите за време
    могат да бъдат дадени такива стойности, че
    , тогава

    За да направите това, в редове с нечетен брой нива, централният интервал се приема като начало на времевата референция, където т приравнявам към нула. От двете страни на нулата има съответно редове от отрицателни и положителни естествени числа, например:

    Времеви интервал

    (номер по ред)

    т аз

    За четен брой нива броенето се извършва от два централни интервала, в които т приравнени съответно на (-1) и (+1), а от двете страни има редове от отрицателни и положителни нечетни числа, например:

    Времеви интервал

    (номер по ред)

    т аз

    Схема за изчисляване на параметрите на линейно уравнение

    Времеви интервали

    Нива на динамични серии

    при аз

    т аз

    аз т 2

    при аз т аз

    при ти

    Въз основа на изчисленото уравнение на тенденцията е възможно да се произведе екстраполация – намиране на вероятностни (прогнозирани) нива извън първоначалната серия от динамика.

    ОТГОВОР

    Количествената оценка на близостта на комуникацията според емпиричните данни се състои в изчисляване на показателите за близост на комуникацията:

    · Емпиричен коефициент на детерминация (емпиричен коефициент на дисперсия) - r 2 .

    Този показател се изчислява според данните на аналитичната групировка (таблица), като отношение на междугруповата дисперсия на резултатния признак Y (d y 2) към общата дисперсия Y (s y 2):

    Съгласно теоремата за разлагане на дисперсията междугруповата дисперсия е свързана с общата дисперсия: s y 2 =d y 2 +e y 2 . Тогава емпиричният коефициент на детерминация може да се изчисли чрез остатъчната дисперсия по формулата:

    където s j 2 е дисперсията на резултата Y в рамките на j-тата група.

    Емпиричният коефициент на определяне характеризира силата на влиянието на групиращия признак (X) върху формирането на общата вариация на резултантния атрибут Y и показва процента (дяла) на вариацията на резултатния атрибут, дължащ се на фактора на атрибута, лежащ в основата групирането.

    Удобно е да се изчисли r 2 в таблицата:

    Знак-фактор X j Nj Средна стойност на признака-резултат s j 2 N j
    x1 N 1 s 1 2 N 1
    x2 N 2 s 2 2 N 2
    .... ...
    Xm N m s m 2 N m
    Обща сума н х es j 2

    Тогава .

    Помислете за пример. Нека е дадено множество от 20 работници, характеризиращо се със следните характеристики: Y - продукцията на работник (парче / смяна) и X - квалификация (ранг). Първоначалните данни са представени в таблицата:

    х
    Y

    Необходимо е да се оцени близостта на връзката между характеристиките с помощта на емпиричния коефициент на детерминация (r 2).

    За да изчислим r 2, ще извършим аналитично групиране на съвкупността. Като знак-фактор приемаме X (категорията на работника), като знак-резултат - Y, продукцията на работника). Аналитичното групиране се извършва на базата на X. B този случайще бъде дискретно (тъй като стойностите на атрибута X се повтарят доста често). Броят на групите е равен на броя на стойностите на атрибута X в съвкупността, т.е. 6. Резултатите от групирането и изчисляването на r 2 са обобщени в таблицата:

    Знаков фактор X Атрибут на резултата Y Брой единици в група, N j Средната стойност на знака-резултат в групата, ( - ) 2 N j Дисперсия на признака-резултат в групата, s 2 j s 2 j N j
    (10+12+13)/3=11,7 (11,7-17,1) 2 3=88,56 s 2 1 \u003d ((10-11,7) 2 + (12-11,7) 2 + (13-11,7) 2) / 3 \u003d 1,56 4,7
    (11+14)/2=12,5 (12,5-17,1) 2 2=42,3 s 2 2 \u003d ((11-12,5) 2 + (14-12,5) 2) / 2 \u003d 2,25 4,5
    (12+13+15+16)/4= 14 (14-17,1) 2 4=38,4 s 2 3 \u003d ((12-14) 2 + (13-14) 2 + (15-14) 2 + (16-14) 2) / 4 \u003d 2,5
    (15+17+17+18)/4= 16,75 (16,75-17,1) 2 4=0,49 s 2 4 \u003d ((15-16,75) 2 + (17-16,75) 2 ++ (17-16,75) 2 + (18-16,75) 2) / 4 \u003d 1,9 4,75
    (18+20+22)/3=20 (20-17,1) 2 3=25,23 s 2 5 \u003d ((18-20) 2 + (20-20) 2 + (22-20) 2) / 3 \u003d 2,7
    (23+24+27+25)/4= 24,75 (24,75-17,1) 2 4=234,1 s 2 6 \u003d ((23-24,75) 2 + (24-24,75) 2 + (27-24,75) 2 + (25-24,75) 2) / 4 \u003d 2,19 8,75
    =17,1 429,1 40,7

    Емпиричният коефициент на детерминация е равен на съотношението на междугруповата вариация на резултатния атрибут (d y 2) към общата вариация на резултатния атрибут (s y 2): r 2 = d y 2 /s y 2 = d y 2 /(d y 2 +e y 2).

    Междугруповата дисперсия Y ще бъде равна на: d y 2 = å( - ) 2 N j / N = 429.1/20=21.45.

    Остатъчната дисперсия Y ще бъде: e y 2 = ås 2 j ·N j / N= 40,7/20= 2,035.

    Тогава: r 2 \u003d 21,45 / (21,45 + 2,035) \u003d 429,1 / (429,1 + 40,7) \u003d 0,913.

    Извод: 91,3% от вариацията в продукцията на работниците се дължи на влиянието на фактора освобождаване.

    · Емпирична корелационна връзка - r.

    Този показател е коренът на емпиричния коефициент на детерминация. Той показва плътността на връзката (не само линейна!) между групирането и продуктивните характеристики. Диапазонът на допустимите стойности на емпиричното съотношение на корелация е от 0 до +1.

    Най-близката възможна връзка е функционална връзка, когато всяка стойност на резултата Y се определя еднозначно от стойността на фактора X (т.е. резултатът от групирането). В този случай дисперсията на груповите средни (d y 2) е равна на общата дисперсия (s y 2), т.е. няма да има вътрешногрупови вариации. В този случай остатъчната дисперсия (e y 2) е равна на 0, а емпиричният коефициент на детерминация е равен на 1.

    Ако няма връзка между признаците, тогава всички групови средни са равни помежду си, няма да има междугрупова вариация (d y 2 =0) и емпиричният коефициент на детерминация е 0.

    Нека изчислим емпиричното съотношение на корелация за нашия пример: r= 0,9555. Заключение: знаците "производство на работник" и "уволнение" са доста тясно свързани.

    Индикаторите r и r 2 се определят не само от наличието на връзка между характеристиките X и Y, но и от факта на групиране на първичните данни. С увеличаването на броя на групите m междугруповата дисперсия d 2 нараства и се доближава до общата дисперсия. Ако броят на групите е по-малък от броя на популационните единици N, тогава стойностите на r и r 2 никога няма да бъдат равни на 1, дори при строга функционална връзка.

    Обърнете внимание, че стойността на показателя за близост на връзката сама по себе си не е доказателство за наличието на причинно-следствена връзка между изследваните признаци, а е оценка на степента на взаимно съответствие в промените в признаците. Установяването на причинно-следствената връзка задължително трябва да бъде предшествано от анализ на качествения характер на явленията.

    Емпирична корелационна връзка

    Близостта или силата на връзката между две характеристики може да бъде измерена чрез индикатор, наречен емпирично съотношение на корелация. Този показател се нарича емпиричен, тъй като може да се изчисли въз основа на обичайното групиране по фактор и резултатен признак, т.е. въз основа на корелационна таблица. Емпиричното корелационно отношение се получава от правилото за добавяне на дисперсии, според което , където е общата дисперсия; - междугрупова дисперсия; - вътрешногрупова (средно частна) дисперсия. Междугруповата дисперсия е мярка за флуктуация, дължаща се на факторна черта. Средната стойност на частичните дисперсии е мярка за флуктуация, дължаща се на всички други (с изключение на факторни) характеристики. Тогава съотношението изразява дела на флуктуацията, възникваща поради знака на фактора в общата флуктуация. Корен квадратен от това съотношение се нарича емпирично съотношение на корелация: .

    Това предполага правилото, че колкото по-голяма е междугруповата вариация, толкова по-силно факторната черта влияе върху вариацията на резултантната черта. Съотношенията на компонентите на дисперсиите се изчисляват от данните от корелационната таблица, като се използват следните формули:

    ; ,

    къде са частните средни стойности; - обща авария; - общо на база ; - общо на база ; - брой наблюдения. Същата връзка се запазва и за условните стойности, получени чрез числена трансформация.

    Самото съотношение на дисперсията (радикалният израз) се нарича коефициент на детерминация (той също е равен на квадрата на емпиричното съотношение на корелация). Емпиричното съотношение на корелация варира в широк диапазон (от 0 до 1). Ако е равен на нула, тогава знакът на фактора не влияе върху знака на корелация. Ако =1, тогава резултантният знак изцяло зависи от фактора едно. Ако емпиричното съотношение на корелация е дроб, близък до единица, тогава се говори за тясна връзка между факторните и ефективните характеристики. Ако тази част е малка (близо до нула), тогава се говори за слаба връзка между тях.

    
    Връх