Стойността на емпиричния коефициент на детерминация, равна на 0, показва. Коефициентът на определяне какво измерва - формулата

Емпиричен коефициент на детерминациянамира широко приложение в статистическите задачи и е показател, който представлява дела в общата дисперсия на резултантния признак и характеризира силата на влиянието на групиращия признак върху формирането на общата вариация. Може да се изчисли по формулата:

Този коефициент показва съотношението на изменението на ефективния признак y под въздействието на фактора x. При липса на връзка емпиричният коефициент на детерминация е равен на нула, а при функционален силна връзка- мерна единица.

представено като корен квадратен от емпиричен коефициентопределения. Той показва близостта на връзката между статистическите данни и се определя по формулата:

където числителят е дисперсията на груповите средни;
знаменателят е общата дисперсия.

корелационна връзкае нула, ако няма връзка между данните. В този случай всички групови средни ще бъдат равни помежду си и няма да има междугрупова вариация.

Коефициентът на корелация е равен на единица, когато връзката е функционална. В този случай дисперсията на груповите средни стойности ще бъде равна на общата дисперсия, т.е. няма да има вътрешногрупова вариация.

Колкото по-близо до единица са стойностите на корелационното съотношение, толкова по-силна, по-близо до функционалната зависимост, е връзката между признаците.

Изчислява се по формулата:

където fe и ft са емпирични и теоретични честоти.

Като се използва Критерий на Пиърсънтаблиците определят вероятността P(x^2). Входните данни в таблицата са стойности x^2 и броя на степените на свобода k = n - p -1.

Ако P > 0,05, тогава емпиричното и теоретичното разпределение се считат за близки. Когато принадлежи P, съвпадението между тях е задоволително, а в останалите случаи е недостатъчно.

Изчислява се по формулата:

където числителят е централният момент от трети ред.

b^3 - кубът на стандартното отклонение.

Факторът на изкривяване ебезразмерна стойност, което позволява да се използва за различни разпределения. С лявостранна асиметрия, Mo > Mt > xav, с дясностранна асиметрия, обратни връзки. Това ви позволява да приложите най-простия индикатор за асиметрия:

Ексцес в статистиката

Съществува известна степен на стръмност на емпиричното разпределение спрямо нормалното. Определя се по формулата:

където числителят е централният момент от четвърти ред

Когато разпределението е пиково по отношение на нормалното, ексцесът ще бъде положителен, ако разпределението е плоско, той ще бъде отрицателен. За нормално разпределение E = 0.

Какво се има предвид под дисперсия в рамките на групата за популация? Каква е формулата за изчисляването му? Дай пример. Какво се разбира под вариация на междугруповата популация? Каква е формулата за изчисляването му? Дай пример.

Вътрешногрупова дисперсия () показва произволна вариация, която не зависи от признака, лежащ в основата на групирането.

, Където

Групово средно

Средната вътрешногрупова дисперсия се изчислява, както следва: първо се изчисляват дисперсиите за отделните групи (), след това се изчислява средната вътрешногрупова дисперсия:

Характеризира систематичната вариация, т.е. разлики в големината на изследвания признак, който е в основата на групирането. Тази дисперсия се изчислява по формулата

, Където

Средна стойност за отделна група

n i- брой единици в групата

- общата средна аритметична стойност на цялата изследвана популация.

И трите вида дисперсия са взаимосвързани: общата дисперсия е равна на сумата от средната вътрешногрупова дисперсия и междугруповата дисперсия:

Това съотношение отразява закона, който се нарича правило за добавяне на дисперсии.

20.

Какво се разбира под обща вариация на съвкупността? Каква е формулата за изчисляването му? Начинът, по който са групирани групите, влияе ли върху общата дисперсия? Дай пример.

Общата вариация () характеризира вариацията на признака на цялата популация под влиянието на всички онези фактори, които са причинили тази вариация. Тази стойност се определя по формулата

, Където

общата средна аритметична стойност на цялата изследвана популация.

От друга страна, общата дисперсия е равна на сбора от средната вътрешногрупова дисперсия и междугруповата дисперсия:

Това съотношение отразява закона, който се нарича правило за добавяне на дисперсии.. Благодарение на правилото за добавяне на дисперсии е възможно да се определи каква част от общата дисперсия е под влиянието на характерния фактор, лежащ в основата на групирането.

Колкото по-висок е делът на междугруповата вариация в общата вариация, толкова по-силно е влиянието на факторния атрибут (ранг) върху резултата (производство).

Тази пропорция се характеризира с емпиричен коефициент на детерминация:

За качествена оценка на близостта на връзката между знаците се използват отношенията на Чадок.

0-0,2

0,2-0,3

0,3-0,5

0,5-0,7

0,7-0,9

0,9-0,99

Сила на връзката

отсъстващ

много слаб

слаб

умерено

забележим

близо

много близо

функционален-

назален

21.

Какво показва коефициентът на детерминация? Каква е формулата за изчисляването му? В какви единици се измерва този показател? Какви са възможните стойности за този показател? Какво означава емпиричното корелационна връзка? Каква е формулата за изчисляването му? В какви единици се измерва този показател? Какви са възможните стойности за този показател?

Емпиричен коефициент на детерминация () характеризира дела на междугруповата вариация в общата вариация:

Приема стойности от -1 до 1 и показва доколко вариацията на признака в съвкупността се дължи на групиращия фактор.

Междугрупова дисперсия;

обща дисперсия.

Определя се по формулата:

Приема стойности -1 към 1

Пример

Група

Брой фабрики в групата, бр.

Средна брутна продукция в сравними цени, милиона рубли

Нека сега определим средната стойност, общата дисперсия и междугруповата дисперсия на брутната продукция в сравними цени на фабриките:

милиона рубли;

Милион rub.2;

Милион rub.2.

Коефициентът на определяне ще бъде равен на:

В резултат на това емпиричното съотношение на корелация ще бъде равно на:

Изчислената стойност на емпиричния коефициент на корелация показва доста висока статистическа връзка между брутната продукция в съпоставими цени и средната годишна цена на дълготрайните производствени фондове на предприятията.

22.

Как се изчислява тестова статистика при едномерен дисперсионен анализ? Какъв е законът на неговото разпределение при валидност на основната хипотеза? Какви са параметрите на този закон? Как се взема решение при еднопосочен дисперсионен анализ въз основа на изчислената стойност на критериалната статистика?

Задачата на дисперсионния анализ е да се изследва влиянието на един или повече фактори върху разглеждания признак.

Еднопосочен дисперсионен анализ се използва, когато са налични три или повече независими извадки, получени от една и съща обща популация чрез промяна на някакъв независим фактор, за който по някаква причина няма количествени измервания.

Като критерий е необходимо да се използва критерият на Фишер:

., Където

Q 1 е сумата от квадратите на отклоненията на извадковите средни стойности от общата средна стойност

Q 2 е сумата от квадратите на отклоненията на наблюдаваните стойности от средната стойност на извадката

Ако изчислената стойност на критерия на Фишър е по-малка от табличната стойност, няма причина да се смята, че независимият фактор влияе върху разпространението на средните стойности ( тези. хипотезата не беше потвърдена). В противен случай независимият фактор има значителен ефект върху разпространението на средните стойности ( хипотезата е вярна).

23-25.

1. На равни интервали използвайте простата средна аритметична стойност:

където y са абсолютните нива на серията;
н- броя на нивата в серията.
2. За неравни интервали използвайте среднопретеглената аритметична стойност:

където u 1 ,...,уn - нива на редицата от динамика;
t1,... tn - тегла, продължителност на времеви интервали.

Средно ниво на моментни серии динамиката се изчислява по формулата:
1. При равноотдалечени нива се изчислява по формулата на средната серия от хронологични моменти:

където u 1 ,...,уn - нива на периода, за който се извършва изчислението;
н- брой нива;
n-1 - продължителност на периода от време.
2. В неравеннива се изчислява с помощта на формулата за хронологично претеглена средна стойност:

където u 1 ,...,уn - нива на динамични редове;
T- интервал от време между съседни нива

в статистиката

Среден абсолютен прираст се определя като средната стойност на абсолютните печалби за равни интервали от време на един период. Изчислява се по формулите: 1. Въз основа на верижни данни за абсолютния прираст за няколко години, средният абсолютен прираст се изчислява като проста средна аритметична:

Където n е броят на степенните абсолютни увеличения в периода, който се изследва.
2. Изчислява се средното абсолютно увеличениепрез основния абсолютен прираст при равни интервали

Където m - броят нива на поредица от динамика в периода на изследване, включително базовия.

Среден темп на растеж е свободна обобщаваща характеристика на интензивността на изменение на нивотодинамични серии и показва колко пъти нивото на серията от динамика се променя средно за единица време.
Като основа и критерий за правилността на изчисляване на средния темп на растеж (намаляване) се използва обобщаващ показател, който се изчислява като произведение на темповете на растеж на веригата, равни на темпа на растеж за целия разглеждан период. Ако стойността на атрибута се формира като продукт индивидуални опции, тогава се използва средната геометрична стойност.
Тъй като средният темп на растеж е средният коефициент на растеж, изразен като процент, тогава за еквивалентната серия от динамика изчисленията, използващи средната геометрична стойност, се свеждат до изчисляване на средните коефициенти на растеж от верижните, като се използва „верижен метод“:

Където n е броят на факторите на растеж на веригата;
kts- верижни растежни фактори;
Kb - основен темп на растеж за целия период.
Определяне на средния растежен факторможе да се опрости, ако нивата на динамичния ред са ясни. Тъй като произведението на верижните растежни фактори е равно на основния, основният растежен фактор се замества в радикалния израз.
Формула за определяне на средния коефициент на растежза равноотдалечени серии от динамика според "основния метод" ще бъде както следва:

36.

Какви са абсолютните показатели за промени в нивото на сериала, които са ви известни?

Всички тези показатели могат да се определят по основния начин, когато нивото даден периодв сравнение с първия (основен) период или по верижен начин - когато се сравняват две нива на съседни периоди.

Напишете формули за изчисление.

Основната абсолютна промяна е разликата между отделните и първите нива на серията, определена по формулата

Той показва колко (в единици индикатори от серията) нивото на един (i-ти) период е повече или по-малко от първото (основно) ниво и следователно може да има знак "+" (с увеличение в нива) или „–“ (с намаляване на нивата).

Верижната абсолютна промяна е разликата между конкретните и предишните нива на серията, определя се по формулата

Той показва колко (в единици индикатори от серията) нивото на един (i-ти) период е повече или по-малко от предишното ниво и може да има знак "+" или "-".

Обяснете как методът на изчисление зависи от избора на базата за сравнение.

Какви относителни показатели за промяна в нивото на серията са ви известни? Напишете формули за изчисление.

Основната относителна промяна (базов темп на растеж или основен индекс на динамика) е съотношението на конкретно и първо ниво на серията, определено по формулата

Относителното изменение на веригата (скорост на растеж на веригата или индекс на динамика на веригата) е съотношението на конкретно и предишни нива на серията, определено по формулата

Обяснете как методът на изчисление зависи от избора на базата за сравнение.

Относителната промяна показва колко пъти нивото на даден период е по-голямо от нивото на който и да е предишен период (за i > 1) или каква част от него е (за i<1). Относительное изменение может выражаться в виде коэффициентов, то есть простого кратного отношения(если база сравнения принимается за единицу), и в процентах (если база сравнения принимается за 100 единиц) путем домножения относительного изменения на 100%.

37.

Какви са средните показатели за промяна в нивото на сериала, които познавате? Напишете формулите за изчисляване на средния абсолютен прираст, темпа на растеж и темпа на растеж на нивата на реда.

Средният абсолютен прираст се определя като средната стойност на абсолютния прираст за равни периоди от време в един период. Изчислява се по формулите: 1. Въз основа на верижни данни за абсолютния прираст за няколко години, средният абсолютен прираст се изчислява като проста средна аритметична:

Където n е броят на степенните абсолютни увеличения в периода, който се изследва.

2. Средният абсолютен прираст се изчислява чрез основния абсолютен прираст при равни интервали

Където m - броят нива на поредица от динамика в периода на изследване, включително базовия.

Средният темп на растеж е свободна обобщаваща характеристика на интензивността на промените в нивата на поредица от динамики и показва колко пъти средно се променя нивото на поредица от динамики за единица време.

Като основа и критерий за правилността на изчисляване на средния темп на растеж (намаляване) се използва обобщаващ показател, който се изчислява като произведение на темповете на растеж на веригата, равни на темпа на растеж за целия разглеждан период. Ако характерната стойност се формира като продукт на отделни опции, тогава се използва средната геометрична стойност.

Тъй като средният темп на растеж е средният коефициент на растеж, изразен като процент, тогава за еквивалентната серия от динамика изчисленията, използващи средната геометрична стойност, се свеждат до изчисляване на средните коефициенти на растеж от верижните, като се използва „верижен метод“:

Където n е броят на факторите на растеж на веригата;

Кц - верижни коефициенти на растеж;

Kb - основен темп на растеж за целия период.

Скоростта на изменение (темп на нарастване) на нивата е относителен показател, показващ колко процента дадено ниво е повече (или по-малко) от друго, взето като база за сравнение. Изчислява се чрез изваждане на 100% от относителната промяна, тоест по формулата:

или като процент от абсолютната промяна спрямо нивото, спрямо което се изчислява абсолютната промяна (базова линия), т.е. съгласно формулата:

.

Какви са недостатъците на тези индикатори? В какви случаи е подходящо да ги използвате? Как могат да бъдат коригирани тези недостатъци? Напишете формули за изчисляване на средни стойности, които гарантират запазване на общата стойност на реда.

38.

Как да определим вида на основната тенденция по стойностите на индикаторите за промени в нивата на серията? Дай примери.

Идентифицирането на общата тенденция на динамичния ред може да се извърши чрез изглаждане на динамичния ред с помощта на метода на пълзящата средна стойност. Същността на тази техника е, че изчислените (теоретични) нива се определят от началните нива на серията (емпирични данни).

Основното условие за прилагане на този метод е да се изчислят подвижните (пълзящи) средни връзки от такъв брой нива на серията, който съответства на продължителността на динамиката на цикъла, наблюдавана в серията.

ОТГОВОР

Количествената оценка на близостта на комуникацията според емпиричните данни се състои в изчисляване на показателите за близост на комуникацията:

· Емпиричен коефициент на детерминация (емпиричен коефициент на дисперсия) - r 2 .

Този показател се изчислява според данните на аналитичната групировка (таблица), като отношение на междугруповата дисперсия на резултатния признак Y (d y 2) към общата дисперсия Y (s y 2):

Съгласно теоремата за разлагане на дисперсията междугруповата дисперсия е свързана с общата дисперсия: s y 2 =d y 2 +e y 2 . Тогава емпиричният коефициент на детерминация може да се изчисли чрез остатъчната дисперсия по формулата:

където s j 2 е дисперсията на резултата Y в рамките на j-тата група.

Емпиричният коефициент на определяне характеризира силата на влиянието на групиращия признак (X) върху формирането на общата вариация на резултантния атрибут Y и показва процента (дяла) на вариацията на резултатния атрибут, дължащ се на фактора на атрибута, лежащ в основата групирането.

Удобно е да се изчисли r 2 в таблицата:

Знаков фактор X j Nj Средна стойност на признака-резултат s j 2 N j
x1 N 1 s 1 2 N 1
x2 N 2 s 2 2 N 2
.... ...
X m Nm s m 2 N m
Обща сума н х es j 2

Тогава .

Помислете за пример. Нека е дадено множество от 20 работници, характеризиращо се със следните характеристики: Y - продукцията на работник (парче / смяна) и X - квалификация (ранг). Първоначалните данни са представени в таблицата:

х
Y

Необходимо е да се оцени близостта на връзката между характеристиките с помощта на емпиричния коефициент на детерминация (r 2).

За да изчислим r 2, ще извършим аналитично групиране на съвкупността. Като знак-фактор приемаме X (категорията на работника), като знак-резултат - Y, продукцията на работника). Аналитичното групиране се извършва на базата на X. В този случай то ще бъде дискретно (тъй като стойностите на атрибута X се повтарят доста често). Броят на групите е равен на броя на стойностите на атрибута X в съвкупността, т.е. 6. Резултатите от групирането и изчисляването на r 2 са обобщени в таблицата:

Знаков фактор X Атрибут на резултата Y Брой единици в група, N j Средната стойност на знака-резултат в групата, ( - ) 2 N j Дисперсия на признака-резултат в групата, s 2 j s 2 j N j
(10+12+13)/3=11,7 (11,7-17,1) 2 3=88,56 s 2 1 \u003d ((10-11,7) 2 + (12-11,7) 2 + (13-11,7) 2) / 3 \u003d 1,56 4,7
(11+14)/2=12,5 (12,5-17,1) 2 2=42,3 s 2 2 \u003d ((11-12,5) 2 + (14-12,5) 2) / 2 \u003d 2,25 4,5
(12+13+15+16)/4= 14 (14-17,1) 2 4=38,4 s 2 3 \u003d ((12-14) 2 + (13-14) 2 + (15-14) 2 + (16-14) 2) / 4 \u003d 2,5
(15+17+17+18)/4= 16,75 (16,75-17,1) 2 4=0,49 s 2 4 \u003d ((15-16,75) 2 + (17-16,75) 2 ++ (17-16,75) 2 + (18-16,75) 2) / 4 \u003d 1,9 4,75
(18+20+22)/3=20 (20-17,1) 2 3=25,23 s 2 5 \u003d ((18-20) 2 + (20-20) 2 + (22-20) 2) / 3 \u003d 2,7
(23+24+27+25)/4= 24,75 (24,75-17,1) 2 4=234,1 s 2 6 \u003d ((23-24,75) 2 + (24-24,75) 2 + (27-24,75) 2 + (25-24,75) 2) / 4 \u003d 2,19 8,75
=17,1 429,1 40,7

Емпиричният коефициент на детерминация е равен на съотношението на междугруповата вариация на резултатния атрибут (d y 2) към общата вариация на резултатния атрибут (s y 2): r 2 = d y 2 /s y 2 = d y 2 /(d y 2 +e y 2).

Междугруповата дисперсия Y ще бъде равна на: d y 2 = å( - ) 2 N j / N = 429.1/20=21.45.

Остатъчната дисперсия Y ще бъде: e y 2 = ås 2 j ·N j / N= 40,7/20= 2,035.

Тогава: r 2 \u003d 21,45 / (21,45 + 2,035) \u003d 429,1 / (429,1 + 40,7) \u003d 0,913.

Извод: 91,3% от вариацията в продукцията на работниците се дължи на влиянието на фактора освобождаване.

· Емпирична корелационна връзка - r.

Този показател е коренът на емпиричния коефициент на детерминация. Той показва плътността на връзката (не само линейна!) между групирането и продуктивните характеристики. Диапазонът на допустимите стойности на емпиричното съотношение на корелация е от 0 до +1.

Най-близката възможна връзка е функционална връзка, когато всяка стойност на резултата Y се определя еднозначно от стойността на фактора X (т.е. резултатът от групирането). В този случай дисперсията на груповите средни (d y 2) е равна на общата дисперсия (s y 2), т.е. няма да има вътрешногрупови вариации. В този случай остатъчната дисперсия (e y 2) е равна на 0, а емпиричният коефициент на детерминация е равен на 1.

Ако няма връзка между признаците, тогава всички групови средни са равни помежду си, няма да има междугрупова вариация (d y 2 =0) и емпиричният коефициент на детерминация е 0.

Нека изчислим емпиричното съотношение на корелация за нашия пример: r= 0,9555. Заключение: знаците "производство на работник" и "уволнение" са доста тясно свързани.

Индикаторите r и r 2 се определят не само от наличието на връзка между характеристиките X и Y, но и от факта на групиране на първичните данни. С увеличаването на броя на групите m междугруповата дисперсия d 2 нараства и се доближава до общата дисперсия. Ако броят на групите е по-малък от броя на популационните единици N, тогава стойностите на r и r 2 никога няма да бъдат равни на 1, дори при строга функционална връзка.

Обърнете внимание, че стойността на показателя за близост на връзката сама по себе си не е доказателство за наличието на причинно-следствена връзка между изследваните признаци, а е оценка на степента на взаимно съответствие в промените в признаците. Установяването на причинно-следствената връзка задължително трябва да бъде предшествано от анализ на качествения характер на явленията.

Емпирична корелационна връзка

Близостта или силата на връзката между две характеристики може да бъде измерена чрез индикатор, наречен емпирично съотношение на корелация. Този показател се нарича емпиричен, тъй като може да се изчисли въз основа на обичайното групиране по фактор и резултатен признак, т.е. въз основа на корелационна таблица. Емпиричното корелационно отношение се получава от правилото за добавяне на дисперсии, според което , където е общата дисперсия; - междугрупова дисперсия; - вътрешногрупова (средно частна) дисперсия. Междугруповата дисперсия е мярка за флуктуация, дължаща се на факторна черта. Средната стойност на частичните дисперсии е мярка за флуктуация, дължаща се на всички други (с изключение на факторни) характеристики. Тогава съотношението изразява дела на флуктуацията, възникваща поради знака на фактора в общата флуктуация. Корен квадратен от това съотношение се нарича емпирично съотношение на корелация: .

Това предполага правилото, че колкото по-голяма е междугруповата вариация, толкова по-силно факторната черта влияе върху вариацията на резултантната черта. Съотношенията на компонентите на дисперсиите се изчисляват от данните от корелационната таблица, като се използват следните формули:

; ,

къде са частните средни стойности; - обща авария; - общо на база ; - общо на база ; - брой наблюдения. Същата връзка се запазва и за условните стойности, получени чрез числена трансформация.

Самото съотношение на дисперсията (радикалният израз) се нарича коефициент на детерминация (той също е равен на квадрата на емпиричното съотношение на корелация). Емпиричното съотношение на корелация варира в широк диапазон (от 0 до 1). Ако е равен на нула, тогава знакът на фактора не влияе върху знака на корелация. Ако =1, тогава резултантният знак изцяло зависи от фактора едно. Ако емпиричното съотношение на корелация е дроб, близък до единица, тогава се говори за тясна връзка между факторните и ефективните характеристики. Ако тази част е малка (близо до нула), тогава се говори за слаба връзка между тях.

Емпирична корелационна връзка

Използват се няколко показателя за измерване на близостта на асоциацията. При двойна връзка плътността на връзката се определя преди всичко от съотношението на корелация, което се обозначава с η. Квадратът на съотношението на корелация е съотношението на междугруповата дисперсия на резултантния признак, който изразява ефекта от разликите в признака на групиращия фактор върху средната стойност на резултантния признак, към общата дисперсия на резултантния признак, който изразява въздействие на всички причини и условия върху него. Квадратът на съотношението на корелация се нарича коефициент на детерминация.

всички явления и техните признаци: ________________ или строго детерминирани

където k е броят на групите

N е броят на наблюденията

y i - начални стойности на ефективната характеристика

y j - средни стойности на ефективния атрибут за тази група

y е средната стойност на характеристиката

f j е размерът на групата

Горната формула се използва при изчисляване на показателя за близост на връзката за аналитична група. При изчисляване на коефициента на корелация по ниво на комуникация се използва следната формула:

Сумата от квадратите в числителя е дисперсията на резултантната характеристика y, обяснена чрез връзката с фактора x (фактори). Изчислява се от индивидуални данни, получени за всяка единица от съвкупността въз основа на регресионното уравнение.

Ако уравнението е избрано неправилно или е направена грешка при изчисляването на неговите параметри, тогава сумата от квадратите в числителя може да бъде по-голяма от тази в знаменателя и съотношението ще загуби значението, което трябва да има. За да избегнете грешен резултат, по-добре е да изчислите съотношението на корелация, като използвате следната формула:

Тази формула се основава на добре известното правило за разширяване на сумите на квадратните отклонения при групиране на съвкупността:

д често срещани= D интергр+D интрагр

Съгласно това правило, вместо междугруповата (факториална) дисперсия, можете да използвате разликата:

д често срещаниинтрагр

Какво дава:

Когато изчисляваме η не чрез групиране, а чрез корелационното уравнение (регресионно уравнение), използваме формулата. В този случай правилото за разлагане на сумата от квадратите на отклоненията на резултантната характеристика се записва като

D общо \u003d D ядро ​​+ D почивка

Най-важният момент, който сега трябва да научи всеки, който иска да приложи правилно метода на корелационно-регресионния анализ, е интерпретацията на формули (1.2) и (1.3). Тази разпоредба гласи:

Корелационното уравнение измерва връзката между вариацията на резултантната характеристика и вариацията на факторната характеристика(и). Мерките за плътност на връзката измерват пропорцията на вариацията на резултантната характеристика, която е свързана с вариацията на факторната характеристика (характеристики).

| следваща лекция ==>

Връх