Емпиричният коефициент на детерминация показва. За нашия пример, емпиричната корелация

Какво се има предвид под дисперсия в рамките на групата за популация? Каква е формулата за изчисляването му? Дай пример. Какво се разбира под вариация на междугруповата популация? Каква е формулата за изчисляването му? Дай пример.

Вътрешногрупова дисперсия () показва произволна вариация, която не зависи от признака, лежащ в основата на групирането.

, където

Групово средно

Средната вътрешногрупова дисперсия се изчислява, както следва: първо се изчисляват дисперсиите за отделните групи (), след това се изчислява средната вътрешногрупова дисперсия:

Характеризира систематичната вариация, т.е. разлики в големината на изследвания признак, който е в основата на групирането. Тази дисперсия се изчислява по формулата

, където

Средна стойност за отделна група

n i- брой единици в групата

- общата средна аритметична стойност на цялата изследвана популация.

И трите вида дисперсия са взаимосвързани: общата дисперсия е равна на сумата от средната вътрешногрупова дисперсия и междугруповата дисперсия:

Това съотношение отразява закона, който се нарича правило за добавяне на дисперсии.

20.

Какво се разбира под обща вариация на съвкупността? Каква е формулата за изчисляването му? Начинът, по който са групирани групите, влияе ли върху общата дисперсия? Дай пример.

Общата вариация () характеризира вариацията на признака на цялата популация под влиянието на всички онези фактори, които са причинили тази вариация. Тази стойност се определя по формулата

, където

общата средна аритметична стойност на цялата изследвана популация.

От друга страна, общата дисперсия е равна на сбора от средната вътрешногрупова дисперсия и междугруповата дисперсия:

Това съотношение отразява закона, който се нарича правило за добавяне на дисперсии.. Благодарение на правилото за добавяне на дисперсии е възможно да се определи каква част от общата дисперсия е под влиянието на характерния фактор, лежащ в основата на групирането.

Колкото по-висок е делът на междугруповата вариация в общата вариация, толкова по-силно е влиянието на факторния атрибут (ранг) върху резултата (производство).

Тази пропорция се характеризира с емпиричен коефициент на детерминация:

За качествена оценка на близостта на връзката между знаците се използват отношенията на Чадок.

0-0,2

0,2-0,3

0,3-0,5

0,5-0,7

0,7-0,9

0,9-0,99

Сила на връзката

липсва

много слаб

слаб

умерено

забележим

близо

много близо

функционален-

назален

21.

Какво показва коефициентът на детерминация? Каква е формулата за изчисляването му? В какви единици се измерва този показател? Какви са възможните стойности за този показател? Какво показва емпиричната корелация? Каква е формулата за изчисляването му? В какви единици се измерва този показател? Какви са възможните стойности за този показател?

Емпиричен коефициент на детерминация () характеризира дела на междугруповата вариация в общата вариация:

Приема стойности от -1 до 1 и показва доколко вариацията на признака в съвкупността се дължи на групиращия фактор.

Междугрупова дисперсия;

обща дисперсия.

Определя се по формулата:

Приема стойности -1 към 1

Пример

Група

Брой фабрики в групата, бр.

Средна брутна продукция в сравними цени, милиона рубли

Нека сега определим средната стойност, общата дисперсия и междугруповата дисперсия на брутната продукция в сравними цени на фабриките:

милиона рубли;

Милион rub.2;

Милион rub.2.

Коефициентът на определяне ще бъде равен на:

В резултат на това емпиричното съотношение на корелация ще бъде равно на:

Изчислената стойност на емпиричния коефициент на корелация показва доста висока статистическа връзка между брутната продукция в съпоставими цени и средната годишна цена на дълготрайните производствени фондове на предприятията.

22.

Как се изчислява тестова статистика при едномерен дисперсионен анализ? Какъв е законът на неговото разпределение при валидност на основната хипотеза? Какви са параметрите на този закон? Как се взема решение при еднопосочен дисперсионен анализ въз основа на изчислената стойност на критериалната статистика?

Задачата на дисперсионния анализ е да се изследва влиянието на един или повече фактори върху разглеждания признак.

Еднопосочен дисперсионен анализ се използва, когато са налични три или повече независими извадки, получени от една и съща обща популация чрез промяна на някакъв независим фактор, за който по някаква причина няма количествени измервания.

Като критерий е необходимо да се използва критерият на Фишер:

., където

Q 1 е сумата от квадратите на отклоненията на извадковите средни стойности от общата средна стойност

Q 2 е сумата от квадратите на отклоненията на наблюдаваните стойности от средната стойност на извадката

Ако изчислената стойност на критерия на Фишър е по-малка от табличната стойност, няма причина да се смята, че независимият фактор влияе върху разпространението на средните стойности ( тези. хипотезата не беше потвърдена). В противен случай независимият фактор има значителен ефект върху разпространението на средните стойности ( хипотезата е вярна).

23-25.

1. На равни интервали използвайте простата средна аритметична стойност:

където y са абсолютните нива на серията;
н- броя на нивата в серията.
2. За неравни интервали използвайте среднопретеглената аритметична стойност:

където u 1 ,...,уn - нива на редицата от динамика;
t1,... tn - тегла, продължителност на времеви интервали.

Средно ниво на моментни серии динамиката се изчислява по формулата:
1. При равноотдалечени нива се изчислява по формулата на средната серия от хронологични моменти:

където u 1 ,...,уn - нива на периода, за който се извършва изчислението;
н- брой нива;
n-1 - продължителност на периода от време.
2. В неравеннива се изчислява с помощта на формулата за хронологично претеглена средна стойност:

където u 1 ,...,уn - нива на динамични редове;
T- интервал от време между съседни нива

в статистиката

Среден абсолютен прираст се определя като средната стойност на абсолютните печалби за равни интервали от време на един период. Изчислява се по формулите: 1. Въз основа на верижни данни за абсолютния прираст за няколко години, средният абсолютен прираст се изчислява като проста средна аритметична:

където n е броят на степенните абсолютни увеличения в периода, който се изследва.
2. Изчислява се средното абсолютно увеличениепрез основния абсолютен прираст при равни интервали

където m - броят нива на поредица от динамика в периода на изследване, включително базовия.

Среден темп на растеж е свободна обобщаваща характеристика на интензивността на изменение на нивотодинамични серии и показва колко пъти нивото на серията от динамика се променя средно за единица време.
Като основа и критерий за правилността на изчисляване на средния темп на растеж (намаляване) се използва обобщаващ показател, който се изчислява като произведение на темповете на растеж на веригата, равни на темпа на растеж за целия разглеждан период. Ако стойността на атрибута се формира като продукт индивидуални опции, тогава се използва средната геометрична стойност.
Тъй като средният темп на растеж е средният коефициент на растеж, изразен като процент, тогава за еквивалентната серия от динамика изчисленията, използващи средната геометрична стойност, се свеждат до изчисляване на средните коефициенти на растеж от верижните, като се използва „верижен метод“:

където n е броят на факторите на растеж на веригата;
kts- верижни растежни фактори;
Kb - основен темп на растеж за целия период.
Определяне на средния растежен факторможе да се опрости, ако нивата на динамичния ред са ясни. Тъй като произведението на верижните растежни фактори е равно на основния, основният растежен фактор се замества в радикалния израз.
Формула за определяне на средния коефициент на растежза равноотдалечени серии от динамика според "основния метод" ще бъде както следва:

36.

Какви са абсолютните показатели за промени в нивото на сериала, които са ви известни?

Всички тези показатели могат да се определят по основния начин, когато нивото даден периодсравняват се с първия (основен) период или по верижен начин - когато се сравняват две нива на съседни периоди.

Напишете формули за изчисление.

Основната абсолютна промяна е разликата между отделните и първите нива на серията, определена по формулата

Той показва колко (в единици индикатори от серията) нивото на един (i-ти) период е повече или по-малко от първото (основно) ниво и следователно може да има знак "+" (с увеличение в нива) или „–“ (с намаляване на нивата).

Верижната абсолютна промяна е разликата между конкретните и предишните нива на серията, определя се по формулата

Той показва колко (в единици индикатори от серията) нивото на един (i-ти) период е повече или по-малко от предишното ниво и може да има знак "+" или "-".

Обяснете как методът на изчисление зависи от избора на базата за сравнение.

Какви относителни показатели за промяна в нивото на серията са ви известни? Напишете формули за изчисление.

Основната относителна промяна (базов темп на растеж или основен индекс на динамика) е съотношението на конкретно и първо ниво на серията, определено по формулата

Относителното изменение на веригата (скорост на растеж на веригата или индекс на динамика на веригата) е съотношението на конкретно и предишни нива на серията, определено по формулата

Обяснете как методът на изчисление зависи от избора на базата за сравнение.

Относителната промяна показва колко пъти нивото на даден период е по-голямо от нивото на който и да е предишен период (за i > 1) или каква част от него е (за i<1). Относительное изменение может выражаться в виде коэффициентов, то есть простого кратного отношения(если база сравнения принимается за единицу), и в процентах (если база сравнения принимается за 100 единиц) путем домножения относительного изменения на 100%.

37.

Какви са средните показатели за промяна в нивото на сериала, които познавате? Напишете формулите за изчисляване на средния абсолютен прираст, темпа на растеж и темпа на растеж на нивата на реда.

Средният абсолютен прираст се определя като средната стойност на абсолютния прираст за равни периоди от време в един период. Изчислява се по формулите: 1. Въз основа на верижни данни за абсолютния прираст за няколко години, средният абсолютен прираст се изчислява като проста средна аритметична:

където n е броят на степенните абсолютни увеличения в периода, който се изследва.

2. Средният абсолютен прираст се изчислява чрез основния абсолютен прираст при равни интервали

където m - броят нива на поредица от динамика в периода на изследване, включително базовия.

Средният темп на растеж е свободна обобщаваща характеристика на интензивността на промените в нивата на поредица от динамики и показва колко пъти средно се променя нивото на поредица от динамики за единица време.

Като основа и критерий за правилността на изчисляване на средния темп на растеж (намаляване) се използва обобщаващ показател, който се изчислява като произведение на темповете на растеж на веригата, равни на темпа на растеж за целия разглеждан период. Ако характерната стойност се формира като продукт на отделни опции, тогава се използва средната геометрична стойност.

Тъй като средният темп на растеж е средният коефициент на растеж, изразен като процент, тогава за еквивалентната серия от динамика изчисленията, използващи средната геометрична стойност, се свеждат до изчисляване на средните коефициенти на растеж от верижните, като се използва „верижен метод“:

където n е броят на факторите на растеж на веригата;

Кц - верижни коефициенти на растеж;

Kb - основен темп на растеж за целия период.

Скоростта на изменение (темп на нарастване) на нивата е относителен показател, показващ колко процента дадено ниво е повече (или по-малко) от друго, взето като база за сравнение. Изчислява се чрез изваждане на 100% от относителната промяна, тоест по формулата:

или като процент от абсолютната промяна спрямо нивото, спрямо което се изчислява абсолютната промяна (базова линия), т.е. съгласно формулата:

.

Какви са недостатъците на тези индикатори? В какви случаи е подходящо да ги използвате? Как могат да бъдат коригирани тези недостатъци? Напишете формули за изчисляване на средни стойности, които гарантират запазване на общата стойност на реда.

38.

Как да определим вида на основната тенденция по стойностите на индикаторите за промени в нивата на серията? Дай примери.

Идентифицирането на общата тенденция на динамичния ред може да се извърши чрез изглаждане на динамичния ред с помощта на метода на пълзящата средна стойност. Същността на тази техника е, че изчислените (теоретични) нива се определят от началните нива на серията (емпирични данни).

Основното условие за прилагане на този метод е да се изчислят подвижните (пълзящи) средни връзки от такъв брой нива на серията, който съответства на продължителността на динамиката на цикъла, наблюдавана в серията.

Емпирична корелационна връзка

Близостта или силата на връзката между две характеристики може да бъде измерена чрез индикатор, наречен емпирично съотношение на корелация. Този показател се нарича емпиричен, тъй като може да се изчисли въз основа на обичайното групиране по фактор и резултатен признак, т.е. въз основа на корелационна таблица. Емпиричната корелация се получава от правилото за добавяне на дисперсии, според което , където
- обща дисперсия;
- междугрупова дисперсия;
- вътрешногрупова (средно частна) дисперсия. Междугруповата дисперсия е мярка за флуктуация, дължаща се на факторна черта. Средната стойност на частичните дисперсии е мярка за флуктуация, дължаща се на всички други (с изключение на факторни) характеристики. Тогава съотношението изразява дела на флуктуацията, възникваща поради знака на фактора в общата флуктуация. Корен квадратен от това съотношение се нарича емпирично съотношение на корелация:
.

Това предполага правилото, че колкото по-голяма е междугруповата вариация, толкова по-силно факторната черта влияе върху вариацията на резултантната черта. Съотношенията на компонентите на дисперсиите се изчисляват от данните от корелационната таблица, като се използват следните формули:

;
,

къде са частните средни стойности; - обща авария; - суми по признак ; - суми по признак ;
- брой наблюдения. Същата връзка важи и за условните стойности
, получен чрез числено преобразуване .

Самото съотношение на дисперсията (радикалният израз) се нарича коефициент на детерминация (той също е равен на квадрата на емпиричното съотношение на корелация). Емпиричното съотношение на корелация варира в широк диапазон (от 0 до 1). Ако е равен на нула, тогава знакът на фактора не влияе върху знака на корелация. Ако =1, което означава, че резултатният знак изцяло зависи от фактора едно. Ако емпиричното съотношение на корелация е дроб, близък до единица, тогава се говори за тясна връзка между факторните и ефективните характеристики. Ако тази част е малка (близо до нула), тогава се говори за слаба връзка между тях.

Линеен коефициент на корелация и индекс на корелация

Мярка за близостта на връзката между две статистически свързани характеристики е коефициентът на линейна корелация или просто коефициентът на корелация. Има същото значение като емпиричното съотношение на корелация, но може да приема както положителни, така и отрицателни стойности. Коефициентът на корелация има строг математически израз за линейна връзка. Положителна стойност ще покаже пряка връзка между характеристиките, отрицателна стойност ще покаже обратното.

Коефициентът на корелация на двойката в случай на линейна форма на комуникация се изчислява по формулата

,

и извадковата му стойност - по формулата

При малък брой наблюдения е удобно да се изчисли коефициентът на корелация на извадката, като се използва следната формула:

Стойността на корелационния коефициент се променя в интервала
.

При
има функционална връзка между двете променливи, когато
- пряка функционална връзка. Ако
, тогава стойностите на X и Y в извадката не са корелирани; ако системата от случайни величини
има двумерно нормално разпределение, тогава величините X и Y също ще бъдат независими.

Ако коефициентът на корелация е в интервала
, тогава има обратна корелация между X и Y. Това се потвърждава и от визуален анализ на първоначалната информация. В този случай отклонението на Y от средната стойност се приема с обратен знак.

Ако всяка двойка стойности на X и Y най-често е едновременно над (под) съответните средни стойности, тогава има пряка корелация между стойностите и коефициентът на корелация е в интервала
.

Ако, от друга страна, отклонението на стойността на X от средната стойност еднакво често причинява отклонения на стойността на Y надолу от средната стойност и отклоненията през цялото време са различни, тогава можем да приемем, че стойността на коефициентът на корелация клони към нула.

Трябва да се отбележи, че стойността на коефициента на корелация не зависи от мерните единици и избора на референтна точка. Това означава, че ако променливите X и Y се намалят (увеличат) с K пъти или със същото число C, тогава коефициентът на корелация няма да се промени.

За да се опрости изчисляването на мярката за плътност на корелацията, често се използва индексът на корелация, който се определя по следните формули:

,
,

където
- остатъчна дисперсия, характеризираща изменението на резултантния признак под въздействието на други неотчетени фактори.

Множествена корелация

Множествена корелация - зависимостта на резултатната и две или повече факторни характеристики, включени в изследването. Индикатор за близостта на връзката между резултата и два или повече факторни признака се нарича коефициент на множествена или кумулативна корелация и се означава с R. Кумулативният коефициент предполага наличието на линейна връзка между всяка двойка признаци, която може да бъде изразени с помощта на сдвоени коефициенти на корелация. Ако има кумулативна мярка за плътността на връзката между ефективната характеристика () и две факторни характеристики ( и ), тогава изчисляването на кумулативния коефициент на корелация се извършва по формулата:

,

Където долните индекси показват между кои характеристики се изследва връзката на двойката.

Във формулите за изчисляване на сдвоени коефициенти на корелация се променят само символите, обозначаващи един или друг фактор. Така че, ако коефициентът на корелация между и се изчислява по формулата , тогава коефициентът на корелация между и се изчислява: ; между и - така:

Селищна част

Задача 31

    За десет предприятия за отчетния период са налични следните данни:

таблица 2

предприятия

Средногодишната цена на дълготрайните производствени активи, млн. Рубли.

Изход, милиони рубли

За да проучите връзката между размера на средната годишна цена на дълготрайните активи и продукцията, изчислете уравнението на линейната зависимост.

2. Въз основа на дадените данни: а) изчислете: линеен коефициент на корелация; б) проверете правилността на избора на формата на комуникация чрез изчисляване на индекса на корелация.

    Използвайки процесора за електронни таблици Microsoft Excel, ще изградим работен лист:

Таблица 3

Изчисляване на суми за изчисляване на параметрите на уравнението на права линия

239,74 *1236 = 539,1 вероятностни разпределения... икономически анализ, решен на осн регресия икономическимодели. Нека разгледаме y - ефективен знак и x - знаци за фактор. Методи корелативно-регресия анализ ...

  • Програмата на дисциплината "Компютърни методи за анализ на социологически данни" (Въведение в математическата статистика и анализ на данни) За направление 040200. 68 "Социология"

    дисциплинарна програма

    Приложения. 11 3 2 6 Дисперсивен анализ 9 2 2 5 Двойни и многократни регресивен анализ 9 2 2 5 Свойства на коефициентите... от SPSS user 11.0 Siskov V.I. корелация анализв икономически изследвания. M. 1975. Eddous M., Stansfield...

  • G. L. Savitskaya анализ на икономическата дейност на предприятието

    Документ

    Съвършенство, най-нови техники икономически изследвания. Анализтрябва да е сложен. Сложността на изследването ... на нивото на средната часова продукция корелативно-регресивен анализ. в многофакторна корелациямодел на средночасова производителност...

  • 3. Емпиричното съотношение на корелация се изчислява по формулата

    Междугрупова дисперсия, която характеризира стойността на квадрата на отклонението на груповите средства от общата средна стойност на ефективния признак.

    Общата дисперсия, показваща средната стойност на квадратите на отклоненията на стойността на резултантния признак от тяхното средно ниво.

    Нека изградим таблица за изчисляване на общата дисперсия (вижте Таблица 8)

    Таблица 8

    Таблица с данни за определяне на общата дисперсия

    N, p / p Разходи за храна
    1 21 441
    2 16 256
    3 26,1 681,21
    4 28 784
    5 26 676
    6 22,5 506,25
    7 27,6 761,76
    8 35 1225
    9 23,9 571,21
    10 22,5 506,25
    11 15 225
    12 25,2 635,04
    13 29 841
    14 21,4 457,96
    15 24,9 620,01
    16 24,8 615,04
    17 16 256
    18 23,6 556,96
    19 27,2 739,84
    20 35 1225
    21 17 289
    22 23,8 566,44
    23 22,6 510,76
    24 25 625
    25 27 729
    26 30 900
    27 35 1225
    28 25,4 645,16
    29 27,2 739,84
    30 26,3 691,69
    Обща сума 750 19502,42

    Общата дисперсия на получения атрибут се изчислява по формулата:

    =

    Междугруповата дисперсия се изчислява по формулата:

    Нека изградим спомагателна таблица за изчисляване на данни (вижте Таблица 9)


    Таблица 9

    Таблица с данни за изчисляване на междугруповата дисперсия

    Номер на групата Брой домакинства, бр Разходи за храна, хиляди рубли
    Обща сума Средно на домакинство
    f
    1 28-40 3 48 16 -9 81 243
    2 40-52 5 105 21 -4 16 80
    3 52-64 12 300 25 0 0 0
    4 64-76 6 165 27,5 2,5 6,25 37,5
    5 76-88 4 132 33 8 64 256
    Обща сума 30 750 616,5

    Извод: връзката между факторите е много тясна, т.к приема стойности от 0,9 до 0,99.

    Коефициентът на детерминация е квадратът на емпиричната корелация. Следователно,

    (81,9%)

    Извод: продукцията в тези предприятия зависи от 81,9% от производителността на капитала и 18,1% от други фактори.

    Задача 3

    Въз основа на резултатите от задача 1, с вероятност 0,9543, определете:

    1. Извадковата грешка на средния брутен доход на лице от домакинство за година и границите, в които той ще бъде в генералната съвкупност.

    2. Извадкова грешка на дела на домакинствата с брутен доход под 52 хиляди рубли. и повече от милион рубли. и границите, в които ще се намира общият дял.

    1. Извадковата грешка за средната стойност се определя по формулата:

    , където

    дисперсия на извадката;

    n - размер на извадката;

    t е коефициентът на доверие, който се определя от таблицата със стойности на интегралната функция на Лаплас за дадена вероятност. В този случай при P=0,954 стойността t=2.

    N-брой единици в генералната съвкупност, N=6000 бр.

    Нека изчислим дисперсията. Данните ще бъдат представени под формата на таблица (виж Таблица 11).

    Таблица 11

    Данни за изчисляване на дисперсията на нивото на възвръщаемост на активите

    Номер на групата Групиране на домакинствата по брутен доход Брой домакинства, бр
    f
    1 28-40 3 34 -25,1 630,01 1890,03
    2 40-52 5 46 -13,1 171,61 858,05
    3 52-64 12 58 -1,1 1,21 14,52
    4 64-76 6 70 10,9 118,81 712,86
    5 76-88 4 82 22,9 524,41 2097,64
    Обща сума 30 5573,1

    Емпирична корелационна връзка

    Използват се няколко показателя за измерване на близостта на асоциацията. При двойна връзка плътността на връзката се определя преди всичко от съотношението на корелация, което се обозначава с η. Квадратът на съотношението на корелация е съотношението на междугруповата дисперсия на резултантния признак, който изразява ефекта от разликите в признака на групиращия фактор върху средната стойност на резултантния признак, към общата дисперсия на резултантния признак, който изразява въздействие на всички причини и условия върху него. Квадратът на съотношението на корелация се нарича коефициент на детерминация.

    всички явления и техните признаци: ________________ или строго детерминирани

    където k е броят на групите

    N е броят на наблюденията

    y i - начални стойности на ефективната характеристика

    y j - средни стойности на ефективния атрибут за тази група

    y е средната стойност на характеристиката

    f j е размерът на групата

    Горната формула се използва при изчисляване на показателя за близост на връзката за аналитична група. При изчисляване на коефициента на корелация по ниво на комуникация се използва следната формула:

    Сумата от квадратите в числителя е дисперсията на резултантната характеристика y, обяснена чрез връзката с фактора x (фактори). Изчислява се от индивидуални данни, получени за всяка единица от съвкупността въз основа на регресионното уравнение.

    Ако уравнението е избрано неправилно или е направена грешка при изчисляването на неговите параметри, тогава сумата от квадратите в числителя може да бъде по-голяма от тази в знаменателя и съотношението ще загуби значението, което трябва да има. За да избегнете грешен резултат, по-добре е да изчислите съотношението на корелация, като използвате следната формула:

    Тази формула се основава на добре известното правило за разширяване на сумите на квадратните отклонения при групиране на съвкупността:

    д често срещани=D интергр+D интрагр

    Съгласно това правило, вместо междугруповата (факториална) дисперсия, можете да използвате разликата:

    д често срещаниинтрагр

    Какво дава:

    Когато изчисляваме η не чрез групиране, а чрез корелационното уравнение (регресионно уравнение), използваме формулата. В този случай правилото за разлагане на сумата от квадратите на отклоненията на резултантната характеристика се записва като

    D общо \u003d D ядро ​​+ D почивка

    Най-важният момент, който сега трябва да научи всеки, който иска да приложи правилно метода на корелационно-регресионния анализ, е интерпретацията на формули (1.2) и (1.3). Тази разпоредба гласи:

    Корелационното уравнение измерва връзката между вариацията на резултантната характеристика и вариацията на факторната характеристика(и). Мерките за плътност на връзката измерват пропорцията на вариацията на резултантната характеристика, която е свързана с вариацията на факторната характеристика (характеристики).

    | следваща лекция ==>

    Емпиричното съотношение на корелация измерва каква част от общата флуктуация на резултантния атрибут е причинена от изследвания фактор. Средната емпирична корелация варира от 0 до 1.

    Обикновено се открива емпирична корелация в следните видовезадачи:

    • 1), когато е необходимо да се създаде аналитично групиране за две серии от данни X и Y
    • 2) групирането вече е направено, необходимо е да се провери правилото за добавяне на отклонения
    • 3) за две серии от данни X и Y е необходимо да се намери регресионното уравнение и да се оцени неговата значимост

    Формула за дисперсия алтернативна функция

    Въз основа на горното можем да изведем формула за намиране на дисперсията на алтернативен признак, ако знаем процента на такъв признак в общата извадка.

    Първоначално приемаме, че функцията приема само две стойности.

    По този начин сумата от съотношението на елементите, в които елементите на статистическата поредица имат стойност на атрибута "не" и елементите на поредицата, които имат стойност на атрибута "да", е равна на единица.

    За да намерим средната стойност на серията, заместваме стойностите на алтернативните характеристики (0 и 1) във формулата за намиране на среднопретеглената стойност на статистическата серия. Откъдето съвсем очевидно в знаменателя ще има единица, а в числителя процентната стойност на елементите "1". Тоест точно процентната стойност на елементи с атрибут "1". (Формула 2)

    Формулата за дисперсията е среднопретеглената стойност на квадратните отклонения на всяка стойност в серията данни. (Формула 3)

    Тъй като в нашата серия данните имат само два вида стойности - "0" и "1", тогава формулата за намиране на дисперсията за серия с алтернативна характеристика се свежда до Формула 4. Обяснение. тъй като току-що заключихме, че средната стойност на извадката е равна на p (Формула 2), тогава стойността на квадрата на разликата между стойността (0/1) и средната стойност, съгласно Формула 1, ще бъде (1- p)2 в първия случай и във втория случай (1-q)2 , като сега прилагаме следствието от първата формула: q = 1 - p, p = 1- q . Получаваме p2 и q2. Съответно съотношението на стойностите "0" и "1" е равно на p и q, в резултат на това в числителя и се оказва q2 p и p2 q. Сумата от дяловете на характеристиките на стойностите "0" и "1" според Формула 1 е равна на 1. В резултат на това Формула 4 приема стойността pq, която ще бъде равна на стойността на дисперсията на алтернативната функция. Въз основа на намерената стойност на дисперсията на алтернативния признак ще намерим стандартното отклонение (Формула 5). Като поставим стойността от Формула 1 във Формула 5, получаваме формулата за стандартно отклонение за дисперсията на серия с алтернативна характеристика.

    
    Горна част