Wzór na empiryczny współczynnik korelacji. Współczynnik determinacji i korelacja empiryczna

Rozwiązanie. Aby obliczyć dyspersje grupowe, obliczamy średnie dla każdej grupy:

szt.; SZT.

Pośrednie obliczenia wariancji według grup przedstawiono w tabeli. 3.2. Podstawiając otrzymane wartości do wzoru (3.4), otrzymujemy:

Średnia wariancji grupowych

Następnie obliczamy wariancję międzygrupową. Aby to zrobić, najpierw definiujemy ogólną średnią jako średnią ważoną średnich grupowych:

Teraz definiujemy wariancję międzygrupową

Zatem całkowita wariancja zgodnie z zasadą dodawania wariancji:

Sprawdźmy wynik, obliczając całkowitą wariancję w zwykły sposób:

Na podstawie zasady dodawania wariancji można wyznaczyć wskaźnik zbliżenia związku między grupowaniem (czynnikowym) a cechami efektywnymi. Nazywa się to empirycznym współczynnikiem korelacji, oznaczanym („to”) i oblicza się go wzorem

Dla naszego przykładu empiryczny relacja korelacji

.

Wartość 0,86 charakteryzuje istotny związek między grupowaniem a charakterystyką wykonania.

Wartość ta nazywana jest współczynnikiem determinacji i pokazuje udział wariancji międzygrupowej w wariancji całkowitej.

Wraz ze zmiennością cech ilościowych można zaobserwować również zmienność cech jakościowych. Takie badanie zmienności, jak dla proporcji cech ilościowych, uzyskuje się, obliczając i analizując następujące typy wariancji.

Wariancję wewnątrzgrupową udziału określa wzór

. (3.17)

Średnia wariancji wewnątrzgrupowych jest obliczana jako

. (3.18)

Wzór na wariancję międzygrupową wygląda następująco:

, (3.19)

gdzie n ja– liczba jednostek w osobnych grupach;

- odsetek badanej cechy w całej populacji, który określa wzór

Całkowita wariancja ma postać

. (3.21)

Trzy rodzaje dyspersji są ze sobą powiązane w następujący sposób:

. (3.22)

Przykład 3.4

Zdefiniujmy wariancje grupowe, średnią grupy, międzygrupową i całkowitą wariancje zgodnie z danymi w tabeli. 3.3.

Tabela 3.3

Liczba i środek ciężkości jedna z kategorii
obszar hodowli bydła



Rozwiązanie

Określmy udział krów mlecznych ogółem dla trzech gospodarstw:

Całkowita zmienność w proporcji krów mlecznych:

Wariancje wewnątrzgrupowe:

; ; .

Średnia wariancji wewnątrzgrupowych:

Wariancja międzygrupowa:

Stosując regułę dodawania wariancji otrzymujemy: 0,1025+0,0031=0,1056. Przykład jest poprawny.

Przykład 3.5

Według ankiety próbnej wynagrodzenie pracownicy sektora publicznego otrzymali następujące wskaźniki (tabela 3.4).

Tabela 3.4

Definiować:

1) przeciętne wynagrodzenie w dwóch branżach;

2) rozproszenie płac:

a) średnia dyspersji grupowych (branża),

b) intergrupa (międzysektorowa),

3) współczynnik determinacji;

4) korelacja empiryczna.

Rozwiązanie

1. Przeciętne wynagrodzenie pracowników w dwóch branżach oblicza się według wzoru (2.10):

pocierać.

2. Różnice w wynagrodzeniach:

a) średnia dyspersji grupowych zgodnie z (3.14)

b) dyspersja międzygrupowa zgodnie z (3.12)

c) całkowita wariancja uzyskana na podstawie reguły dodawania wariancji (3.15):

3. Współczynnik determinacji jest równy wartości

tych. lub 44,24%.

Wynika z niego, że wynagrodzenie w 44,24% zależy od branżowej przynależności pracowników, a 55,76% - od przyczyn wewnątrzbranżowych.

Zgodnie ze wzorem (3.16) empiryczny współczynnik korelacji ,

co wskazuje na istotny wpływ na zróżnicowanie wynagrodzeń o cechach sektorowych.

3.2. ZADANIA DO NIEZALEŻNEGO ROZWIĄZANIA

Zadanie 3.1

Zgodnie z rozkładem 60 pracowników według kategorii taryfowej dostępne są następujące dane (tabela 3.5).

Tabela 3.5

Definiować:

1) kategorię przeciętnego wynagrodzenia pracowników;

2) średnie odchylenie liniowe;

3) rozproszenie;

4) odchylenie standardowe;

5) współczynnik zmienności.

Zadanie 3.2

Zgodnie z wynikami sesji egzaminacyjnej I i II kierunków jednej z uczelni dostępne są następujące dane: na I roku sesję bez dwójek zdało 85% studentów, na II roku - 90%.

Określ dla każdego kursu wariancję proporcji uczniów, którzy pomyślnie zaliczyli sesję.

Zadanie 3.3

Spółki akcyjne regionu według średniej liczby zatrudnionych na dzień 1 stycznia 2004 r. rozkładały się następująco (tabela 3.6).

Tabela 3.6

Oblicz:

1) średnie odchylenie liniowe;

2) rozproszenie;

3) odchylenie standardowe;

4) współczynnik zmienności.

Zadanie 3.4

Istnieją dane o rozkładzie rodzin pracowników przedsiębiorstwa według liczby dzieci (tabela 3.7).

Tabela 3.7

Oblicz:

1) rozproszenie wewnątrzgrupowe;

2) średnia dyspersji wewnątrzgrupowych;

3) rozproszenie międzygrupowe;

4) całkowita wariancja.

Sprawdź poprawność obliczeń stosując zasadę dodawania wariancji.

Zadanie 3.5

Rozkład kosztów produktów przeznaczonych na eksport przez sklepy przedsiębiorstwa przedstawiają następujące dane (tabela 3.8).

Tabela 3.8

Oblicz:

1) średni udział wewnątrzgrupowy, międzygrupowy i łączny udział produktów eksportowych;

2) współczynnik determinacji i korelacji empirycznej.

Zadanie 3.6

Według ankiety banków komercyjnych w mieście 70% całkowitej liczby klientów stanowiły osoby prawne ze średnią pożyczką w wysokości 120 tysięcy rubli. oraz współczynnik zmienności 25% i 20% - osoby fizyczne ze średnią wielkością pożyczki 20 tysięcy rubli. ze średnim odchyleniem kwadratowym 6 tysięcy rubli.

Korzystając z reguł dodawania wariancji, określ stopień zbliżenia między wielkością pożyczki a typem klienta, obliczając empiryczny współczynnik korelacji.

Sekcja 4. Selektywna obserwacja

4.1. INSTRUKCJE METODOLOGICZNE
I ROZWIĄZANIE TYPOWYCH ZADAŃ

Celem obserwacji próby jest określenie cech populacji ogólnej - średniej ogólnej (o) i udziału ogólnego ( R). Charakterystyka populacji próby - średnia próbki () i udział próbki () różnią się od ogólnej charakterystyki wielkością błędu próbkowania (). Dlatego do wyznaczenia cech populacji ogólnej konieczne jest obliczenie błędu doboru próby, czyli błędu reprezentatywności, który określają formuły opracowane w rachunku prawdopodobieństwa dla każdego rodzaju próby i metody doboru.

Prawidłowe pobieranie próbek losowych i mechanicznych. W przypadku losowego ponownego próbkowania, marginalny błąd próby dla średniej () i dla proporcji () oblicza się ze wzorów

; (4.1)

(4.2)

gdzie jest wariancja populacji próby;

n- wielkość próbki;

t jest współczynnikiem ufności, który określa się z tabeli wartości funkcji całkowej Laplace'a dla danego prawdopodobieństwa ( P doz.) (Tabela A1).

Przy nie powtarzalnej selekcji losowej i mechanicznej marginalny błąd próbkowania oblicza się za pomocą wzorów

; (4.3)

, (4.4)

gdzie N- wielkość populacji ogólnej.

Przykład 4.1

W celu określenia zawartości popiołu węgla w złożu przebadano losowo 100 próbek węgla. W wyniku przeprowadzonych badań stwierdzono, że średnia zawartość popiołu w węglu w próbce wynosi 16%, odchylenie standardowe 5%. W dziesięciu próbkach zawartość popiołu w węglu wynosiła ponad 20%. Z prawdopodobieństwem 0,954 określić granice, w jakich będzie się mieścić średnia zawartość popiołu węgla w złożu oraz udział węgla o zawartości popiołu powyżej 20%.

Rozwiązanie

Średnia zawartość popiołu w węglu będzie mieścić się w granicach

Aby określić granice średniej ogólnej, obliczamy marginalny błąd próbkowania dla średniej za pomocą wzoru (4.1):

. (4.5)

Z prawdopodobieństwem 0,954 można argumentować, że średnia zawartość popiołu węgla w złożu będzie się mieścić w granicach 16% 1% lub 15% 17%.

Udział węgla o zawartości popiołu powyżej 20% będzie mieścił się w granicach

Udział próbki określa wzór

gdzie m to odsetek jednostek z funkcją

Błąd próbkowania dla udziału () oblicza się według wzoru (4.2):

lub ±6%.

Z prawdopodobieństwem 0,954 można argumentować, że udział węgla o zawartości popiołu powyżej 20% w złożu będzie mieścił się w granicach , lub .

Przykład 4.2

Aby określić średni okres korzystania z kredytu krótkoterminowego w banku, wykonano 5% próbkę mechaniczną, która obejmowała 100 rachunków. W wyniku przeprowadzonej ankiety ustalono, że średni okres korzystania z pożyczki krótkoterminowej wynosi 30 dni przy odchyleniu standardowym wynoszącym 9 dni. Na pięciu rachunkach okres korzystania z kredytu przekroczył 60 dni. Z prawdopodobieństwem 0,954 określ limity, w jakich będzie mieścił się okres korzystania z kredytu krótkoterminowego w populacji ogólnej oraz odsetek rachunków z terminem korzystania z kredytu krótkoterminowego dłuższym niż 60 dni.

Rozwiązanie

Średni termin skorzystanie z kredytu bankowego jest w zasięgu

.

Ponieważ pobieranie próbek jest mechaniczne, błąd pobierania próbek określa wzór (2.3):

dzień.

Z prawdopodobieństwem 0,954 można argumentować, że termin skorzystania z kredytu krótkoterminowego w banku wynosi = 30 dni 2 dni, lub

28 dni dziennie.

Udział pożyczek o terminie zapadalności powyżej 60 dni mieści się w

Udział próbki będzie

Błąd próbkowania dla udziału określa wzór (4.4):

lub 4,2%.

Z prawdopodobieństwem 0,954 można argumentować, że udział kredytów bankowych o terminie zapadalności powyżej 60 dni będzie mieścił się w lub

Typowa próbka. W typowej (strefowej) selekcji ogólna populacja jest podzielona na jednorodne typowe grupy, obszary. Przeprowadzany jest dobór jednostek obserwacji w zbiorze próby różne metody. Rozważ typową próbkę z proporcjonalną selekcją w typowych grupach.

Wielkość próby z typowej grupy w doborze proporcjonalnym do liczby typowych grup określa wzór

gdzie n ja to wielkość próby z typowej grupy;

N i to wielkość typowej grupy.

Błąd krańcowy średniej próby i proporcji dla nie powtarzających się losowych i sposób mechaniczny dobór w ramach typowych grup obliczany jest za pomocą wzorów

; (4.8)

, (4.9)

gdzie jest wariancja populacji próby.

Przykład 4.3

Aby określić średni wiek mężczyzn wstępujących w związek małżeński, sporządzono 5-procentową próbę typową w powiecie z doborem jednostek proporcjonalnie do wielkości typowych grup. W grupach zastosowano selekcję mechaniczną. Dane podsumowano w tabeli. 4.1.

Tabela 4.1

Z prawdopodobieństwem 0,954 określ granice, w których średni wiek mężczyźni pobrali się i odsetek mężczyzn poślubiających po raz drugi.

Rozwiązanie

Średni wiek małżeństwa dla mężczyzn mieści się w granicach

.

Średni wiek zawarcia małżeństwa mężczyzn w badanej populacji określa wzór średniej ważonej

= roku.

Średnia wariancja próbki jest określona wzorem
środek

=

Krańcowy błąd próbkowania obliczamy ze wzoru (4.8):

roku.

Z prawdopodobieństwem 0,954 można argumentować, że średni wiek mężczyzn zawierających małżeństwo będzie mieścił się w ciągu roku lub

24 lata.

Odsetek mężczyzn, którzy ponownie zawarli związek małżeński, będzie w granicach

Udział próbki określa wzór średniej

lub 14%.

Średnia wariancja próbki cechy alternatywnej jest obliczana ze wzoru

(4.12)

Błąd próbkowania dla udziału określa wzór (4.9):

lub 6%.

Z prawdopodobieństwem 0,954 można argumentować, że odsetek mężczyzn, którzy poślubią drugi raz, będzie mieścił się w granicach , lub .

seryjne pobieranie próbek. W przypadku seryjnej metody selekcji populację ogólną dzieli się na grupy o tej samej wielkości - serie. Serie są wybierane z zestawu próbek. W ramach serii prowadzona jest ciągła obserwacja jednostek wchodzących w szereg.

W przypadku nie powtarzającego się doboru szeregów błędy krańcowe średniej próby i proporcji określa wzór

, (4.13)

gdzie jest wariancja między seriami;

R to liczba serii w populacji ogólnej;

r– numer wybranej serii.

Przykład 4.4

W sklepie przedsiębiorstwa znajduje się 10 zespołów pracowników. W celu zbadania ich wydajności pracy przeprowadzono 20% próbę seryjną, która obejmowała 2 brygady. W wyniku przeprowadzonych badań stwierdzono, że średnia produkcja pracowników w zespołach wynosiła 4,6 i 3 t. Z prawdopodobieństwem 0,997 określ granice, w jakich będzie się mieścić średnia produkcja pracowników sklepu. t, lub t.

Przykład 4.5

W magazynie produkt końcowy Warsztat zawiera 200 pudełek z częściami, po 40 sztuk w każdym pudełku. Aby sprawdzić jakość gotowego produktu wykonano próbkę seryjną w ilości 10%. W wyniku pobrania próbek stwierdzono, że odsetek części wadliwych wynosi 15%. Wariancja próbki seryjnej wynosi 0,0049.

Z prawdopodobieństwem 0,997 określ granice, w których mieści się odsetek wadliwych produktów w partii pudełek.

Rozwiązanie

Proporcja wadliwych części będzie w granicach

Wyznaczmy marginalny błąd próbkowania dla udziału według wzoru (4.13):

lub 4,4%.

Z prawdopodobieństwem 0,997 można argumentować, że udział wadliwych części w partii mieści się w przedziale 10,6% 19,6%.

Przykład 4.6

W obwodzie składającym się z 20 powiatów przeprowadzono reprezentacyjne badanie plonów na podstawie doboru serii (powiatów). Średnie z próby dla powiatów wyniosły odpowiednio 14,5 c/ha; 16; 15,5; 15 i 14 q/ha. Z prawdopodobieństwem 0,954 znajdź granice wydajności na całym obszarze.

Rozwiązanie

Oblicz ogólną średnią:

ok./ha.

Wariancja międzygrupowa (między seriami)

Wyznaczmy teraz błąd krańcowy seryjnej niepowtarzalnej próbki (t = 2, P dov = 0,954) ze wzoru (4.13):

.

Dlatego plon w regionie (z prawdopodobieństwem 0,954) będzie się mieścił w granicach

15-1,7≤ ≤15+1,7,

13,3 szt./ha ≤ ≤16,7 szt./ha.

W praktyce projektowania obserwacji próby istnieje potrzeba znalezienia wielkości próby, co jest niezbędne do zapewnienia pewnej dokładności w obliczeniach ogólnych cech - średniej i proporcji. W tym przypadku marginalny błąd próbkowania, prawdopodobieństwo jego wystąpienia oraz zmienność cechy są znane z góry.

Przy losowym ponownym próbkowaniu wielkość próbki jest określana na podstawie wyrażenia

Przy losowej, nie powtarzalnej i mechanicznej selekcji wielkość próbki oblicza się według wzoru

. (4.16)

Dla typowej próbki

. (4.17)

Do seryjnego pobierania próbek

. (4.18)

Przykład 4.7

W powiecie mieszka 2000 rodzin. Planowane jest przeprowadzenie ich badania reprezentacyjnego metodą losowego doboru niepowtarzającego się w celu ustalenia średniej liczebności rodziny. Określ wymaganą wielkość próby, pod warunkiem, że z prawdopodobieństwem 0,954 błąd próby nie przekracza jednej osoby przy odchyleniu standardowym trzech osób ( = 3).

Rozwiązanie

Przy nie powtarzającym się losowym doborze liczebność próby zgodnie ze wzorem (4.16) będzie rodziny.

Wielkość próby: co najmniej 36 rodzin.

Przykład 4.8

Miasto A ma 10 000 rodzin. Za pomocą mechanicznego pobierania próbek ma określić proporcję rodzin z trojgiem dzieci lub więcej. Jaka powinna być wielkość próby, aby istniało prawdopodobieństwo 0,954, że błąd próby nie przekracza 0,02, jeśli wiadomo, że wariancja wynosi 0,2 z poprzednich badań?

Rozwiązanie

Wyznaczmy wymaganą wielkość próby według wzoru (4.16):

.

Wielkość próbki: nie mniej niż 1667.

W statystyce często konieczne jest porównanie wyników dwóch (lub więcej) próbek. Na podstawie porównania dwóch średnich próbek (lub udziałów) wyciąga się wniosek o losowości lub istotności ich rozbieżności.

W tym celu bezwzględną różnicę między wskaźnikami średnich z próby porównuje się ze średnim błędem różnicy:

. (4.19)

Znaleziony t oblicz. w porównaniu do t patka. na t- Rozkład Studenta (Tabela P2) dla liczby stopni swobody v=n 1 +n 2 -2 i dany poziom istotności a. (tutaj n 1 i n 2 – objętości porównywanych próbek).

Empiryczna relacja korelacji

Bliskość lub siłę związku między dwiema cechami można mierzyć wskaźnikiem zwanym empirycznym współczynnikiem korelacji. Wskaźnik ten nazywa się empirycznym, ponieważ można go obliczyć na podstawie zwykłego grupowania według czynnika i atrybutu wynikowego, czyli na podstawie tabeli korelacji. Korelację empiryczną uzyskuje się z reguły dodawania wariancji, zgodnie z którą , gdzie
- całkowita wariancja;
- rozproszenie międzygrupowe;
- rozproszenie wewnątrzgrupowe (średnie prywatne). Wariancja międzygrupowa jest miarą fluktuacji ze względu na cechę czynnika. Średnia wariancji cząstkowych jest miarą fluktuacji ze względu na wszystkie inne cechy (z wyjątkiem czynnikowych). Wtedy relacja
wyraża udział fluktuacji wynikającej ze znaku czynnika w całkowitej fluktuacji. Pierwiastek kwadratowy tego stosunku nazywamy empirycznym współczynnikiem korelacji:
.

Wynika z tego reguła, że ​​im większa wariancja międzygrupowa, tym silniejsza cecha czynnikowa wpływa na zróżnicowanie cechy wynikowej. Współczynniki składowe wariancji oblicza się na podstawie danych tabeli korelacji za pomocą następujących wzorów:

;
,

gdzie są średnie prywatne; - Średnia ogólna; - sumy według funkcji ; - sumy według funkcji ;
- liczba obserwacji. Ta sama relacja jest zachowana również dla wartości warunkowych otrzymanych przez przekształcenie liczbowe.

Sam współczynnik wariancji (wyrażenie radykalne) nazywany jest współczynnikiem determinacji (jest również równy kwadratowi empirycznego współczynnika korelacji). Empiryczny współczynnik korelacji zmienia się w szerokim zakresie (od 0 do 1). Jeśli jest równy zero, to znak czynnika nie wpływa na znak korelacji. Jeśli =1, co oznacza, że ​​wynikowy znak całkowicie zależy od czynnika jeden. Jeśli korelacja empiryczna jest ułamkiem bliskim jedności, to mówi się o zamknij połączenie między cechami czynnikowymi i wypadkowymi. Jeśli ten ułamek jest mały (bliski zeru), to mówi się o słabym połączeniu między nimi.

Współczynnik korelacji liniowej i wskaźnik korelacji

Miarą bliskości związku między dwiema statystycznie powiązanymi cechami jest współczynnik korelacji liniowej lub po prostu współczynnik korelacji. Ma to samo znaczenie co empiryczny współczynnik korelacji, ale może przyjmować zarówno wartości dodatnie, jak i ujemne. Współczynnik korelacji ma ścisłe wyrażenie matematyczne dla zależności liniowej. Wartość dodatnia wskaże bezpośredni związek między cechami, wartość ujemna wskaże przeciwnie.

Współczynnik korelacji par w przypadku komunikacji liniowej oblicza się ze wzoru

i jego przykładową wartość - zgodnie ze wzorem

Przy niewielkiej liczbie obserwacji wygodnie jest obliczyć współczynnik korelacji próbki za pomocą następującego wzoru:

Wartość współczynnika korelacji zmienia się w przedziale
.

Na
istnieje zależność funkcjonalna między dwiema zmiennymi, gdy
- bezpośrednie połączenie funkcjonalne. Jeśli
, to wartości X i Y w próbie są nieskorelowane; jeśli system zmiennych losowych
ma dwuwymiarowy rozkład normalny, to wielkości X i Y również będą niezależne.

Jeżeli współczynnik korelacji mieści się w przedziale
, to istnieje odwrotna korelacja między X i Y. Potwierdza to również wizualna analiza wstępnych informacji. W tym przypadku odchylenie Y od wartości średniej przyjmuje się z przeciwnym znakiem.

Jeżeli każda para wartości X i Y jest najczęściej jednocześnie powyżej (poniżej) odpowiednich wartości średnich, to istnieje bezpośrednia korelacja między wartościami, a współczynnik korelacji znajduje się w przedziale
.

Jeżeli natomiast odchylenie wartości X od wartości średniej równie często powoduje odchylenia wartości Y w dół od wartości średniej, a odchylenia są cały czas różne, to można przyjąć, że wartość współczynnik korelacji dąży do zera.

Należy zauważyć, że wartość współczynnika korelacji nie zależy od jednostek miary i wyboru punktu odniesienia. Oznacza to, że jeśli zmienne X i Y zostaną zmniejszone (zwiększone) o K razy lub o tę samą liczbę C, to współczynnik korelacji nie zmieni się.

Aby uprościć obliczanie miary szczelności korelacji, często stosuje się wskaźnik korelacji, który wyznaczają następujące wzory:

,
,

gdzie
- wariancja rezydualna, charakteryzująca zmienność otrzymanego atrybutu pod wpływem innych nieuwzględnionych czynników.

Korelacja wielokrotna

Korelacja wielokrotna - zależność wypadkowej i dwóch lub więcej cech czynnikowych uwzględnionych w badaniu. Wskaźnikiem bliskości związku między wypadkową a dwiema lub większą liczbą cech czynnikowych jest tzw. współczynnik korelacji wielokrotnej lub skumulowanej, oznaczany przez R. Współczynnik skumulowany implikuje występowanie między każdą parą cech liniowej zależności, która może być wyrażone za pomocą sparowanych współczynników korelacji. Jeśli istnieje skumulowana miara ścisłości związku między cechą efektywną () a dwiema cechami czynnikowymi ( i ), wówczas obliczanie skumulowanego współczynnika korelacji odbywa się według wzoru:

,

Gdzie indeksy wskazują, pomiędzy którymi cechami badany jest związek par.

We wzorach do obliczania sparowanych współczynników korelacji zmieniają się tylko symbole oznaczające jeden lub drugi czynnik. Tak więc, jeśli współczynnik korelacji między i jest obliczany ze wzoru , to współczynnik korelacji między i jest obliczany: ; pomiędzy a - tak:

Część rozliczeniowa

Zadanie 31

    Dla dziesięciu przedsiębiorstw w okresie sprawozdawczym dostępne są następujące dane:

Tabela 2

Przedsiębiorstwa

Średni roczny koszt środków trwałych produkcyjnych, mln pocierać.

Produkcja, miliony rubli

Aby zbadać zależność między wielkością średniego rocznego kosztu środków trwałych a produkcją, oblicz równanie zależności liniowej.

2. Na podstawie podanych danych: a) obliczyć: współczynnik korelacji liniowej; b) sprawdzić poprawność wyboru formy komunikacji poprzez obliczenie wskaźnika korelacji.

    Za pomocą procesora arkuszy kalkulacyjnych Microsoft Excel zbudujemy arkusz roboczy:

Tabela 3

Obliczanie sum do obliczania parametrów równania prostej

239,74 *1236 = 539,1 rozkłady prawdopodobieństwa... gospodarczy analiza, rozwiązany na podstawie regresja gospodarczy modele. Rozważmy y - znak efektywny, a x - znaki współczynnika. Metody współzależnie-regresja analiza ...

  • Program dyscypliny „Komputerowe metody analizy danych socjologicznych” (Wprowadzenie do statystyki matematycznej i analizy danych) Dla kierunku 040200. 68 „Socjologia”

    program dyscypliny

    Aplikacje. 11 3 2 6 Dyspersyjne analiza 9 2 2 5 Podwójne i wielokrotne regresyjny analiza 9 2 2 5 Własności współczynników... użytkownika SPSS 11,0 Siskov V.I. korelacja analiza w gospodarczy Badania. M. 1975. Eddous M., Stansfield...

  • Analiza G. L. Savitskaya działalności gospodarczej przedsiębiorstwa

    Dokument

    Doskonałość, najnowsze metody gospodarczy Badania. Analiza powinien być złożony. Złożoność badań… na poziomie średniej produkcji godzinowej współzależnie-regresyjny analiza. w wieloczynnikowy korelacja model średniej wydajności godzinowej...

  • Analiza korelacji polega na pomiarze bliskości powiązania za pomocą współczynnika korelacji i współczynnika korelacji. Przy liniowej formie zależności siła połączenia jest szacowana przez Współczynnik korelacji Pearsona :

    Współczynnik korelacji waha się od (- 1) do (+1), (– 1 r 1).

    Znak ujemny wskaźnika wskazuje na sprzężenie zwrotne, znak dodatni wskazuje na bezpośrednie połączenie. Im bliżej wartość wskaźnika do jedności w wartości bezwzględnej, im silniejsze połączenie, im bliżej zera, tym słabsze połączenie.

    Aby zmierzyć siłę połączenia z dowolną formą zależności, zarówno liniową, jak i nieliniową, a także ocenić połączenie wielokrotne, zastosuj korelacja teoretyczna (wskaźnik korelacji). Jego obliczenie opiera się na regule dodawania wariancji:

    gdzie całkowita wariancja - odzwierciedla zmienność efektywnej cechy ze względu na wszystkie czynniki na nią działające;

    lub

    wariancja czynnika , odzwierciedla zmienność efektywnej cechy ze względu na czynnik (X).

    resztkowa dyspersja , odzwierciedla zróżnicowanie efektywnej funkcji ze względu na wszystkie czynniki z wyjątkiem czynnika (X);

    Teoretyczny współczynnik korelacji jest pierwiastkiem kwadratowym ze stosunku wariancji czynnikowej do wariancji całkowitej:

    wyrażenie root - współczynnik determinacji :

    pokazuje udział zmienności cechy wynikowej, ze względu na wpływ cechy czynnika, w całkowitej zmienności. Im wyższy ten odsetek, tym silniejszy związek między cechami.

    Teoretyczny współczynnik korelacji zmienia się od 0 do 1 (0 R 1) .Wartość wskaźnika jest bliższa jedności, tym silniejszy związek.

    Aby ocenić siłę związku, możesz użyć skala H eddoka:

    Główny kierunek rozwoju i metody jego wykrywania

    Każdy rząd dynamiki ma swój własny trend rozwojowy, tj. ogólny kierunek w kierunku wzrostu, spadku lub stabilizacji poziomu zjawiska w czasie. Nasilenie tego trendu zależy od wpływu czynników stałych, okresowych (sezonowych) i losowych na poziomy szeregu dynamiki. Dlatego należy mówić nie tylko o trendzie rozwojowym, ale o głównym nurcie.

    Główny trend rozwojowy (trend) nazywana jest płynną i stabilną zmianą poziomu zjawiska w czasie, wolną od wahań okresowych i losowych.

    W celu zidentyfikowania trendu szeregi dynamiki są przetwarzane metodami powiększania przedziałów, średniej ruchomej i wyrównania analitycznego.

    Interwałowa metoda pogrubiania opiera się na konsolidacji okresów, które obejmują poziomy szeregu dynamiki. Aby to zrobić, oryginalne dane są łączone, tj. zsumowane lub uśrednione w dłuższych przedziałach czasowych do Ogólny trend rozwój nie stanie się wystarczająco jasny. Na przykład, dane dzienne o produkcji są łączone w dane dziesięciodniowe, dane miesięczne w dane kwartalne, dane roczne w dane wieloletnie. Zaletą metody jest jej prostota. Wadą jest to, że wygładzona seria jest znacznie krótsza od oryginalnej.

    metoda średniej ruchomej polega na tym, że na podstawie danych wyjściowych obliczane są średnie kroczące z pewnej liczby pierwszych poziomów szeregu, najpierw z rzędu, potem z tej samej liczby poziomów, zaczynając od drugiego, od trzeciego itp. Średnia wartość niejako przesuwa się wzdłuż dynamicznej serii, przesuwając się o jeden przedział. Średnie kroczące wygładzają losowe fluktuacje.

    Schemat obliczania 3-poziomowej średniej ruchomej

    Przedział czasowy

    (liczba w kolejności)

    Aktualne poziomy serii dynamicznych

    w i

    średnie kroczące

    w Sk

    w 1

    w 2

    w 3

    w 4

    w sc3

    w 5

    w sc4

    w 6

    Wygładzona seria dynamiki jest krótsza od oryginalnej o wartość (l - 1), jeśli powiększenie odbywa się na nieparzystej liczbie poziomów, gdzie ja to długość okresu rozszerzenia. Na przykład, jeśli l = 3, to wyrównany rząd jest o 2 poziomy krótszy. Wygładzona seria jest więc niewiele krótsza od oryginalnej.

    Metoda wyrównania analitycznego polega na zastąpieniu rzeczywistych poziomów szeregów czasowych ich wartościami teoretycznymi wyliczonymi na podstawie równania trendu:

    Obliczane są parametry równania metoda najmniejszych kwadratów:

    gdzie w– rzeczywiste poziomy; w ti są wyrównanymi (obliczonymi) poziomami odpowiadającymi im w czasie.

    Jeśli rozwój odbywa się w postępie arytmetycznym (z równymi przyrostami bezwzględnymi łańcucha), wtedy funkcja liniowa:

    W przypadku dynamicznego postępu geometrycznego (przy równym tempie wzrostu łańcucha), konieczne jest zastosowanie funkcja wykładnicza:

    w t = a 0 a 1 t .

    Jeśli rozwój następuje z równym tempem wzrostu, jest używany z funkcja zasilania, na przykład drugiego rzędu (parabola):

    w t = a 0 + a 1 t+ a 2 t 2 .

    Kryterium prawidłowego wyboru równania trendu to błąd przybliżenia . Przedstawia odchylenie standardowe rzeczywistych poziomów szeregu dynamiki od teoretycznych:

    Równanie o najmniejszym błędzie aproksymacji jest uważane za optymalne.

    Rozważ „technikę” wyrównywania szeregów czasowych według funkcja liniowa:


    gdzie a 0 , a 1 są parametrami równania linii prostej; t- wskaźniki czasu (z reguły numer seryjny okresu lub punktu w czasie).

    Parametry linii a 0 oraz a 1 , spełniające metodę najmniejszych kwadratów, można znaleźć, rozwiązując następujący układ równań normalnych:

    gdzie n to liczba poziomów serii dynamiki; parametr a 1 odpowiada średniemu bezwzględnemu wzrostowi.

    Aby uprościć obliczanie wskaźników czasu
    można podać wartości takie, że
    , następnie

    W tym celu w rzędach o nieparzystej liczbie poziomów jako początek odniesienia czasu przyjmuje się środkowy interwał, gdzie t równa się zero. Po obu stronach zera znajdują się odpowiednio rzędy ujemnych i dodatnich liczb naturalnych, na przykład:

    Przedział czasowy

    (liczba w kolejności)

    t i

    Dla parzystej liczby poziomów liczenie odbywa się z dwóch centralnych przedziałów, w których t równa się odpowiednio (-1) i (+1), a po obu stronach znajdują się rzędy ujemnych i dodatnich liczb nieparzystych, na przykład:

    Przedział czasowy

    (liczba w kolejności)

    t i

    Schemat obliczania parametrów równania liniowego

    Interwały czasowe

    Dynamiczne poziomy serii

    w i

    t i

    i t 2

    w i t i

    w ti

    Na podstawie obliczonego równania trendu można wytworzyć ekstrapolacja – znajdowanie poziomów probabilistycznych (prognozowanych) poza początkowym szeregiem dynamiki.

    ODPOWIADAĆ

    Ilościowa ocena bliskości komunikacji według danych empirycznych polega na obliczeniu wskaźników bliskości komunikacji:

    · Empiryczny współczynnik determinacji (empiryczny współczynnik dyspersji) - r 2 .

    Wskaźnik ten jest obliczany na podstawie danych z grupowania analitycznego (tabela), jako stosunek wariancji międzygrupowej cechy wyniku Y (d y 2) do całkowitej wariancji Y (s y 2):

    Zgodnie z twierdzeniem o dekompozycji wariancji wariancja międzygrupowa jest powiązana z wariancją całkowitą: s y 2 =d y 2 +e y 2 . Następnie empiryczny współczynnik determinacji można obliczyć poprzez wariancję resztową za pomocą wzoru:

    gdzie s j 2 jest wariancją wyniku Y w j-tej grupie.

    Empiryczny współczynnik determinacji charakteryzuje siłę wpływu atrybutu grupującego (X) na kształtowanie się ogólnej zmienności atrybutu wynikowego Y i pokazuje procent (udział) zmienności atrybutu wynikowego ze względu na leżący u podstaw czynnik atrybutu grupowanie.

    Wygodnie jest obliczyć r 2 w tabeli:

    Czynnik znaku X j Nj Średnia wartość cechy-wyniku s j 2 N j
    x1 N 1 s 1 2 N 1
    x2 N 2 s 2 2 N 2
    .... ...
    Xm Nm sm2Nm
    Całkowity N X es j 2

    Następnie .

    Rozważ przykład. Niech zostanie podany zbiór 20 pracowników charakteryzujący się następującymi cechami: Y - wydajność pracownika (sztuka/zmiana) i X - kwalifikacja (ranga). Wstępne dane przedstawia tabela:

    X
    Tak

    Wymagana jest ocena zbliżenia między cechami za pomocą empirycznego współczynnika determinacji (r 2).

    Aby obliczyć r 2, przeprowadzimy analityczne grupowanie populacji. Jako znak-czynnik przyjmujemy X (kategoria pracownika), jako znak-wynik - Y, produkcja pracownika). Grupowanie analityczne dokonuje się na podstawie X. B ta sprawa będzie dyskretny (ponieważ wartości atrybutu X dość często się powtarzają). Liczba grup jest równa liczbie wartości atrybutu X w agregacie, tj. 6. Wyniki grupowania i obliczenia r 2 podsumowano w tabeli:

    Współczynnik znaku X Atrybut wyniku Y Liczba jednostek w grupie, N j Średnia wartość znaku-wyniku w grupie, ( - ) 2 Nj Rozrzut cechy-wyniku w grupie, s 2 j s 2 j N j
    (10+12+13)/3=11,7 (11,7-17,1) 2 3=88,56 s 2 1 \u003d ((10-11,7) 2 + (12-11,7) 2 + (13-11,7) 2) / 3 \u003d 1,56 4,7
    (11+14)/2=12,5 (12,5-17,1) 2 2=42,3 s 2 2 \u003d ((11-12,5) 2 + (14-12,5) 2) / 2 \u003d 2,25 4,5
    (12+13+15+16)/4= 14 (14-17,1) 2 4=38,4 s 2 3 \u003d ((12-14) 2 + (13-14) 2 + (15-14) 2 + (16-14) 2) / 4 \u003d 2,5
    (15+17+17+18)/4= 16,75 (16,75-17,1) 2 4=0,49 s 2 4 \u003d ((15-16,75) 2 + (17-16,75) 2 ++ (17-16,75) 2 + (18-16,75) 2) / 4 \u003d 1,9 4,75
    (18+20+22)/3=20 (20-17,1) 2 3=25,23 s 2 5 \u003d ((18-20) 2 + (20-20) 2 + (22-20) 2) / 3 \u003d 2,7
    (23+24+27+25)/4= 24,75 (24,75-17,1) 2 4=234,1 s 2 6 \u003d ((23-24,75) 2 + (24-24,75) 2 + (27-24,75) 2 + (25-24,75) 2) / 4 \u003d 2,19 8,75
    =17,1 429,1 40,7

    Empiryczny współczynnik determinacji jest równy stosunkowi wariancji międzygrupowej atrybutu wyniku (d y 2) do całkowitej wariancji atrybutu wyniku (s y 2): r 2 = d y 2 /s y 2 = d y 2 /(d y 2 +e y 2).

    Dyspersja międzygrupowa Y będzie równa: d y 2 = å( - ) 2 N j / N = 429,1/20=21,45.

    Wariancja rezydualna Y będzie wynosić: e y 2 = ås 2 j ·N j / N= 40,7/20= 2,035.

    Następnie: r 2 \u003d 21,45 / (21,45 + 2,035) \u003d 429,1 / (429,1 + 40,7) \u003d 0,913.

    Wniosek: 91,3% zmienności w produkcji pracowników wynika z wpływu współczynnika zrzutu.

    · Empiryczna relacja korelacji - r.

    Wskaźnik ten jest źródłem empirycznego współczynnika determinacji. Pokazuje szczelność połączenia (nie tylko liniowego!) pomiędzy funkcjami grupowania a funkcjami produkcyjnymi. Zakres dopuszczalnych wartości empirycznego współczynnika korelacji wynosi od 0 do +1.

    Najbliższym możliwym połączeniem jest połączenie funkcjonalne, w którym każda wartość wyniku Y jest jednoznacznie określona przez wartość współczynnika X (tj. wynik grupowania). W tym przypadku wariancja średnich grupowych (d y 2) jest równa całkowitej wariancji (s y 2), tj. nie będzie zmienności wewnątrzgrupowej. W tym przypadku dyspersja resztkowa (e y 2) jest równa 0, a empiryczny współczynnik determinacji jest równy 1.

    Jeśli nie ma związku między znakami, to wszystkie średnie grupowe są sobie równe, nie będzie zmienności międzygrupowej (d y 2 =0), a empiryczny współczynnik determinacji wynosi 0.

    Obliczmy empiryczny współczynnik korelacji dla naszego przykładu: r= 0,9555. Wniosek: oznaki „produkcji pracownika” i „zwolnienia” są dość ściśle powiązane.

    Wskaźniki r i r 2 są determinowane nie tylko obecnością związku między cechami X i Y, ale także faktem grupowania danych pierwotnych. Wraz ze wzrostem liczby grup m wariancja międzygrupowa d 2 rośnie i zbliża się do wariancji całkowitej. Jeśli liczba grup jest mniejsza niż liczba jednostek populacji N, wówczas wartości r i r 2 nigdy nie będą równe 1, nawet przy ścisłym związku funkcjonalnym.

    Należy zauważyć, że wartość wskaźnika bliskości związku nie jest sama w sobie dowodem na istnienie związku przyczynowego między badanymi cechami, ale jest oceną stopnia wzajemnej zgodności zmian cech. Ustalenie związku przyczynowo-skutkowego musi być koniecznie poprzedzone analizą jakościowego charakteru zjawisk.

    Empiryczna relacja korelacji

    Bliskość lub siłę związku między dwiema cechami można mierzyć wskaźnikiem zwanym empirycznym współczynnikiem korelacji. Wskaźnik ten nazywa się empirycznym, ponieważ można go obliczyć na podstawie zwykłego grupowania według czynnika i atrybutu wynikowego, czyli na podstawie tabeli korelacji. Empiryczny współczynnik korelacji uzyskuje się z reguły dodawania wariancji, zgodnie z którą , gdzie jest wariancją całkowitą; - rozproszenie międzygrupowe; - rozproszenie wewnątrzgrupowe (średnie prywatne). Wariancja międzygrupowa jest miarą fluktuacji ze względu na cechę czynnika. Średnia wariancji cząstkowych jest miarą fluktuacji ze względu na wszystkie inne cechy (z wyjątkiem czynnikowych). Wtedy stosunek wyraża udział fluktuacji wynikającej ze znaku czynnika w całkowitej fluktuacji. Pierwiastek kwadratowy z tego stosunku nazywamy empirycznym współczynnikiem korelacji: .

    Wynika z tego reguła, że ​​im większa wariancja międzygrupowa, tym silniejsza cecha czynnikowa wpływa na zróżnicowanie cechy wynikowej. Współczynniki składowe wariancji oblicza się na podstawie danych tabeli korelacji za pomocą następujących wzorów:

    ; ,

    gdzie są średnie prywatne; - Średnia ogólna; - sumy na podstawie ; - sumy na podstawie ; - liczba obserwacji. Ta sama relacja jest zachowana również dla wartości warunkowych otrzymanych przez przekształcenie liczbowe.

    Sam współczynnik wariancji (wyrażenie radykalne) nazywany jest współczynnikiem determinacji (jest również równy kwadratowi empirycznego współczynnika korelacji). Empiryczny współczynnik korelacji zmienia się w szerokim zakresie (od 0 do 1). Jeśli jest równy zero, to znak czynnika nie wpływa na znak korelacji. Jeśli =1, to wynikowy znak całkowicie zależy od czynnika jeden. Jeśli empiryczny współczynnik korelacji jest ułamkiem bliskim jedności, to mówi się o ścisłym związku między cechami czynnikowymi i efektywnymi. Jeśli ten ułamek jest mały (bliski zeru), to mówi się o słabym połączeniu między nimi.

    
    Top