Le coefficient empirique de détermination le montre. Pour notre exemple, la corrélation empirique

Qu'entend-on par variance intra-groupe pour une population ? Quelle est la formule de son calcul ? Donne un exemple. Qu'entend-on par variance de population intergroupe? Quelle est la formule de son calcul ? Donne un exemple.

Écart intragroupe () indique une variation aléatoire qui ne dépend pas du trait sous-jacent au groupement.

, où

Moyenne du groupe

La variance intra-groupe moyenne est calculée comme suit : d'abord, les variances pour les groupes individuels sont calculées (), puis la variance intra-groupe moyenne est calculée :

Caractérise la variation systématique, c'est-à-dire différences dans l'ampleur du trait à l'étude, qui est à la base du regroupement. Cette dispersion est calculée par la formule

, où

Valeur moyenne pour un groupe distinct

n je- nombre d'unités dans le groupe

- la moyenne arithmétique générale de l'ensemble de la population étudiée.

Les trois types de variance sont interconnectés : la variance totale est égale à la somme de la variance intragroupe moyenne et de la variance intergroupe :

Ce rapport reflète la loi, qui s'appelle règle d'ajout d'écart.

20.

Qu'entend-on par variance totale de la population ? Quelle est la formule de son calcul ? La façon dont les groupes sont regroupés affecte-t-elle la variance totale ? Donne un exemple.

La variance totale () caractérise la variation du trait de l'ensemble de la population sous l'influence de tous les facteurs qui ont provoqué cette variation. Cette valeur est déterminée par la formule

, où

la moyenne arithmétique générale de l'ensemble de la population étudiée.

D'autre part, la variance totale est égale à la somme de la variance intragroupe moyenne et de la variance intergroupe :

Ce rapport reflète la loi, qui s'appelle règle d'ajout d'écart.. Grâce à la règle d'addition des variances, il est possible de déterminer quelle part de la variance totale est sous l'influence du facteur caractéristique sous-jacent au regroupement.

Plus la proportion de variance intergroupe dans la variance totale est élevée, plus l'influence de l'attribut factoriel (rang) sur la résultante (production) est forte.

Cette proportion est caractérisée par un coefficient empirique de détermination :

Pour une évaluation qualitative de la proximité de la relation entre les signes, les relations de Chaddock sont utilisées.

0-0,2

0,2-0,3

0,3-0,5

0,5-0,7

0,7-0,9

0,9-0,99

Force de connexion

absent

très faible

faible

modéré

visible

Fermer

très proche

fonctionnel-

nasale

21.

Que montre le coefficient de détermination ? Quelle est la formule de son calcul ? Dans quelles unités cet indicateur est-il mesuré ? Quelles sont les valeurs possibles pour cet indicateur ? Que montre la corrélation empirique ? Quelle est la formule de son calcul ? Dans quelles unités cet indicateur est-il mesuré ? Quelles sont les valeurs possibles pour cet indicateur ?

Coefficient de détermination empirique () caractérise la part de la variance intergroupe dans la variance totale :

Il prend des valeurs de -1 à 1 et montre dans quelle mesure la variation du trait dans l'agrégat est due au facteur de regroupement.

dispersion intergroupes ;

écart total.

Déterminé par la formule :

Accepte les valeurs -1 à 1

Exemple

Groupe

Nombre d'usines dans le groupe, pcs.

Production brute moyenne à prix comparables, millions de roubles

Déterminons maintenant la valeur moyenne, la variance totale et la variance intergroupe de la production brute à prix comparables des usines :

millions de roubles ;

Million frotter.2 ;

Million frotter.2.

Le coefficient de détermination sera égal à :

En conséquence, le rapport de corrélation empirique sera égal à :

La valeur calculée du rapport de corrélation empirique indique une relation statistique assez élevée entre la production brute à prix comparables et le coût annuel moyen des immobilisations de production des usines.

22.

Comment une statistique de test est-elle calculée dans une analyse de variance univariée ? Quelle est la loi de sa distribution sous la validité de l'hypothèse principale ? Quels sont les paramètres de cette loi ? Comment une décision est-elle prise dans une analyse de variance unidirectionnelle basée sur la valeur calculée de la statistique de critère ?

La tâche de l'analyse de la variance est d'étudier l'influence d'un ou plusieurs facteurs sur le trait considéré.

L'analyse unidirectionnelle de la variance est utilisée lorsque trois échantillons indépendants ou plus sont disponibles, obtenus à partir de la même population générale en modifiant un facteur indépendant pour lequel, pour une raison quelconque, il n'existe pas de mesures quantitatives.

Comme critère, il faut utiliser le critère de Fisher :

., où

Q 1 est la somme des écarts au carré des moyennes de l'échantillon par rapport à la moyenne totale

Q 2 est la somme des écarts au carré des valeurs observées par rapport à la moyenne de l'échantillon

Si la valeur calculée du critère de Fisher est inférieure à la valeur tabulaire, il n'y a aucune raison de croire que le facteur indépendant affecte la dispersion des valeurs moyennes ( celles. l'hypothèse n'a pas été confirmée). Sinon, le facteur indépendant a un effet significatif sur la dispersion des valeurs moyennes ( l'hypothèse est bonne).

23-25.

1. À intervalles égaux, utilisez la moyenne arithmétique simple :

où y sont les niveaux absolus de la série ;
n- le nombre de niveaux dans la série.
2. Pour les intervalles inégaux, utilisez la moyenne arithmétique pondérée :

où es-tu 1 ,...,уn - niveaux de la série de dynamiques ;
t1,... tn - poids, durée des intervalles de temps.

Niveau moyen des séries de moments la dynamique est calculée par la formule :
1. Avec des niveaux équidistants est calculé par la formule de la série de moments chronologiques moyens :

où es-tu 1 ,...,уn - niveaux de la période pour laquelle le calcul est effectué;
n- nombre de niveaux ;
n-1 - durée de la période de temps.
2.C inégal les niveaux sont calculés à l'aide de la formule de la moyenne pondérée chronologique :

où es-tu 1 ,...,уn - niveaux de séries chronologiques ;
t- intervalle de temps entre niveaux adjacents

dans les statistiques

Croissance absolue moyenne est défini comme la moyenne des gains absolus sur des intervalles de temps égaux d'une période. Elle est calculée par les formules suivantes : 1. Sur la base de données en chaîne sur la croissance absolue sur un certain nombre d'années, la croissance absolue moyenne est calculée comme une moyenne arithmétique simple :

n est le nombre d'incréments absolus en loi de puissance dans la période étudiée.
2. L'augmentation absolue moyenne est calculéepar la croissance absolue de base dans le cas d'intervalles égaux

m - le nombre de niveaux d'une série de dynamiques dans la période d'étude, y compris celle de base.

Taux de croissance moyen est une caractéristique de généralisation libre de l'intensité du changement de niveausérie dynamique et montre combien de fois le niveau de la série de dynamiques change en moyenne par unité de temps.
Comme base et critère de l'exactitude du calcul du taux de croissance (diminution) moyen, un indicateur de généralisation est utilisé, qui est calculé comme le produit des taux de croissance en chaîne égaux au taux de croissance pour toute la période considérée. Si la valeur d'attribut est formée comme un produit options individuelles, la moyenne géométrique est utilisée.
Puisque le taux de croissance moyen est le coefficient de croissance moyen, exprimé en pourcentage, alors pour la série équivalente de dynamique, les calculs utilisant la moyenne géométrique se réduisent à calculer les coefficients de croissance moyens à partir de ceux de la chaîne en utilisant la «méthode de la chaîne»:

n est le nombre de facteurs de croissance de la chaîne ;
kts- les facteurs de croissance de la chaîne ;
Kb - taux de croissance de base pour toute la période.
Détermination du facteur de croissance moyenpeut être simplifiée si les niveaux de la série chronologique sont clairs. Puisque le produit des facteurs de croissance de chaîne est égal à celui de base, le facteur de croissance de base est substitué dans l'expression radicale.
Formule pour déterminer le facteur de croissance moyenpour des séries de dynamiques équidistantes selon la "méthode de base" sera la suivante :

36.

Quels sont les indicateurs absolus d'évolution du niveau de la série que vous connaissez ?

Tous ces indicateurs peuvent être déterminés de manière basique, lorsque le niveau Période donnée par rapport à la première période (de base), ou en chaîne - lorsque deux niveaux de périodes voisines sont comparés.

Écrire des formules de calcul.

La variation absolue de base est la différence entre le niveau spécifique et le premier niveau de la série, déterminée par la formule

Il montre combien (en unités d'indicateurs de la série) le niveau d'une (i-ème) période est supérieur ou inférieur au premier niveau (de base) et, par conséquent, peut avoir un signe "+" (avec une augmentation en niveaux) ou "–" (avec une diminution des niveaux).

Le changement absolu de la chaîne est la différence entre les niveaux spécifiques et précédents de la série, est déterminé par la formule

Il montre de combien (en unités d'indicateurs de la série) le niveau d'une (i-ème) période est supérieur ou inférieur au niveau précédent, et peut avoir un signe "+" ou "-".

Expliquez comment la méthode de calcul dépend du choix de la base de comparaison.

Quels indicateurs relatifs d'évolution du niveau de la série connaissez-vous ? Écrire des formules de calcul.

Le changement relatif de base (taux de croissance de base ou indice de dynamique de base) est le rapport d'un niveau spécifique et des premiers niveaux de la série, déterminé par la formule

Le changement relatif de la chaîne (taux de croissance de la chaîne ou indice de dynamique de la chaîne) est le rapport d'un niveau spécifique et précédent de la série, déterminé par la formule

Expliquez comment la méthode de calcul dépend du choix de la base de comparaison.

Le changement relatif montre combien de fois le niveau d'une période donnée est supérieur au niveau de toute période précédente (pour i > 1) ou quelle partie de celui-ci est (pour i<1). Относительное изменение может выражаться в виде коэффициентов, то есть простого кратного отношения(если база сравнения принимается за единицу), и в процентах (если база сравнения принимается за 100 единиц) путем домножения относительного изменения на 100%.

37.

Quels sont les indicateurs moyens de l'évolution du niveau de la série que vous connaissez ? Écrivez les formules de calcul de la croissance absolue moyenne, du taux de croissance et du taux de croissance des niveaux de la série.

La croissance absolue moyenne est définie comme la moyenne de la croissance absolue pour des périodes de temps égales au cours d'une période. Elle est calculée par les formules suivantes : 1. Sur la base de données en chaîne sur la croissance absolue sur un certain nombre d'années, la croissance absolue moyenne est calculée comme une moyenne arithmétique simple :

n est le nombre d'incréments absolus en loi de puissance dans la période étudiée.

2. L'augmentation absolue moyenne est calculée par l'augmentation absolue de base dans le cas d'intervalles égaux

m - le nombre de niveaux d'une série de dynamiques dans la période d'étude, y compris celle de base.

Le taux de croissance moyen est une caractéristique de généralisation libre de l'intensité des changements dans les niveaux d'une série de dynamiques et montre combien de fois le niveau d'une série de dynamiques change en moyenne par unité de temps.

Comme base et critère de l'exactitude du calcul du taux de croissance (diminution) moyen, un indicateur de généralisation est utilisé, qui est calculé comme le produit des taux de croissance en chaîne égaux au taux de croissance pour toute la période considérée. Si la valeur caractéristique est formée comme un produit d'options individuelles, la moyenne géométrique est utilisée.

Puisque le taux de croissance moyen est le coefficient de croissance moyen, exprimé en pourcentage, alors pour la série équivalente de dynamique, les calculs utilisant la moyenne géométrique se réduisent à calculer les coefficients de croissance moyens à partir de ceux de la chaîne en utilisant la «méthode de la chaîne»:

n est le nombre de facteurs de croissance de la chaîne ;

Кц - coefficients de croissance en chaîne;

Kb - taux de croissance de base pour toute la période.

Le taux de changement (taux de croissance) des niveaux est un indicateur relatif indiquant de combien de pourcentage un niveau donné est supérieur (ou inférieur) à un autre, pris comme base de comparaison. Il est calculé en soustrayant 100 % de la variation relative, c'est-à-dire par la formule :

soit en pourcentage du changement absolu par rapport au niveau par rapport auquel le changement absolu est calculé (ligne de base), c'est-à-dire selon la formule :

.

Quels sont les inconvénients de ces indicateurs ? Dans quels cas convient-il de les utiliser ? Comment remédier à ces lacunes ? Rédiger des formules de calcul de moyennes assurant la préservation de la valeur totale de la série.

38.

Comment déterminer le type de tendance principale par les valeurs des indicateurs d'évolution des niveaux de la série ? Donne des exemples.

L'identification de la tendance générale de la série chronologique peut être effectuée en lissant la série chronologique à l'aide de la méthode de la moyenne mobile. L'essence de cette technique est que les niveaux calculés (théoriques) sont déterminés à partir des niveaux initiaux de la série (données empiriques).

La principale condition d'application de cette méthode est de calculer les liens moyens mobiles (mobiles) à partir d'un nombre de niveaux de la série qui correspond à la durée de la dynamique du cycle observée dans la série.

Relation de corrélation empirique

La proximité ou la force d'une relation entre deux caractéristiques peut être mesurée par un indicateur appelé le rapport de corrélation empirique. Cet indicateur est dit empirique, car il peut être calculé sur la base du regroupement habituel par facteur et attribut résultant, c'est-à-dire sur la base d'un tableau de correspondance. La corrélation empirique est obtenue à partir de la règle d'addition de la variance, selon laquelle , où
- écart total ;
- dispersion intergroupes ;
- dispersion intragroupe (moyenne du privé). La variance intergroupe est une mesure de fluctuation due à un attribut de facteur. La moyenne des variances partielles est une mesure de la fluctuation due à toutes les autres caractéristiques (sauf factorielles). Ensuite, le rapport exprime la part de fluctuation due au facteur signe dans la fluctuation totale. La racine carrée de ce rapport est appelée rapport de corrélation empirique :
.

Cela implique la règle selon laquelle plus la variance intergroupe est grande, plus le trait factoriel affecte fortement la variation du trait résultant. Les ratios des composantes des variances sont calculés à partir des données du tableau de correspondance à l'aide des formules suivantes :

;
,

où sont les moyennes privées ; - moyenne générale; - totaux par fonctionnalité ; - totaux par fonctionnalité ;
- nombre d'observations. La même relation s'applique aux valeurs conditionnelles
, obtenu par transformation numérique .

Le rapport de variance lui-même (expression radicale) est appelé coefficient de détermination (il est également égal au carré du rapport de corrélation empirique). Le rapport de corrélation empirique varie dans une large gamme (de 0 à 1). S'il est égal à zéro, le signe du facteur n'affecte pas le signe de corrélation. Si =1, ce qui signifie que le signe résultant dépend entièrement du facteur un. Si le rapport de corrélation empirique est une fraction proche de un, alors ils parlent d'une relation étroite entre les caractéristiques factorielles et effectives. Si cette fraction est petite (proche de zéro), alors on parle d'un lien faible entre eux.

Coefficient de corrélation linéaire et indice de corrélation

Une mesure de la proximité de la relation entre deux caractéristiques statistiquement liées est le coefficient de corrélation linéaire ou simplement le coefficient de corrélation. Il a la même signification que le rapport de corrélation empirique, mais peut prendre à la fois des valeurs positives et négatives. Le coefficient de corrélation a une expression mathématique stricte pour une relation linéaire. Une valeur positive indiquera une relation directe entre les caractéristiques, une valeur négative indiquera le contraire.

Le coefficient de corrélation de paire dans le cas d'une forme de communication linéaire est calculé par la formule

,

et sa valeur d'échantillon - selon la formule

Avec un petit nombre d'observations, il est pratique de calculer le coefficient de corrélation de l'échantillon à l'aide de la formule suivante :

La valeur du coefficient de corrélation change dans l'intervalle
.

À
il existe une relation fonctionnelle entre les deux variables, lorsque
- connexion fonctionnelle directe. Si
, alors les valeurs de X et Y dans l'échantillon ne sont pas corrélées ; si le système de variables aléatoires
a une distribution normale à deux dimensions, alors les quantités X et Y seront également indépendantes.

Si le coefficient de corrélation est dans l'intervalle
, alors il existe une corrélation inverse entre X et Y. Ceci est également confirmé par l'analyse visuelle des informations initiales. Dans ce cas, l'écart de Y par rapport à la valeur moyenne est pris avec le signe opposé.

Si chaque paire de valeurs X et Y est le plus souvent simultanément au-dessus (en dessous) des valeurs moyennes correspondantes, alors il existe une corrélation directe entre les valeurs et le coefficient de corrélation est dans l'intervalle
.

Si, d'autre part, l'écart de la valeur de X par rapport à la valeur moyenne entraîne également souvent des écarts de la valeur de Y vers le bas par rapport à la valeur moyenne, et que les écarts sont tout le temps différents, alors nous pouvons supposer que la valeur de le coefficient de corrélation tend vers zéro.

Il est à noter que la valeur du coefficient de corrélation ne dépend pas des unités de mesure et du choix du point de référence. Cela signifie que si les variables X et Y sont réduites (augmentées) de K fois ou du même nombre C, alors le coefficient de corrélation ne changera pas.

Pour simplifier le calcul de la mesure de l'étanchéité de la corrélation, l'indice de corrélation est souvent utilisé, qui est déterminé par les formules suivantes :

,
,


- la variance résiduelle, caractérisant la variation de l'attribut résultant sous l'influence d'autres facteurs non pris en compte.

Corrélation multiple

Corrélation multiple - la dépendance de la résultante et de deux caractéristiques factorielles ou plus incluses dans l'étude. Un indicateur de la proximité de la relation entre la résultante et deux caractéristiques factorielles ou plus est appelé coefficient de corrélation multiple ou cumulatif et est noté R. Le coefficient cumulatif implique la présence d'une relation linéaire entre chaque paire de caractéristiques, qui peut être exprimée à l'aide de coefficients de corrélation appariés. S'il existe une mesure cumulative de l'étroitesse de la relation entre la caractéristique effective () et deux caractéristiques factorielles ( et ), alors le calcul du coefficient de corrélation cumulé s'effectue selon la formule :

,

Où les indices indiquent entre quelles caractéristiques la relation de paire est étudiée.

Dans les formules de calcul des coefficients de corrélation appariés, seuls les symboles désignant l'un ou l'autre facteur changent. Ainsi, si le coefficient de corrélation entre et est calculé par la formule , alors le coefficient de corrélation entre et est calculé : ; entre et - donc :

Partie règlement

Tâche 31

    Les données suivantes sont disponibles pour dix entreprises pour la période de déclaration :

Tableau 2

Entreprises

Coût annuel moyen des immobilisations de production, millions de roubles.

Production, millions de roubles

Pour étudier la relation entre la taille du coût annuel moyen des immobilisations et la production, calculez l'équation de la relation linéaire.

2. Sur la base des données fournies : a) calculer : coefficient de corrélation linéaire ; b) vérifier l'exactitude du choix de la forme de communication en calculant l'indice de corrélation.

    À l'aide du processeur de feuille de calcul Microsoft Excel, nous allons créer une feuille de calcul :

Tableau 3

Calcul des sommes pour le calcul des paramètres de l'équation d'une droite

239,74 *1236 = 539,1 distributions de probabilité... économique une analyse, résolu sur la base de régression économique des modèles. Considérons y - un signe effectif et x - des signes de facteur. Méthodes corrélativement-régression une analyse ...

  • Le programme de la discipline "Méthodes informatiques pour l'analyse des données sociologiques" (Introduction à la statistique mathématique et à l'analyse des données) Pour la direction 040200. 68 "Sociologie"

    programme disciplinaire

    Applications. 11 3 2 6 Dispersif une analyse 9 2 2 5 Doubles et multiples régressif une analyse 9 2 2 5 Propriétés des coefficients... par l'utilisateur SPSS 11.0 Siskov V.I. corrélation une analyse dans économique recherche. M. 1975. Eddous M., Stansfield...

  • Analyse G. L. Savitskaya de l'activité économique de l'entreprise

    Document

    Excellence, Dernières Techniques économique recherche. Une analyse devrait être complexe. La complexité de la recherche... au niveau du rendement horaire moyen corrélativement-régressif une analyse. dans un multifactoriel corrélation modèle de rendement horaire moyen...

  • 3. Le rapport de corrélation empirique est calculé par la formule

    La variance intergroupe, qui caractérise la valeur du carré de l'écart des moyennes de groupe par rapport à la moyenne générale de l'attribut effectif.

    La variance totale, montrant la valeur moyenne des écarts au carré de la valeur de la caractéristique résultante par rapport à leur niveau moyen.

    Construisons un tableau pour calculer la variance totale (voir tableau 8)

    Tableau 8

    Tableau de données pour déterminer la variance totale

    N, p/p Dépenses alimentaires
    1 21 441
    2 16 256
    3 26,1 681,21
    4 28 784
    5 26 676
    6 22,5 506,25
    7 27,6 761,76
    8 35 1225
    9 23,9 571,21
    10 22,5 506,25
    11 15 225
    12 25,2 635,04
    13 29 841
    14 21,4 457,96
    15 24,9 620,01
    16 24,8 615,04
    17 16 256
    18 23,6 556,96
    19 27,2 739,84
    20 35 1225
    21 17 289
    22 23,8 566,44
    23 22,6 510,76
    24 25 625
    25 27 729
    26 30 900
    27 35 1225
    28 25,4 645,16
    29 27,2 739,84
    30 26,3 691,69
    Le total 750 19502,42

    La variance totale de l'attribut résultant est calculée par la formule :

    =

    La dispersion intergroupe est calculée par la formule :

    Construisons une table auxiliaire pour le calcul des données (voir tableau 9)


    Tableau 9

    Tableau de données pour le calcul de la variance intergroupe

    Numéro de groupe Nombre de ménages, pc Dépenses alimentaires, en milliers de roubles
    Le total Moyenne par ménage
    F
    1 28-40 3 48 16 -9 81 243
    2 40-52 5 105 21 -4 16 80
    3 52-64 12 300 25 0 0 0
    4 64-76 6 165 27,5 2,5 6,25 37,5
    5 76-88 4 132 33 8 64 256
    Le total 30 750 616,5

    Conclusion : la relation entre les facteurs est très étroite, car prend des valeurs de 0,9 à 0,99.

    Le coefficient de détermination est le carré de la corrélation empirique. Par conséquent,

    (81,9%)

    Conclusion : la production de ces entreprises dépend à 81,9 % de la productivité du capital et à 18,1 % d'autres facteurs.

    Tâche 3

    Sur la base des résultats de la tâche 1, avec une probabilité de 0,9543, déterminez :

    1. L'erreur d'échantillonnage du revenu brut moyen par membre du ménage et par an et les limites dans lesquelles il se situera dans la population générale.

    2. Erreur d'échantillonnage de la part des ménages dont le revenu brut est inférieur à 52 000 roubles. et plus d'un million de roubles. et les limites à l'intérieur desquelles la part générale sera située.

    1. L'erreur d'échantillonnage pour la moyenne est déterminée par la formule :

    , où

    variance d'échantillon ;

    n - taille de l'échantillon ;

    t est le coefficient de confiance, qui est déterminé à partir du tableau des valeurs de la fonction intégrale de Laplace pour une probabilité donnée. Dans ce cas, à P=0,954, la valeur t=2.

    N-nombre d'unités dans la population générale, N=6000 pcs.

    Calculons la variance. Les données seront présentées sous forme de tableau (voir tableau 11).

    Tableau 11

    Données pour le calcul de la dispersion du niveau de rendement des actifs

    Numéro de groupe Regroupement des ménages selon le revenu brut Nombre de ménages, pc
    F
    1 28-40 3 34 -25,1 630,01 1890,03
    2 40-52 5 46 -13,1 171,61 858,05
    3 52-64 12 58 -1,1 1,21 14,52
    4 64-76 6 70 10,9 118,81 712,86
    5 76-88 4 82 22,9 524,41 2097,64
    Le total 30 5573,1

    Relation de corrélation empirique

    Plusieurs indicateurs sont utilisés pour mesurer la proximité de l'association. Avec une connexion par paire, l'étanchéité de la connexion est déterminée, tout d'abord, par le rapport de corrélation, qui est noté η. Le carré du rapport de corrélation est le rapport de la variance intergroupe du trait résultant, qui exprime l'effet des différences dans le trait du facteur de regroupement sur la valeur moyenne du trait résultant, à la variance totale du trait résultant, qui exprime la l'impact de toutes les causes et conditions sur elle. Le carré du rapport de corrélation est appelé coefficient de détermination.

    tous les phénomènes et leurs signes : ________________ ou rigidement déterministes

    où k est le nombre de groupes

    N est le nombre d'observations

    y i - valeurs initiales de la caractéristique effective

    y j - valeurs moyennes de l'attribut effectif pour ce groupe

    y est la valeur moyenne de la caractéristique

    f j est la taille du groupe

    La formule ci-dessus est utilisée lors du calcul de l'indicateur de proximité de connexion pour un groupement analytique. Lors du calcul du rapport de corrélation par le niveau de communication, la formule suivante est utilisée :

    La somme des carrés du numérateur est la variance de la caractéristique résultante y expliquée par la relation avec le facteur x (facteurs). Il est calculé à partir des données individuelles obtenues pour chaque unité de la population selon l'équation de régression.

    Si l'équation est mal choisie ou si une erreur est commise lors du calcul de ses paramètres, la somme des carrés du numérateur peut être supérieure à celle du dénominateur et le rapport perdra le sens qu'il devrait avoir. Pour éviter un résultat erroné, il est préférable de calculer le rapport de corrélation à l'aide de la formule suivante :

    Cette formule est basée sur la règle bien connue d'expansion des sommes des écarts au carré lors du regroupement de la population :

    commun=D intégré+D intragr

    Selon cette règle, au lieu de la variance intergroupe (factorielle), vous pouvez utiliser la différence :

    commun-RÉ intragr

    ce qui donne:

    Lors du calcul de η non pas par regroupement, mais par l'équation de corrélation (équation de régression), nous utilisons la formule. Dans ce cas, la règle de décomposition de la somme des écarts au carré de la caractéristique résultante s'écrit

    D total \u003d D noyau + D reste

    Le point le plus important qui devrait maintenant être appris par quiconque souhaite appliquer correctement la méthode d'analyse de corrélation-régression est l'interprétation des formules (1.2) et (1.3). Cette disposition se lit comme suit :

    L'équation de corrélation mesure la relation entre la variation de la caractéristique résultante et la variation de la ou des caractéristiques factorielles. Les mesures d'étanchéité de la connexion mesurent la proportion de la variation de la caractéristique résultante, qui est associée à la variation de la caractéristique (des caractéristiques) du facteur.

    | prochain cours ==>

    Le rapport de corrélation empirique mesure dans quelle mesure la fluctuation totale de l'attribut résultant est causée par le facteur étudié. La moyenne de corrélation empirique varie de 0 à 1.

    Une corrélation empirique se trouve généralement dans les genres suivants Tâches:

    • 1) lorsqu'il est nécessaire de produire un regroupement analytique pour deux séries de données X et Y
    • 2) le regroupement a déjà été fait, il faut vérifier la règle d'ajout des écarts
    • 3) pour deux séries de données X et Y, il faut trouver l'équation de régression et évaluer sa signification

    Formule de variance fonctionnalité alternative

    Sur la base de ce qui précède, nous pouvons dériver une formule pour trouver la variance d'une caractéristique alternative si nous connaissons le pourcentage d'une telle caractéristique dans l'échantillon total.

    Initialement, nous supposons que la caractéristique ne prend que deux valeurs.

    Ainsi, la somme de la proportion d'éléments dans laquelle les éléments de la série statistique ont la valeur d'attribut "non" et les éléments de la série qui ont la valeur d'attribut "oui" est égale à un.

    Pour trouver la valeur moyenne de la série, nous substituons les valeurs des caractéristiques alternatives (0 et 1) dans la formule pour trouver la valeur moyenne pondérée de la série statistique. D'où, bien évidemment, il y aura une unité au dénominateur, et la valeur en pourcentage des éléments "1" au numérateur. C'est-à-dire exactement la valeur en pourcentage des éléments avec l'attribut "1". (Formule 2)

    La formule de variance est la moyenne pondérée des écarts au carré de chaque valeur de la série de données. (Formule 3)

    Étant donné que dans notre série, les données n'ont que deux types de valeurs - "0" et "1", la formule permettant de trouver la variance d'une série avec une caractéristique alternative est réduite à la formule 4. Explication. puisque nous venons de déduire que la moyenne de l'échantillon est égale à p (Formule 2), alors la valeur du carré de la différence entre la valeur (0/1) et la valeur moyenne, selon la Formule 1, sera (1- p)2 dans le premier cas, et dans le second cas (1-q)2 , en appliquant maintenant le corollaire de la première formule : q = 1 - p, p = 1- q . On obtient p2 et q2 . En conséquence, la proportion des valeurs "0" et "1" est égale à p et q, par conséquent, au numérateur et il s'avère q2 p et p2 q. La somme des parts des caractéristiques des valeurs "0" et "1" selon la formule 1 est égale à 1. En conséquence, la formule 4 prend la valeur pq, qui sera égale à la valeur de la variance de la fonction alternative. Sur la base de la valeur trouvée de la variance de la caractéristique alternative, nous trouverons l'écart type (formule 5). En plaçant la valeur de la formule 1 dans la formule 5, nous obtenons la formule d'écart type pour la variance d'une série avec une caractéristique alternative.

    
    Haut