สูตรอัตราส่วนสหสัมพันธ์เชิงประจักษ์ สัมประสิทธิ์การกำหนดและสหสัมพันธ์เชิงประจักษ์
วิธีการแก้. ในการคำนวณการกระจายกลุ่ม เราคำนวณค่าเฉลี่ยสำหรับแต่ละกลุ่ม:
พีซีเอส.; พีซีเอส
การคำนวณค่าความแปรปรวนระดับกลางตามกลุ่มแสดงไว้ในตาราง 3.2. แทนค่าที่ได้รับเป็นสูตร (3.4) เราได้รับ:
ค่าเฉลี่ยของผลต่างกลุ่ม
จากนั้นเราคำนวณความแปรปรวนระหว่างกลุ่ม ในการทำเช่นนี้ ก่อนอื่นเรากำหนดค่าเฉลี่ยโดยรวมเป็นค่าเฉลี่ยถ่วงน้ำหนักของค่าเฉลี่ยกลุ่ม:
ตอนนี้เรานิยามความแปรปรวนระหว่างกลุ่ม
ดังนั้นความแปรปรวนทั้งหมดตามกฎของการบวกความแปรปรวน:
ลองตรวจสอบผลลัพธ์โดยการคำนวณความแปรปรวนทั้งหมด ตามปกติ:
ตามกฎสำหรับการเพิ่มความแปรปรวน เป็นไปได้ที่จะกำหนดตัวบ่งชี้ความใกล้ชิดของความสัมพันธ์ระหว่างการจัดกลุ่ม (แฟกทอเรียล) และคุณลักษณะที่มีประสิทธิภาพ เรียกว่าอัตราส่วนสหสัมพันธ์เชิงประจักษ์ แทน ("นี่") และคำนวณโดยสูตร
ตัวอย่างเช่น เชิงประจักษ์ ความสัมพันธ์
.
ค่า 0.86 แสดงถึงความสัมพันธ์ที่มีนัยสำคัญระหว่างลักษณะการจัดกลุ่มและประสิทธิภาพ
ค่านี้เรียกว่าสัมประสิทธิ์การกำหนดและแสดงส่วนแบ่งของความแปรปรวนระหว่างกลุ่มในความแปรปรวนทั้งหมด
นอกจากความแปรผันของลักษณะเชิงปริมาณแล้ว ยังสามารถสังเกตความแปรผันของลักษณะเชิงคุณภาพได้อีกด้วย การศึกษาความผันแปรดังกล่าวทำได้สำเร็จ สำหรับสัดส่วนของลักษณะเชิงปริมาณ โดยการคำนวณและวิเคราะห์ความแปรปรวนประเภทต่อไปนี้
ความแปรปรวนภายในกลุ่มของการแบ่งปันถูกกำหนดโดยสูตร
. (3.17)
ค่าเฉลี่ยของผลต่างภายในกลุ่มคำนวณเป็น
. (3.18)
สูตรความแปรปรวนระหว่างกลุ่มมีดังนี้:
, (3.19)
ที่ไหน ฉัน– จำนวนหน่วยในกลุ่มแยก
- สัดส่วนของลักษณะที่ศึกษาในประชากรทั้งหมดซึ่งกำหนดโดยสูตร
ผลต่างทั้งหมดมีรูปแบบ
. (3.21)
การกระจายตัวทั้งสามประเภทมีความสัมพันธ์กันดังนี้:
. (3.22)
ตัวอย่าง 3.4
มากำหนดความแปรปรวนของกลุ่ม ค่าเฉลี่ยของกลุ่ม ระหว่างกลุ่ม และความแปรปรวนทั้งหมดตามข้อมูลในตาราง 3.3.
ตาราง 3.3
จำนวนและ แรงดึงดูดเฉพาะหนึ่งในหมวดหมู่
พื้นที่ฟาร์มปศุสัตว์
วิธีการแก้
ให้เรากำหนดส่วนแบ่งของโคนมโดยทั่วไปสำหรับสามฟาร์ม:
ความแปรปรวนทั้งหมดในสัดส่วนของโคนม:
ความแปรปรวนภายในกลุ่ม:
; ;
.
ค่าเฉลี่ยของผลต่างภายในกลุ่ม:
ความแปรปรวนระหว่างกลุ่ม:
โดยใช้กฎสำหรับการบวกความแปรปรวน เราได้รับ: 0.1025+0.0031=0.1056 ตัวอย่างถูกต้อง
ตัวอย่าง 3.5
จากการสำรวจตัวอย่าง ค่าจ้างพนักงานภาครัฐได้รับตัวชี้วัดดังต่อไปนี้ (ตารางที่ 3.4)
ตาราง 3.4
กำหนด:
1) เงินเดือนเฉลี่ยในสองอุตสาหกรรม
2) การกระจายค่าจ้าง:
ก) ค่าเฉลี่ยของการกระจายกลุ่ม (อุตสาหกรรม)
b) ระหว่างกลุ่ม (intersectoral)
3) สัมประสิทธิ์การกำหนด
4) ความสัมพันธ์เชิงประจักษ์
วิธีการแก้
1. เงินเดือนเฉลี่ยของคนงานในสองอุตสาหกรรมคำนวณโดยสูตร (2.10):
ถู.
2. ผลต่างค่าจ้าง:
ก) ค่าเฉลี่ยของการกระจายตัวของกลุ่มตาม (3.14)
b) การกระจายตัวระหว่างกลุ่มตาม (3.12)
c) ความแปรปรวนทั้งหมดที่ได้รับบนพื้นฐานของกฎสำหรับการบวกความแปรปรวน (3.15):
3. สัมประสิทธิ์การกำหนดเท่ากับค่า
เหล่านั้น. หรือ 44.24%
แสดงให้เห็นว่าค่าตอบแทน 44.24% ขึ้นอยู่กับความเกี่ยวข้องของพนักงานในแต่ละสาขาและ 55.76% - ด้วยเหตุผลภายในอุตสาหกรรม
ตามสูตร (3.16) อัตราส่วนสหสัมพันธ์เชิงประจักษ์ ,
ซึ่งบ่งชี้ผลกระทบอย่างมีนัยสำคัญต่อความแตกต่างของค่าจ้างของลักษณะเฉพาะสาขา
3.2. งานสำหรับโซลูชันอิสระ
งาน 3.1
จากการกระจายคนงาน 60 คนตามประเภทภาษีมีข้อมูลต่อไปนี้ (ตารางที่ 3.5)
ตาราง 3.5
กำหนด:
1) ประเภทค่าจ้างเฉลี่ยของคนงาน
2) ส่วนเบี่ยงเบนเชิงเส้นเฉลี่ย
3) การกระจาย;
4) ส่วนเบี่ยงเบนมาตรฐาน
5) ค่าสัมประสิทธิ์การแปรผัน
งาน 3.2
จากผลการสอบของหลักสูตรที่ 1 และ 2 ของมหาวิทยาลัยแห่งหนึ่งมีข้อมูลดังต่อไปนี้: ในปีที่ 1 นักเรียน 85% ผ่านช่วงที่ไม่มีสองครั้งในปีที่ 2 - 90%
กำหนดความแปรปรวนของสัดส่วนนักเรียนที่สอบผ่านภาคเรียนได้สำเร็จในแต่ละหลักสูตร
งาน 3.3
บริษัทร่วมทุนของภูมิภาคตามจำนวนพนักงานเฉลี่ย ณ วันที่ 1 มกราคม 2547 มีการกระจายดังนี้ (ตารางที่ 3.6)
ตาราง3.6
คำนวณ:
1) ส่วนเบี่ยงเบนเชิงเส้นเฉลี่ย
2) การกระจายตัว;
3) ส่วนเบี่ยงเบนมาตรฐาน
4) ค่าสัมประสิทธิ์การแปรผัน
งาน 3.4
มีข้อมูลเกี่ยวกับการกระจายครอบครัวของพนักงานในองค์กรตามจำนวนเด็ก (ตารางที่ 3.7)
ตาราง 3.7
คำนวณ:
1) การกระจายภายในกลุ่ม
2) ค่าเฉลี่ยของการกระจายภายในกลุ่ม
3) การกระจายตัวระหว่างกลุ่ม
4) ความแปรปรวนทั้งหมด
ตรวจสอบความถูกต้องของการคำนวณโดยใช้กฎการบวกค่าความแปรปรวน
งาน 3.5
การกระจายต้นทุนของผลิตภัณฑ์สำหรับการส่งออกโดยร้านค้าขององค์กรนั้นแสดงด้วยข้อมูลต่อไปนี้ (ตารางที่ 3.8)
ตาราง 3.8
คำนวณ:
1) ค่าเฉลี่ยของกลุ่มภายใน ระหว่างกลุ่ม และส่วนแบ่งรวมของผลิตภัณฑ์เพื่อการส่งออก
2) สัมประสิทธิ์การกำหนดและสหสัมพันธ์เชิงประจักษ์
งาน3.6
จากการสำรวจของธนาคารพาณิชย์ในเมือง 70% ของจำนวนลูกค้าทั้งหมดเป็นนิติบุคคลที่มีเงินกู้เฉลี่ย 120,000 รูเบิล และค่าสัมประสิทธิ์การแปรผัน 25% และ 20% - บุคคลด้วยขนาดเงินกู้เฉลี่ย 20,000 รูเบิล โดยมีค่าเบี่ยงเบนกำลังสองเฉลี่ย 6,000 รูเบิล
ใช้กฎสำหรับการบวกผลต่าง กำหนดความใกล้ชิดของความสัมพันธ์ระหว่างขนาดของเงินกู้และประเภทลูกค้าโดยการคำนวณอัตราส่วนสหสัมพันธ์เชิงประจักษ์
หมวดที่ 4 การเลือกสังเกต
4.1. คำแนะนำวิธีการ
และแนวทางแก้ไขงานทั่วไป
วัตถุประสงค์ของการสังเกตตัวอย่างคือการกำหนดลักษณะของประชากรทั่วไป - ค่าเฉลี่ยทั่วไป ( o) และส่วนแบ่งทั่วไป ( R). ลักษณะของประชากรตัวอย่าง - ค่าเฉลี่ยตัวอย่าง () และส่วนแบ่งตัวอย่าง () แตกต่างจากลักษณะทั่วไปตามจำนวนข้อผิดพลาดในการสุ่มตัวอย่าง () ดังนั้น ในการกำหนดลักษณะของประชากรทั่วไป จึงจำเป็นต้องคำนวณข้อผิดพลาดในการสุ่มตัวอย่าง หรือข้อผิดพลาดในการเป็นตัวแทน ซึ่งกำหนดโดยสูตรที่พัฒนาขึ้นในทฤษฎีความน่าจะเป็นสำหรับตัวอย่างแต่ละประเภทและวิธีการคัดเลือก
การสุ่มตัวอย่างแบบสุ่มและทางกลที่เหมาะสมในกรณีของการสุ่มตัวอย่างซ้ำ ข้อผิดพลาดในการสุ่มตัวอย่างส่วนเพิ่มสำหรับค่าเฉลี่ย () และสำหรับสัดส่วน () คำนวณโดยสูตร
; (4.1)
(4.2)
ความแปรปรวนของประชากรตัวอย่างอยู่ที่ไหน
น- ขนาดตัวอย่าง;
tคือสัมประสิทธิ์ความเชื่อมั่นซึ่งกำหนดจากตารางค่าของฟังก์ชันอินทิกรัล Laplace สำหรับความน่าจะเป็นที่กำหนด ( พี ดอส) (ตาราง ก1).
ด้วยการเลือกแบบสุ่มและแบบไม่ซ้ำซ้อน ข้อผิดพลาดในการสุ่มตัวอย่างส่วนเพิ่มจะถูกคำนวณโดยสูตร
; (4.3)
, (4.4)
ที่ไหน นู๋- ขนาดของประชากรทั่วไป
ตัวอย่าง 4.1
เพื่อตรวจสอบปริมาณเถ้าถ่านหินในแหล่งสะสม สุ่มตรวจสอบตัวอย่างถ่านหิน 100 ตัวอย่าง จากการสำรวจพบว่าปริมาณเถ้าถ่านหินเฉลี่ยในตัวอย่างคือ 16% ส่วนเบี่ยงเบนมาตรฐานคือ 5% ในตัวอย่างสิบตัวอย่าง ปริมาณเถ้าถ่านหินมีมากกว่า 20% ด้วยความน่าจะเป็น 0.954 ให้กำหนดขีด จำกัด ที่ปริมาณเถ้าเฉลี่ยของถ่านหินในเงินฝากและสัดส่วนของถ่านหินที่มีปริมาณเถ้ามากกว่า 20%
วิธีการแก้
ปริมาณเถ้าเฉลี่ยของถ่านหินจะอยู่ภายใน
ในการกำหนดขอบเขตของค่าเฉลี่ยทั่วไป เราคำนวณข้อผิดพลาดในการสุ่มตัวอย่างส่วนเพิ่มสำหรับค่าเฉลี่ยโดยใช้สูตร (4.1):
. (4.5)
ด้วยความน่าจะเป็นที่ 0.954 สามารถโต้แย้งได้ว่าปริมาณเถ้าถ่านหินโดยเฉลี่ยในแหล่งสะสมจะอยู่ภายใน 16% 1% หรือ 15% 17%
ส่วนแบ่งของถ่านหินที่มีเถ้ามากกว่า 20% จะอยู่ภายใน
ส่วนแบ่งตัวอย่างถูกกำหนดโดยสูตร
ที่ไหน มคือ สัดส่วนของหน่วยที่มีคุณสมบัติ
ข้อผิดพลาดในการสุ่มตัวอย่างสำหรับการแบ่งปัน () คำนวณโดยสูตร (4.2):
หรือ ±6%
ด้วยความน่าจะเป็น 0.954 สามารถโต้แย้งได้ว่าสัดส่วนของถ่านหินที่มีปริมาณเถ้ามากกว่า 20% ในเงินฝากจะอยู่ภายใน , หรือ
.
ตัวอย่าง 4.2
ในการกำหนดระยะเวลาเฉลี่ยของการใช้เงินกู้ระยะสั้นในธนาคาร ได้มีการสร้างตัวอย่างทางกล 5% ซึ่งรวมถึงบัญชี 100 บัญชี จากการสำรวจพบว่าระยะเวลาการใช้เงินกู้ระยะสั้นเฉลี่ย 30 วัน ส่วนเบี่ยงเบนมาตรฐานคือ 9 วัน ในห้าบัญชี ระยะเวลาการใช้เงินกู้เกิน 60 วัน ด้วยความน่าจะเป็น 0.954 ให้กำหนดขอบเขตของการใช้เงินกู้ระยะสั้นในประชากรทั่วไปและสัดส่วนของบัญชีที่มีระยะเวลาการใช้เงินกู้ระยะสั้นมากกว่า 60 วัน
วิธีการแก้
เทอมเฉลี่ยการใช้เงินกู้ธนาคารอยู่ภายใน
.
เนื่องจากการสุ่มตัวอย่างเป็นแบบกลไก ข้อผิดพลาดในการสุ่มตัวอย่างจึงถูกกำหนดโดยสูตร (2.3):
วัน.
ด้วยความน่าจะเป็น 0.954 เป็นที่ถกเถียงกันอยู่ว่าระยะเวลาการใช้เงินกู้ระยะสั้นในธนาคารคือภายใน = 30 วัน 2 วัน หรือ
28 วันต่อวัน
ส่วนแบ่งของเงินกู้ที่มีระยะเวลาเกิน 60 วันอยู่ภายใน
ส่วนแบ่งตัวอย่างจะเป็น
ข้อผิดพลาดในการสุ่มตัวอย่างหุ้นถูกกำหนดโดยสูตร (4.4):
หรือ 4.2%
ด้วยความน่าจะเป็น 0.954 เถียงได้ว่าหุ้นกู้ธนาคารที่มีระยะเวลาครบกำหนดเกิน 60 วันจะอยู่ภายใน หรือ
ตัวอย่างทั่วไปในการเลือกทั่วไป (โซน) ประชากรทั่วไปจะถูกแบ่งออกเป็นกลุ่มพื้นที่ทั่วไปที่เป็นเนื้อเดียวกัน ดำเนินการเลือกหน่วยการสังเกตในชุดตัวอย่าง วิธีการต่างๆ. พิจารณาตัวอย่างทั่วไปด้วยการเลือกตามสัดส่วนภายในกลุ่มทั่วไป
ขนาดตัวอย่างจากกลุ่มทั่วไปในการเลือกสัดส่วนกับจำนวนกลุ่มทั่วไปถูกกำหนดโดยสูตร
ที่ไหน ฉันคือขนาดกลุ่มตัวอย่างจากกลุ่มทั่วไป
ฉันคือปริมาณของกลุ่มทั่วไป
ความคลาดเคลื่อนเล็กน้อยของค่าเฉลี่ยตัวอย่างและสัดส่วนสำหรับการสุ่มแบบไม่ซ้ำและ ทางกลการคัดเลือกภายในกลุ่มทั่วไปคำนวณโดยสูตร
; (4.8)
, (4.9)
ความแปรปรวนประชากรตัวอย่างอยู่ที่ไหน
ตัวอย่าง 4.3
ในการกำหนดอายุเฉลี่ยของผู้ชายที่จะแต่งงาน จะมีการสุ่มตัวอย่างทั่วไป 5% ในเขตด้วยการเลือกหน่วยตามสัดส่วนของขนาดของกลุ่มทั่วไป ภายในกลุ่ม ใช้การคัดเลือกทางกล ข้อมูลสรุปไว้ในตาราง 4.1.
ตาราง 4.1
ด้วยความน่าจะเป็น 0.954 ให้กำหนดขีดจำกัดที่ อายุเฉลี่ยผู้ชายที่แต่งงานและสัดส่วนของผู้ชายที่แต่งงานครั้งที่สอง
วิธีการแก้
อายุเฉลี่ยของการแต่งงานสำหรับผู้ชายอยู่ภายใน
.
อายุเฉลี่ยของการแต่งงานของผู้ชายในกลุ่มประชากรตัวอย่างกำหนดโดยสูตรของค่าเฉลี่ยถ่วงน้ำหนัก
= ของปี.
ความแปรปรวนตัวอย่างเฉลี่ยถูกกำหนดโดยสูตร
กลาง
=
เราคำนวณข้อผิดพลาดในการสุ่มตัวอย่างส่วนเพิ่มโดยใช้สูตร (4.8):
ของปี.
ด้วยความน่าจะเป็น 0.954 สันนิษฐานได้ว่าอายุเฉลี่ยของผู้ชายที่จะแต่งงานจะอยู่ภายในปีหรือ
อายุ 24 ปี.
สัดส่วนของผู้ชายที่จะแต่งงานใหม่จะอยู่ภายใน
ส่วนแบ่งตัวอย่างถูกกำหนดโดยสูตรของค่าเฉลี่ย
หรือ 14%
ความแปรปรวนตัวอย่างเฉลี่ยของคุณลักษณะทางเลือกคำนวณโดยสูตร
(4.12)
ข้อผิดพลาดในการสุ่มตัวอย่างสำหรับการแบ่งปันถูกกำหนดโดยสูตร (4.9):
หรือ 6%
ด้วยความน่าจะเป็น 0.954 เป็นที่ถกเถียงกันว่าสัดส่วนของผู้ชายที่แต่งงานครั้งที่สองจะอยู่ภายใน , หรือ
.
การสุ่มตัวอย่างแบบอนุกรมด้วยวิธีการเลือกแบบอนุกรม ประชากรทั่วไปจะถูกแบ่งออกเป็นกลุ่มที่มีขนาดเท่ากัน - แบบอนุกรม เลือกซีรีส์ในชุดตัวอย่าง ภายในซีรีส์ จะมีการสังเกตยูนิตที่ตกลงไปในซีรีส์อย่างต่อเนื่อง
ในกรณีของการเลือกอนุกรมที่ไม่ซ้ำกัน ความคลาดเคลื่อนของค่าเฉลี่ยตัวอย่างและสัดส่วนจะถูกกำหนดโดยสูตร
, (4.13)
ความแปรปรวนระหว่างกันอยู่ที่ไหน
Rคือจำนวนอนุกรมในประชากรทั่วไป
r– จำนวนชุดที่เลือก
ตัวอย่าง 4.4
มีพนักงาน 10 ทีมในร้านค้าขององค์กร เพื่อศึกษาผลิตภาพแรงงาน ได้ทำการสุ่มตัวอย่างแบบต่อเนื่อง 20% ซึ่งรวมถึง 2 กองพลน้อย จากผลการสำรวจพบว่าผลผลิตเฉลี่ยของคนงานในทีมคือ 4.6 และ 3 ตัน ด้วยความน่าจะเป็น 0.997 ให้กำหนดขีด จำกัด ที่ผลผลิตเฉลี่ยของพนักงานในร้านจะเป็น t หรือ ที
ตัวอย่าง 4.5
มีสินค้าในสต๊อก ผลิตภัณฑ์สำเร็จรูปการประชุมเชิงปฏิบัติการประกอบด้วยชิ้นส่วน 200 กล่องแต่ละกล่อง 40 ชิ้น เพื่อตรวจสอบคุณภาพของผลิตภัณฑ์สำเร็จรูป ได้ทำการสุ่มตัวอย่าง 10% จากการสุ่มตัวอย่างพบว่าสัดส่วนชิ้นส่วนที่ชำรุดคิดเป็นร้อยละ 15 ความแปรปรวนตัวอย่างแบบอนุกรมคือ 0.0049
ด้วยความน่าจะเป็น 0.997 ให้กำหนดขีดจำกัดภายในสัดส่วนของผลิตภัณฑ์ที่มีข้อบกพร่องในชุดกล่อง
วิธีการแก้
สัดส่วนของชิ้นส่วนที่ชำรุดจะอยู่ภายใน
ให้เรากำหนดข้อผิดพลาดในการสุ่มตัวอย่างส่วนเพิ่มสำหรับส่วนแบ่งตามสูตร (4.13):
หรือ 4.4%
ด้วยความน่าจะเป็น 0.997 จึงสามารถโต้แย้งได้ว่าสัดส่วนของชิ้นส่วนที่บกพร่องในชุดงานอยู่ในช่วง 10.6% 19.6%
ตัวอย่าง 4.6
ในแคว้นปกครองตนเองที่ประกอบด้วย 20 อำเภอ ได้ทำการสำรวจผลผลิตตัวอย่างโดยพิจารณาจากการเลือกชุดข้อมูล (เขต) ค่าเฉลี่ยกลุ่มตัวอย่างสำหรับเขตมีจำนวน 14.5 c/ha ตามลำดับ; 16; 15.5; 15 และ 14 คิว/เฮกตาร์ ด้วยความน่าจะเป็น 0.954 ให้หาขีดจำกัดของผลผลิตในพื้นที่ทั้งหมด
วิธีการแก้
คำนวณค่าเฉลี่ยโดยรวม:
ค/เฮก.
ความแปรปรวนระหว่างกลุ่ม (interseries)
ให้เราตรวจสอบข้อผิดพลาดเล็กน้อยของตัวอย่างที่ไม่ซ้ำแบบอนุกรม (t = 2, P dov = 0.954) โดยใช้สูตร (4.13):
.
ดังนั้นผลผลิตในภูมิภาค (ด้วยความน่าจะเป็น 0.954) จะอยู่ภายใน
15-1,7≤ ≤15+1,7,
13.3 ค/เฮกตาร์ ≤ ≤16.7 ค/เฮกตาร์
ในการออกแบบการสังเกตตัวอย่าง จำเป็นต้องหาขนาดของตัวอย่าง ซึ่งจำเป็นเพื่อให้แน่ใจว่ามีความแม่นยำในการคำนวณลักษณะทั่วไป - ค่าเฉลี่ยและสัดส่วน ในกรณีนี้ จะทราบข้อผิดพลาดในการสุ่มตัวอย่างส่วนเพิ่ม ความน่าจะเป็นที่จะเกิดขึ้น และความแปรผันของคุณลักษณะล่วงหน้า
ด้วยการสุ่มตัวอย่างซ้ำ ขนาดตัวอย่างจะถูกกำหนดจากนิพจน์
ด้วยการเลือกแบบสุ่มแบบไม่ซ้ำและทางกล ขนาดตัวอย่างจะถูกคำนวณโดยสูตร
. (4.16)
สำหรับตัวอย่างทั่วไป
. (4.17)
สำหรับการสุ่มตัวอย่างแบบอนุกรม
. (4.18)
ตัวอย่าง 4.7
มี 2,000 ครอบครัวอาศัยอยู่ในเขต มีการวางแผนที่จะดำเนินการสำรวจตัวอย่างของพวกเขาโดยวิธีการสุ่มเลือกแบบไม่ซ้ำเพื่อหาขนาดครอบครัวโดยเฉลี่ย กำหนดขนาดกลุ่มตัวอย่างที่ต้องการ โดยที่ความน่าจะเป็น 0.954 ข้อผิดพลาดในการสุ่มตัวอย่างจะต้องไม่เกินหนึ่งคนโดยมีค่าเบี่ยงเบนมาตรฐานสามคน ( = 3)
วิธีการแก้
ด้วยการเลือกสุ่มแบบไม่ซ้ำกัน ขนาดตัวอย่างตามสูตร (4.16) จะเป็น ครอบครัว
ขนาดตัวอย่าง: อย่างน้อย 36 ครอบครัว
ตัวอย่าง 4.8
เมือง A มี 10,000 ครอบครัว ด้วยความช่วยเหลือของการสุ่มตัวอย่างทางกล ควรจะกำหนดสัดส่วนของครอบครัวที่มีลูกสามคนขึ้นไป ขนาดกลุ่มตัวอย่างควรเป็นเท่าใดจึงจะมีความน่าจะเป็น 0.954 ที่ข้อผิดพลาดในการสุ่มตัวอย่างไม่เกิน 0.02 หากทราบว่าความแปรปรวนเป็น 0.2 จากการสำรวจครั้งก่อน
วิธีการแก้
ให้เรากำหนดขนาดตัวอย่างที่ต้องการตามสูตร (4.16):
.
ขนาดตัวอย่าง: ไม่น้อยกว่า 1667
ในสถิติ มักจำเป็นต้องเปรียบเทียบผลลัพธ์ของตัวอย่างสองตัวอย่าง (หรือมากกว่า) จากการเปรียบเทียบตัวอย่างสองวิธี (หรือการแบ่งปัน) จะมีการสรุปเกี่ยวกับการสุ่มหรือความสำคัญของความคลาดเคลื่อน
สำหรับสิ่งนี้ ความแตกต่างที่แน่นอนระหว่างตัวบ่งชี้ของค่าเฉลี่ยตัวอย่างจะถูกเปรียบเทียบกับข้อผิดพลาดเฉลี่ยของความแตกต่าง:
. (4.19)
พบ tคำนวณ เปรียบเทียบกับ tแท็บ บน t- การกระจายตัวของนักเรียน (ตาราง P2) สำหรับจำนวนองศาอิสระ วี=น 1 +น 2 -2 และระดับนัยสำคัญที่กำหนด a. (ที่นี่ น 1 และ น 2 – ปริมาตรของตัวอย่างที่เปรียบเทียบ)
ความสัมพันธ์เชิงประจักษ์
ความใกล้ชิดหรือความแข็งแกร่งของความสัมพันธ์ระหว่างสองคุณลักษณะสามารถวัดได้โดยตัวบ่งชี้ที่เรียกว่าอัตราส่วนสหสัมพันธ์เชิงประจักษ์ ตัวบ่งชี้นี้เรียกว่าเชิงประจักษ์เนื่องจากสามารถคำนวณได้จากการจัดกลุ่มตามปกติตามปัจจัยและแอตทริบิวต์ที่เป็นผลลัพธ์นั่นคือบนพื้นฐานของตารางสหสัมพันธ์ ความสัมพันธ์เชิงประจักษ์ได้มาจากกฎการบวกความแปรปรวนตามที่ , โดยที่ - ความแปรปรวนทั้งหมด
- การกระจายตัวระหว่างกลุ่ม
- การกระจายภายในกลุ่ม (เฉลี่ยส่วนตัว) ความแปรปรวนระหว่างกลุ่มคือการวัดความผันผวนอันเนื่องมาจากแอตทริบิวต์ของปัจจัย ค่าเฉลี่ยของความแปรปรวนบางส่วนเป็นตัววัดความผันผวนเนื่องจากคุณสมบัติอื่นๆ ทั้งหมด (ยกเว้นแฟกทอเรียล) แล้วความสัมพันธ์
เป็นการแสดงออกถึงส่วนแบ่งของความผันผวนที่เกิดขึ้นเนื่องจากปัจจัยในการผันผวนทั้งหมด รากที่สองของอัตราส่วนนี้เรียกว่าอัตราส่วนสหสัมพันธ์เชิงประจักษ์:
.
นี่แสดงถึงกฎที่ว่ายิ่งความแปรปรวนระหว่างกลุ่มมากเท่าใด ลักษณะปัจจัยก็จะยิ่งส่งผลต่อความแปรผันของลักษณะที่เป็นผลลัพธ์มากขึ้นเท่านั้น อัตราส่วนองค์ประกอบของความแปรปรวนคำนวณจากข้อมูลของตารางสหสัมพันธ์โดยใช้สูตรต่อไปนี้:
;
,
ค่าเฉลี่ยส่วนตัวอยู่ที่ไหน - ค่าเฉลี่ยทั่วไป
- ผลรวมตามคุณสมบัติ
;
- ผลรวมตามคุณสมบัติ
;
- จำนวนการสังเกต ความสัมพันธ์เดียวกันจะถูกเก็บไว้สำหรับค่าตามเงื่อนไขที่ได้รับจากการแปลงตัวเลข
อัตราส่วนความแปรปรวนเอง (นิพจน์ราก) เรียกว่าสัมประสิทธิ์การกำหนด (เท่ากับกำลังสองของอัตราส่วนสหสัมพันธ์เชิงประจักษ์) อัตราส่วนสหสัมพันธ์เชิงประจักษ์แตกต่างกันไปในช่วงกว้าง (จาก 0 ถึง 1) หากมีค่าเท่ากับศูนย์ เครื่องหมายแฟคเตอร์จะไม่ส่งผลต่อเครื่องหมายสหสัมพันธ์ ถ้า =1 ซึ่งหมายความว่าเครื่องหมายผลลัพธ์ขึ้นอยู่กับปัจจัยหนึ่งอย่างสมบูรณ์ ถ้าสหสัมพันธ์เชิงประจักษ์เป็นเศษส่วนที่ใกล้เคียงกับเอกภาพแล้ว คนหนึ่งก็พูดถึง การเชื่อมต่ออย่างใกล้ชิดระหว่างคุณสมบัติแฟกทอเรียลและผลลัพธ์ หากเศษส่วนนี้มีขนาดเล็ก (ใกล้กับศูนย์) แสดงว่ามีความเชื่อมโยงระหว่างกันที่อ่อนแอ
ค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นและดัชนีสหสัมพันธ์
การวัดความใกล้ชิดของความสัมพันธ์ระหว่างสองคุณลักษณะที่เกี่ยวข้องทางสถิติคือสัมประสิทธิ์สหสัมพันธ์เชิงเส้นหรือเพียงแค่สัมประสิทธิ์สหสัมพันธ์ มีความหมายเดียวกับอัตราส่วนสหสัมพันธ์เชิงประจักษ์ แต่รับได้ทั้งค่าบวกและค่าลบ สัมประสิทธิ์สหสัมพันธ์มีนิพจน์ทางคณิตศาสตร์ที่เข้มงวดสำหรับความสัมพันธ์เชิงเส้น ค่าบวกจะระบุถึงความสัมพันธ์โดยตรงระหว่างคุณลักษณะ ค่าลบจะระบุถึงสิ่งที่ตรงกันข้าม
ค่าสัมประสิทธิ์สหสัมพันธ์คู่ในกรณีของรูปแบบเชิงเส้นของการสื่อสารคำนวณโดยสูตร
และค่าตัวอย่าง - ตามสูตร
ด้วยการสังเกตจำนวนน้อย จึงสะดวกในการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ตัวอย่างโดยใช้สูตรต่อไปนี้:
ค่าของสัมประสิทธิ์สหสัมพันธ์เปลี่ยนแปลงในช่วงเวลา .
ที่ มีความสัมพันธ์เชิงฟังก์ชันระหว่างตัวแปรทั้งสองเมื่อ
- การเชื่อมต่อการทำงานโดยตรง ถ้า
ดังนั้นค่าของ X และ Y ในตัวอย่างจะไม่สัมพันธ์กัน ถ้าระบบของตัวแปรสุ่ม
มีการแจกแจงแบบปกติสองมิติ จากนั้นปริมาณ X และ Y ก็จะเป็นอิสระเช่นกัน
ถ้าสัมประสิทธิ์สหสัมพันธ์อยู่ในช่วง จึงมีความสัมพันธ์แบบผกผันระหว่าง X และ Y สิ่งนี้ได้รับการยืนยันโดยการวิเคราะห์ด้วยภาพของข้อมูลเบื้องต้น ในกรณีนี้ ค่าเบี่ยงเบนของ Y จากค่าเฉลี่ยจะใช้เครื่องหมายตรงข้าม
หากค่า X และ Y แต่ละคู่มักจะอยู่เหนือ (ด้านล่าง) ค่าเฉลี่ยที่สอดคล้องกันมากที่สุด แสดงว่ามีความสัมพันธ์โดยตรงระหว่างค่าและค่าสัมประสิทธิ์สหสัมพันธ์อยู่ในช่วง .
ในทางกลับกัน หากค่าเบี่ยงเบนของค่า X จากค่ากลางเท่าๆ กัน มักจะทำให้ค่าของ Y เบี่ยงเบนลงจากค่าเฉลี่ย และความเบี่ยงเบนนั้นต่างกันตลอดเวลา เราก็สามารถสันนิษฐานได้ว่าค่าของ ค่าสัมประสิทธิ์สหสัมพันธ์มีแนวโน้มเป็นศูนย์
ควรสังเกตว่าค่าของสัมประสิทธิ์สหสัมพันธ์ไม่ขึ้นอยู่กับหน่วยของการวัดและการเลือกจุดอ้างอิง ซึ่งหมายความว่าหากตัวแปร X และ Y ลดลง (เพิ่มขึ้น) โดย K เท่าหรือด้วยตัวเลข C เดียวกัน สัมประสิทธิ์สหสัมพันธ์จะไม่เปลี่ยนแปลง
เพื่อลดความซับซ้อนในการคำนวณการวัดความหนาแน่นสหสัมพันธ์ มักใช้ดัชนีสหสัมพันธ์ ซึ่งกำหนดโดยสูตรต่อไปนี้:
,
,
ที่ไหน - ความแปรปรวนที่เหลือ ระบุลักษณะการแปรผันของแอตทริบิวต์ที่เป็นผลลัพธ์ภายใต้อิทธิพลของปัจจัยอื่นๆ ที่ไม่ได้พิจารณา
หลายสหสัมพันธ์
หลายความสัมพันธ์ - การพึ่งพาอาศัยของผลลัพธ์และลักษณะปัจจัยสองอย่างหรือมากกว่าที่รวมอยู่ในการศึกษา ตัวบ่งชี้ความใกล้ชิดของความสัมพันธ์ระหว่างผลลัพท์กับคุณลักษณะของปัจจัยตั้งแต่สองตัวขึ้นไปเรียกว่าสัมประสิทธิ์สหสัมพันธ์พหุคูณหรือสะสม และแสดงโดย R ค่าสัมประสิทธิ์สะสมแสดงถึงความสัมพันธ์เชิงเส้นตรงระหว่างคุณลักษณะแต่ละคู่ ซึ่งสามารถ แสดงโดยใช้สัมประสิทธิ์สหสัมพันธ์คู่ หากมีการวัดความหนาแน่นของความสัมพันธ์ระหว่างคุณลักษณะที่มีประสิทธิภาพ () และคุณลักษณะสองปัจจัย (และ .) ) จากนั้นการคำนวณสัมประสิทธิ์สหสัมพันธ์สะสมจะดำเนินการตามสูตร:
,
โดยที่ตัวห้อยระบุระหว่างคุณลักษณะที่มีการศึกษาความสัมพันธ์ของคู่
ในสูตรการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์แบบคู่ เฉพาะสัญลักษณ์ที่แสดงถึงปัจจัยหนึ่งปัจจัยเท่านั้นที่เปลี่ยนแปลง ดังนั้น หากค่าสัมประสิทธิ์สหสัมพันธ์ระหว่าง และ คำนวณโดยสูตร ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่าง และ จะถูกคำนวณ: ; ระหว่าง และ - ดังนั้น:
ส่วนการชำระบัญชี
งาน 31
ข้อมูลต่อไปนี้มีให้สำหรับองค์กรสิบแห่งสำหรับรอบระยะเวลาการรายงาน:
ตารางที่ 2
รัฐวิสาหกิจ |
ต้นทุนเฉลี่ยต่อปีของสินทรัพย์การผลิตคงที่ mln ถู |
ผลผลิต ล้านรูเบิล |
เพื่อศึกษาความสัมพันธ์ระหว่างขนาดของต้นทุนเฉลี่ยต่อปีของสินทรัพย์ถาวรและผลผลิต ให้คำนวณสมการความสัมพันธ์เชิงเส้น
2. จากข้อมูลที่กำหนด: a) คำนวณ: ค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้น; b) ตรวจสอบความถูกต้องของการเลือกรูปแบบการสื่อสารโดยคำนวณดัชนีสหสัมพันธ์
โดยใช้ตัวประมวลผลสเปรดชีต Microsoft Excel เราจะสร้างแผ่นงาน:
ตารางที่ 3
การคำนวณผลรวมสำหรับการคำนวณพารามิเตอร์ของสมการเส้นตรง
|
|
|
|
|
|
|||
239.74 *1236 = 539.1 การแจกแจงความน่าจะเป็น... เศรษฐกิจ การวิเคราะห์, แก้ไขบนพื้นฐานของ การถดถอย เศรษฐกิจโมเดล ลองพิจารณา y - เครื่องหมายมีผล และ x - เครื่องหมายแฟคเตอร์ วิธีการ สัมพันธ์กัน-การถดถอย การวิเคราะห์ ... โปรแกรมของสาขาวิชา "วิธีคอมพิวเตอร์สำหรับการวิเคราะห์ข้อมูลทางสังคมวิทยา" (ความรู้เบื้องต้นเกี่ยวกับสถิติทางคณิตศาสตร์และการวิเคราะห์ข้อมูล) สำหรับทิศทาง 040200 68 "สังคมวิทยา"โปรแกรมวินัยแอพพลิเคชั่น 11 3 2 6 กระจายตัว การวิเคราะห์ 9 2 2 5 คู่และทวีคูณ ถอยหลัง การวิเคราะห์ 9 2 2 5 คุณสมบัติของสัมประสิทธิ์... โดยผู้ใช้ SPSS 11.0 Siskov V.I. ความสัมพันธ์ การวิเคราะห์ใน เศรษฐกิจ การวิจัย. ม. 1975. Eddous M. , Stansfield... การวิเคราะห์ G. L. Savitskaya ของกิจกรรมทางเศรษฐกิจขององค์กรเอกสารความเป็นเลิศ วิธีการใหม่ล่าสุด เศรษฐกิจ การวิจัย. การวิเคราะห์ควรจะซับซ้อน ความซับซ้อนของการวิจัย ... ในระดับผลผลิตเฉลี่ยต่อชั่วโมง สัมพันธ์กัน-ถอยหลัง การวิเคราะห์. เป็นพหุปัจจัย ความสัมพันธ์แบบจำลองผลผลิตเฉลี่ยต่อชั่วโมง... |
การวิเคราะห์สหสัมพันธ์เกี่ยวข้องกับการวัดความใกล้ชิดของการเชื่อมต่อโดยใช้สัมประสิทธิ์สหสัมพันธ์และอัตราส่วนสหสัมพันธ์ ด้วยรูปแบบเชิงเส้นของการพึ่งพา ความแรงของการเชื่อมต่อจะประมาณโดย ค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สัน :
ค่าสัมประสิทธิ์สหสัมพันธ์แตกต่างกันไปตั้งแต่ (- 1) ถึง (+ 1) (– 1 r 1).
เครื่องหมายลบของตัวบ่งชี้แสดงถึงการป้อนกลับ เครื่องหมายบวกหมายถึงการเชื่อมต่อโดยตรง ยิ่งค่าของตัวบ่งชี้ใกล้หนึ่งมากเท่าใด ในค่าสัมบูรณ์ ยิ่งการเชื่อมต่อยิ่งแข็งแกร่ง ยิ่งใกล้ศูนย์ การเชื่อมต่อยิ่งอ่อนแอ
ในการวัดความแข็งแรงของการเชื่อมต่อด้วยการพึ่งพารูปแบบใด ๆ ทั้งแบบเชิงเส้นและแบบไม่เชิงเส้นตลอดจนการประเมินการเชื่อมต่อแบบทวีคูณ ให้ใช้ ความสัมพันธ์ทางทฤษฎี (ดัชนีความสัมพันธ์). การคำนวณจะขึ้นอยู่กับกฎการบวกค่าความแปรปรวน:
ที่ไหน
–ผลต่างทั้งหมด
- สะท้อนถึงความผันแปรของคุณลักษณะที่มีประสิทธิภาพเนื่องจากปัจจัยทั้งหมดที่กระทำต่อคุณลักษณะนั้น
หรือ
–ความแปรปรวนของปัจจัย
สะท้อนถึงความผันแปรของคุณลักษณะที่มีประสิทธิภาพอันเนื่องมาจากปัจจัย (X).
–การกระจายตัวของสารตกค้าง
สะท้อนให้เห็นถึงการเปลี่ยนแปลงของคุณสมบัติที่มีประสิทธิภาพ เนื่องด้วยปัจจัยทั้งปวง ยกเว้นปัจจัย
(X);
อัตราส่วนสหสัมพันธ์ทางทฤษฎี คือรากที่สองของอัตราส่วนของความแปรปรวนแฟกทอเรียลต่อความแปรปรวนทั้งหมด:
การแสดงออกของราก - ค่าสัมประสิทธิ์การตัดสินใจ :
แสดงสัดส่วนของการแปรผันของลักษณะที่เป็นผล เนื่องจากอิทธิพลของลักษณะปัจจัย ในการแปรผันทั้งหมด ยิ่งสัดส่วนนี้สูง ความสัมพันธ์ระหว่างคุณลักษณะยิ่งแข็งแกร่ง
อัตราส่วนสหสัมพันธ์ทางทฤษฎี เปลี่ยนจาก 0 เป็น 1 (0 R 1) . ค่าของตัวบ่งชี้อยู่ใกล้กับหนึ่งยิ่งความสัมพันธ์แข็งแกร่งขึ้น
คุณสามารถใช้ .เพื่อประเมินความแข็งแกร่งของความสัมพันธ์ มาตราส่วนชม eddoka:
แนวโน้มการพัฒนาหลักและวิธีการสำหรับการตรวจจับ
ไดนามิกแต่ละแถวมีแนวโน้มการพัฒนาของตนเอง กล่าวคือ ทิศทางทั่วไปในการเพิ่มขึ้น ลด หรือรักษาระดับของปรากฏการณ์เมื่อเวลาผ่านไป ความรุนแรงของแนวโน้มนี้ขึ้นอยู่กับอิทธิพลของปัจจัยคงที่ เป็นระยะ (ตามฤดูกาล) และสุ่มในระดับของชุดไดนามิก ดังนั้นไม่ควรพูดถึงแนวโน้มการพัฒนาเท่านั้น แต่ควรพูดถึงแนวโน้มหลักด้วย
แนวโน้มการพัฒนาหลัก (แนวโน้ม) เรียกว่าการเปลี่ยนแปลงระดับของปรากฏการณ์อย่างราบรื่นและสม่ำเสมอ ปราศจากความผันผวนเป็นระยะและสุ่ม.
เพื่อระบุแนวโน้ม ชุดของไดนามิกจะถูกประมวลผลโดยวิธีการขยายช่วงเวลา ค่าเฉลี่ยเคลื่อนที่ และการจัดแนวการวิเคราะห์
วิธีการหยาบแบบช่วงเวลา ขึ้นอยู่กับการรวมช่วงเวลาซึ่งรวมถึงระดับของชุดไดนามิก ในการทำเช่นนี้ ข้อมูลดั้งเดิมจะถูกรวมเข้าด้วยกัน กล่าวคือ สรุปหรือเฉลี่ยในช่วงเวลาที่นานขึ้นจนถึง แนวโน้มทั่วไปการพัฒนาจะไม่มีความชัดเจนเพียงพอ ตัวอย่างเช่น ข้อมูลรายวันเกี่ยวกับการผลิตจะรวมกันเป็นข้อมูลสิบวัน ข้อมูลรายเดือนเป็นข้อมูลรายไตรมาส ข้อมูลรายปีเป็นข้อมูลหลายปี ข้อดีของวิธีนี้คือความเรียบง่าย ข้อเสียคือซีรีย์ที่ปรับให้เรียบนั้นสั้นกว่าซีรีย์ดั้งเดิมมาก
วิธีค่าเฉลี่ยเคลื่อนที่ ประกอบด้วยข้อเท็จจริงที่ว่า บนพื้นฐานของข้อมูลเริ่มต้น ค่าเฉลี่ยเคลื่อนที่คำนวณจากจำนวนระดับแรกของชุดข้อมูล อันดับแรกในแถว จากนั้นจากจำนวนระดับเดียวกัน เริ่มจากระดับที่สอง จากระดับที่สาม ฯลฯ ค่าเฉลี่ยจะเลื่อนไปตามชุดข้อมูลแบบไดนามิก โดยเคลื่อนที่เป็นช่วงๆ ค่าเฉลี่ยเคลื่อนที่ทำให้ความผันผวนแบบสุ่มราบรื่นขึ้น
แบบแผนการคำนวณค่าเฉลี่ยเคลื่อนที่ 3 ระดับ
ช่วงเวลา (หมายเลขตามลำดับ) |
ระดับไดนามิกซีรีส์จริง ที่ ผม |
ค่าเฉลี่ยเคลื่อนที่ ที่ sk |
ที่ 1 | ||
ที่ 2 |
|
|
ที่ 3 |
|
|
ที่ 4 |
ที่ sc3 |
|
ที่ 5 |
ที่ sc4 |
|
ที่ 6 |
ชุดไดนามิกที่ปรับให้เรียบนั้นสั้นกว่าชุดดั้งเดิมตามค่า (ล. - 1), หากทำการขยายเป็นจำนวนคี่ของระดับ โดยที่ l คือ ระยะเวลาการขยายพันธุ์ ตัวอย่างเช่น if ล. = 3 จากนั้นแถวที่จัดแนวจะสั้นกว่า 2 ระดับ ดังนั้นซีรีย์ที่ปรับให้เรียบนั้นไม่สั้นกว่าซีรีย์ดั้งเดิมมากนัก
วิธีการจัดตำแหน่งเชิงวิเคราะห์ ประกอบด้วยการแทนที่ระดับที่แท้จริงของอนุกรมเวลาด้วยค่าทางทฤษฎีที่คำนวณจากสมการแนวโน้ม:
คำนวณพารามิเตอร์สมการ วิธีกำลังสองน้อยที่สุด:
ที่ไหน ที่– ระดับที่แท้จริง; ที่ Tiคือระดับที่จัดแนว (คำนวณ) ที่สอดคล้องกับพวกเขาในเวลา
หากการพัฒนาดำเนินการในความก้าวหน้าทางคณิตศาสตร์ (ด้วยการเพิ่มขึ้นอย่างสัมบูรณ์ของสายเท่ากัน) ดังนั้น ฟังก์ชันเชิงเส้น:
หากมีความก้าวหน้าทางเรขาคณิตแบบไดนามิก (ที่มีอัตราการเติบโตของลูกโซ่เท่ากัน) ก็จำเป็นต้องใช้ ฟังก์ชันเลขชี้กำลัง:
ที่ t = 0 เอ 1 t .
หากการพัฒนาเกิดขึ้นโดยมีอัตราการเติบโตเท่ากัน จะใช้กับ ฟังก์ชั่นพลังงานตัวอย่างเช่น ลำดับที่สอง (พาราโบลา):
ที่ t = 0 + 1 t+ 2 t 2 .
เกณฑ์สำหรับการเลือกสมการแนวโน้มที่ถูกต้องคือ ข้อผิดพลาดในการประมาณค่า . มันแสดงถึงค่าเบี่ยงเบนมาตรฐานของระดับจริงของซีรีย์ไดนามิกจากค่าทางทฤษฎี:
สมการที่มีข้อผิดพลาดในการประมาณค่าน้อยที่สุดถือว่าเหมาะสมที่สุด
พิจารณา “เทคนิค” ในการปรับระดับอนุกรมเวลาตาม ฟังก์ชันเชิงเส้น:
ที่ไหน เอ 0 , เอ 1 คือ พารามิเตอร์ของสมการเส้นตรง t- ตัวบ่งชี้เวลา (ตามกฎแล้ว หมายเลขซีเรียลของช่วงเวลาหรือจุดเวลา)
พารามิเตอร์เส้น เอ 0 และ เอ 1 ซึ่งเป็นไปตามวิธีกำลังสองน้อยที่สุด หาได้จากการแก้ระบบสมการปกติต่อไปนี้
ที่ไหน นคือจำนวนระดับของอนุกรมไดนามิก พารามิเตอร์ เอ 1 สอดคล้องกับการเพิ่มขึ้นสัมบูรณ์โดยเฉลี่ย
เพื่อลดความซับซ้อนในการคำนวณตัวบ่งชี้เวลา
สามารถให้ค่าต่างๆ ได้เช่นว่า
, แล้ว
เมื่อต้องการทำเช่นนี้ ในแถวที่มีจำนวนระดับคี่ ช่วงกลางจะถูกนำมาเป็นจุดเริ่มต้นของการอ้างอิงเวลา โดยที่ t เท่ากับศูนย์ ทั้งสองด้านของศูนย์ จะมีแถวของจำนวนธรรมชาติที่เป็นลบและบวกตามลำดับ เช่น
ช่วงเวลา (หมายเลขตามลำดับ) |
t ผม |
สำหรับระดับจำนวนคู่ การนับจะดำเนินการจากช่วงศูนย์กลางสองช่วง ซึ่ง t เท่ากับ (-1) และ (+1) ตามลำดับ และทั้งสองข้างจะมีแถวของจำนวนคี่ที่เป็นค่าลบและค่าบวก ตัวอย่างเช่น
ช่วงเวลา (หมายเลขตามลำดับ) |
t ผม |
แบบแผนสำหรับการคำนวณพารามิเตอร์ของสมการเชิงเส้น
ช่วงเวลา |
ระดับซีรี่ส์ไดนามิก ที่ ผม |
t ผม |
ผม t 2 |
ที่ ผม t ผม |
ที่ Ti |
จากสมการแนวโน้มที่คำนวณได้ สามารถผลิตได้ การคาดคะเน – ค้นหาระดับความน่าจะเป็น (ที่คาดการณ์) นอกชุดไดนามิกเริ่มต้น
คำตอบ
การประเมินเชิงปริมาณของความใกล้ชิดของการสื่อสารตามข้อมูลเชิงประจักษ์ประกอบด้วยการคำนวณตัวชี้วัดของความใกล้ชิดของการสื่อสาร:
· สัมประสิทธิ์เชิงประจักษ์ของการกำหนด (อัตราส่วนการกระจายเชิงประจักษ์) - r 2 .
ตัวบ่งชี้นี้คำนวณตามข้อมูลของการจัดกลุ่มการวิเคราะห์ (ตาราง) เป็นอัตราส่วนของความแปรปรวนระหว่างกลุ่มของลักษณะผลลัพธ์ Y (d y 2) ต่อความแปรปรวนทั้งหมด Y (s y 2):
ตามทฤษฎีบทการสลายตัวของความแปรปรวน ความแปรปรวนระหว่างกลุ่มสัมพันธ์กับความแปรปรวนทั้งหมด: s y 2 =d y 2 +e y 2 . จากนั้นสามารถคำนวณค่าสัมประสิทธิ์เชิงประจักษ์ผ่านความแปรปรวนตกค้างโดยใช้สูตร:
โดยที่ s j 2 คือความแปรปรวนของผลลัพธ์ Y ภายในกลุ่มที่ j
ค่าสัมประสิทธิ์เชิงประจักษ์ของการกำหนดลักษณะความแข็งแรงของอิทธิพลของแอตทริบิวต์การจัดกลุ่ม (X) ต่อการก่อตัวของการเปลี่ยนแปลงโดยรวมของแอตทริบิวต์ที่เป็นผลลัพธ์ Y และแสดงเปอร์เซ็นต์ (ส่วนแบ่ง) ของความแปรผันของแอตทริบิวต์ผลลัพธ์เนื่องจากปัจจัยแอตทริบิวต์ที่อยู่ภายใต้ การจัดกลุ่ม
สะดวกในการคำนวณ r 2 ในตาราง:
ปัจจัยสัญญาณ X j | Nj | ค่าเฉลี่ยของคุณสมบัติ-ผลลัพธ์ | s j 2 N j | |
x1 | N 1 | ส 1 2 น 1 | ||
x2 | N 2 | ส 2 2 น 2 | ||
.... | ... | |||
X m | ยังไม่มีข้อความ | s m 2 N m | ||
ทั้งหมด | นู๋ | X | es j2 |
แล้ว .
ขอพิจารณาตัวอย่าง. ให้ชุดคนงาน 20 คนโดยมีลักษณะดังนี้: Y - ผลลัพธ์ของผู้ปฏิบัติงาน (ชิ้น / กะ) และ X - คุณสมบัติ (อันดับ) ข้อมูลเริ่มต้นถูกนำเสนอในตาราง:
X | ||||||||||||||||||||
Y |
จำเป็นต้องประเมินความใกล้ชิดของความสัมพันธ์ระหว่างคุณลักษณะต่างๆ โดยใช้สัมประสิทธิ์เชิงประจักษ์ของการกำหนด (r 2)
ในการคำนวณ r 2 เราจะทำการวิเคราะห์กลุ่มประชากร ในฐานะที่เป็นปัจจัยสัญญาณ เราใช้ X (หมวดหมู่ของผู้ปฏิบัติงาน) เป็นผลลัพธ์เครื่องหมาย - Y ซึ่งเป็นผลลัพธ์ของผู้ปฏิบัติงาน) การจัดกลุ่มการวิเคราะห์ทำบนพื้นฐานของ X. B กรณีนี้มันจะเป็นแบบไม่ต่อเนื่อง (เพราะค่าของแอตทริบิวต์ X มักจะซ้ำกัน) จำนวนกลุ่มเท่ากับจำนวนค่าของแอตทริบิวต์ X โดยรวม กล่าวคือ 6. ผลการจัดกลุ่มและการคำนวณ r 2 สรุปไว้ในตาราง:
ปัจจัยสัญญาณ X | แอตทริบิวต์ผลลัพธ์ Y | จำนวนหน่วยในกลุ่ม N j | ค่าเฉลี่ยของผลการลงนามในกลุ่ม | ( - ) 2 N j | การกระจายของลักษณะ-ผลในกลุ่ม s 2 j | s 2 j N j |
(10+12+13)/3=11,7 | (11,7-17,1) 2 3=88,56 | s 2 1 \u003d ((10-11.7) 2 + (12-11.7) 2 + (13-11.7) 2) / 3 \u003d 1.56 | 4,7 | |||
(11+14)/2=12,5 | (12,5-17,1) 2 2=42,3 | s 2 2 \u003d ((11-12.5) 2 + (14-12.5) 2) / 2 \u003d 2.25 | 4,5 | |||
(12+13+15+16)/4= 14 | (14-17,1) 2 4=38,4 | s 2 3 \u003d ((12-14) 2 + (13-14) 2 + (15-14) 2 + (16-14) 2) / 4 \u003d 2.5 | ||||
(15+17+17+18)/4= 16,75 | (16,75-17,1) 2 4=0,49 | s 2 4 \u003d ((15-16.75) 2 + (17-16.75) 2 ++ (17-16.75) 2 + (18-16.75) 2) / 4 \u003d 1.9 | 4,75 | |||
(18+20+22)/3=20 | (20-17,1) 2 3=25,23 | s 2 5 \u003d ((18-20) 2 + (20-20) 2 + (22-20) 2) / 3 \u003d 2.7 | ||||
(23+24+27+25)/4= 24,75 | (24,75-17,1) 2 4=234,1 | s 2 6 \u003d ((23-24.75) 2 + (24-24.75) 2 + (27-24.75) 2 + (25-24.75) 2) / 4 \u003d 2.19 | 8,75 | |||
=17,1 | 429,1 | 40,7 |
สัมประสิทธิ์เชิงประจักษ์ของการกำหนดเท่ากับอัตราส่วนของความแปรปรวนระหว่างกลุ่มของแอตทริบิวต์ผลลัพธ์ (d y 2) ต่อความแปรปรวนทั้งหมดของแอตทริบิวต์ผลลัพธ์ (s y 2): r 2 = d y 2 /s y 2 = d y 2 /(d y 2 + และ 2).
การกระจายตัวระหว่างกลุ่ม Y จะเท่ากับ: d y 2 = å( - ) 2 N j / N = 429.1/20=21.45
ความแปรปรวนที่เหลือ Y จะเป็น: e y 2 = ås 2 j ·N j / N= 40.7/20= 2.035
จากนั้น: r 2 \u003d 21.45 / (21.45 + 2.035) \u003d 429.1 / (429.1 + 40.7) \u003d 0.913
สรุป: 91.3% ของการเปลี่ยนแปลงในผลผลิตของคนงานเกิดจากอิทธิพลของปัจจัยการปลดปล่อย
· ความสัมพันธ์เชิงประจักษ์ - ร.
ตัวบ่งชี้นี้เป็นรากของสัมประสิทธิ์เชิงประจักษ์ของการกำหนด แสดงให้เห็นถึงความหนาแน่นของการเชื่อมต่อ (ไม่ใช่แค่เชิงเส้น!) ระหว่างการจัดกลุ่มและคุณลักษณะการทำงาน ช่วงของค่าที่อนุญาตของอัตราส่วนสหสัมพันธ์เชิงประจักษ์อยู่ระหว่าง 0 ถึง +1
การเชื่อมต่อที่ใกล้เคียงที่สุดคือการเชื่อมต่อที่ใช้งานได้ เมื่อแต่ละค่าของผลลัพธ์ Y ถูกกำหนดโดยค่าของปัจจัย X (นั่นคือ ผลลัพธ์ของการจัดกลุ่ม) ในกรณีนี้ ความแปรปรวนของกลุ่มหมายถึง (d y 2) เท่ากับความแปรปรวนทั้งหมด (s y 2) นั่นคือ จะไม่มีการแปรผันภายในกลุ่ม ในกรณีนี้ การกระจายตัวที่เหลือ (e y 2) เท่ากับ 0 และสัมประสิทธิ์การกำหนดเชิงประจักษ์เท่ากับ 1
หากไม่มีการเชื่อมต่อระหว่างเครื่องหมาย ค่าเฉลี่ยของกลุ่มทั้งหมดจะเท่ากัน จะไม่มีการเปลี่ยนแปลงระหว่างกลุ่ม (d y 2 =0) และสัมประสิทธิ์เชิงประจักษ์ของการกำหนดเป็น 0
ลองคำนวณอัตราส่วนสหสัมพันธ์เชิงประจักษ์สำหรับตัวอย่างของเรา: r= 0.9555 สรุป: สัญญาณของ "การผลิตคนงาน" และ "การปลดปล่อย" มีความเกี่ยวข้องกันค่อนข้างมาก
ตัวชี้วัด r และ r 2 ไม่ได้ถูกกำหนดโดยการเชื่อมต่อระหว่างคุณสมบัติ X และ Y เท่านั้น แต่ยังพิจารณาจากการจัดกลุ่มข้อมูลหลักด้วย เมื่อจำนวนกลุ่ม m เพิ่มขึ้น ความแปรปรวนระหว่างกลุ่ม d 2 จะเพิ่มขึ้นและเข้าใกล้ความแปรปรวนทั้งหมด หากจำนวนกลุ่มน้อยกว่าจำนวนหน่วยประชากร N ค่าของ r และ r 2 จะไม่เท่ากับ 1 แม้ว่าจะมีความสัมพันธ์เชิงหน้าที่ที่เข้มงวดก็ตาม
โปรดทราบว่าค่าของตัวบ่งชี้ความใกล้ชิดของการเชื่อมต่อไม่ได้เป็นเครื่องพิสูจน์ถึงความสัมพันธ์เชิงสาเหตุระหว่างคุณลักษณะที่ศึกษา แต่เป็นการประเมินระดับความสอดคล้องกันในการเปลี่ยนแปลงคุณลักษณะต่างๆ การสร้างความสัมพันธ์แบบเหตุและผลจะต้องนำหน้าด้วยการวิเคราะห์ธรรมชาติเชิงคุณภาพของปรากฏการณ์
ความสัมพันธ์เชิงประจักษ์
ความใกล้ชิดหรือความแข็งแกร่งของความสัมพันธ์ระหว่างสองคุณลักษณะสามารถวัดได้โดยตัวบ่งชี้ที่เรียกว่าอัตราส่วนสหสัมพันธ์เชิงประจักษ์ ตัวบ่งชี้นี้เรียกว่าเชิงประจักษ์เนื่องจากสามารถคำนวณได้จากการจัดกลุ่มตามปกติตามปัจจัยและแอตทริบิวต์ที่เป็นผลลัพธ์นั่นคือบนพื้นฐานของตารางสหสัมพันธ์ อัตราส่วนสหสัมพันธ์เชิงประจักษ์ได้มาจากกฎสำหรับการบวกความแปรปรวน โดยที่ ความแปรปรวนทั้งหมดคือที่ไหน - การกระจายตัวระหว่างกลุ่ม - การกระจายภายในกลุ่ม (เฉลี่ยส่วนตัว) ความแปรปรวนระหว่างกลุ่มคือการวัดความผันผวนอันเนื่องมาจากแอตทริบิวต์ของปัจจัย ค่าเฉลี่ยของความแปรปรวนบางส่วนเป็นตัววัดความผันผวนเนื่องจากคุณสมบัติอื่นๆ ทั้งหมด (ยกเว้นแฟกทอเรียล) จากนั้นอัตราส่วนจะแสดงส่วนแบ่งของความผันผวนที่เกิดขึ้นเนื่องจากปัจจัยในความผันผวนทั้งหมด รากที่สองของอัตราส่วนนี้เรียกว่าอัตราส่วนสหสัมพันธ์เชิงประจักษ์:
นี่แสดงถึงกฎที่ว่ายิ่งความแปรปรวนระหว่างกลุ่มมากเท่าใด ลักษณะปัจจัยก็จะยิ่งส่งผลต่อความแปรผันของลักษณะที่เป็นผลลัพธ์มากขึ้นเท่านั้น อัตราส่วนองค์ประกอบของความแปรปรวนคำนวณจากข้อมูลของตารางสหสัมพันธ์โดยใช้สูตรต่อไปนี้:
;
,
ค่าเฉลี่ยส่วนตัวอยู่ที่ไหน - ค่าเฉลี่ยทั่วไป - ยอดรวมบนพื้นฐานของ ; - ยอดรวมบนพื้นฐานของ ; - จำนวนการสังเกต ความสัมพันธ์เดียวกันจะถูกเก็บไว้สำหรับค่าตามเงื่อนไขที่ได้รับจากการแปลงตัวเลข
อัตราส่วนความแปรปรวนเอง (นิพจน์ราก) เรียกว่าสัมประสิทธิ์การกำหนด (เท่ากับกำลังสองของอัตราส่วนสหสัมพันธ์เชิงประจักษ์) อัตราส่วนสหสัมพันธ์เชิงประจักษ์แตกต่างกันไปในช่วงกว้าง (จาก 0 ถึง 1) หากมีค่าเท่ากับศูนย์ เครื่องหมายแฟคเตอร์จะไม่ส่งผลต่อเครื่องหมายสหสัมพันธ์ ถ้า =1 เครื่องหมายผลลัพธ์จะขึ้นอยู่กับปัจจัยหนึ่งทั้งหมด หากอัตราส่วนสหสัมพันธ์เชิงประจักษ์เป็นเศษส่วนที่ใกล้กับหนึ่ง แสดงว่ามีความสัมพันธ์ที่ใกล้ชิดระหว่างแฟกทอเรียลและคุณลักษณะที่มีประสิทธิภาพ หากเศษส่วนนี้มีขนาดเล็ก (ใกล้กับศูนย์) แสดงว่ามีความเชื่อมโยงระหว่างกันที่อ่อนแอ