تحليل التباين
تحليل التباين (analysis of variance ــ ANOVA) هو مجموعة من النماذج الإحصائية (statistical model) مع إجرائيان مرافقة لهذه النماذج تمكن من مقارنة المتوسطات لمجتمعات إحصائية مختلفة عن طريق تقسيم التباين variance الكلي الملاحظ بينهم إلى أجزاء مختلفة.
أول طرق تحليل التباين تم وضعها من قبل الإحصائي رونالد فيشر في العشرينات والثلاثينات من القرن العشرين لذلك تعرف أحيانا بتحليل فيشر للتباين.
قد سبق دراسة اختبارات الفروض لتساوي متوسطي مجتمعين ولكن هناك دراسات لتساوي متوسطات ثلاث مجتمعات أو أكثر، وهل يمكن التعميم لأكثر من مجتمعين، نعم قد يكون ذلك ولكن وجود ثلاث عقبات رئيسية تجعلنا البحث عن طريقة أخرى وهذه الثلاث عقبات هي:
1) الجهد المبذول في المقارنة بين كل مجتمعين وخاصة إذا كثر عدد المجموعات الثنائية والتي عددها يحدد من ن ق ر = ن(ن – 1) ÷ 2
2) إذا كان لدينا العديد من المستويات فالمقارنة الثنائية بينهم تفقد الكثير من المعلومات المتوفرة لدينا عن المجتمع محل الدراسة وهو ما ينقص من دقة تقدير معالم المجتمع.
3) إن كثرة المستويات ينقص بشكل ملحوظ القيمة (1 – α)ن ما يزيد في قيمة P حيث P = 1 – (1– α )n حيث α الخطأ من النوع الأول.
فإن كنا بصدد اختبار تساوي متوسطات لخمس مجتمعات بمستوى معنوية 0.05 فاحتمال الحصول على قرار صحيح بعدم وجود فرق معنوي واحد لكل اختبار هو 0.95 وعليه يكون احتمال الحصول إلى قرار صحيح بالنسبة لكل الاختبارات وعددها 10 من 5ق2 = ( 5 × 4 ) ÷ ( 2 × 1 ) = 10 يساوي (0.95)10 = 0.4013 مما يؤدى لاحتمال القرار الخاطئ (α) يساوي 1 – (0.95)10 = 0.4013 ويزداد بزيادة عدد المجتمعات (احتمال الوقوع في الخطأ من النوع الأول) لا بد من أسلوب آخر لاختبار تساوي المتوسطات يعرف بتحليل التباين ( Analysis of variance ) أو ANOVA الذي قدمه العالم فيشر (Ronald A.Fisher) كأسلوب لتحليل البيانات للتجارب المختلفة وهو عبارة عن مجموعة من الطرق الإحصائية المساعدة لاختبارات الفروض أبسطها one-way ANOVA.
تحليل التباين الأحادي ( مستوى واحد) تحليل التباين الأحادي ( أكثر من مستوى واحد )
هو طريقة لاختبار معنوية الفرق بين المتوسطات لعدة عينات بمقارنة واحدة، ويعرف أيضاً بطريقة تؤدي لتقسيم الاختلافات الكلية لمجموعة من المشاهدات التجريبية لعدة أجزاء للتعرف على مصدر الاختلاف بينها ولذا فالهدف هنا فحص تباين المجتمع لمعرفة مدى تساوى متوسطات المجتمع ولكن لا بد من تحقيق ثلاثة أمور قبل استخدامه وهي:
1) العينات عشوائية ومستقلة.
2) مجتمعات هذه العينات كلاً لها توزيع طبيعي.
3) تساوي تباين المجتمعات التي أخذت منها العينات العشوائية المستقلة.
ولتوضيح ما سبق بمقارنة متوسطات ثلاث مجتمعات باستخدام ثلاث عينات (تحقق فيها الشروط الثلاثة السابقة) موضحة بالجدول الآتي:
العينة الثالثة |
العينة الثانية |
العينة الأولى |
33 32 33.5 31.5 |
27 28 26.5 26.5 |
40 41 40.5 38.5 |
`X3 = 32.5 S3 = 0.91 |
`X2= 27 S2 = 0.71 |
`X1 = 40 S1 = 1.08 |
السؤال: هل في البيانات ما يكفي لوجود فرق بين المتوسطات؟
الجواب: نعم (بمجرد النظر) فالتشتت (التباين) ظاهر 40، 27، 32.5 (المتوسطات) بمقارنته بالتشتت بين العينات (وحداتها 40 ، 41 ، 40.5، 38.5) فيبدو معدوماً.
إذا أخذنا البيانات الآتية:
العينة الثالثة |
العينة الثانية |
العينة الأولى |
10 60 27.5 |
50 20 11 |
40 15 65 |
`X3 = 32.5 S3 =25.4 |
`X2= 27 S2 =20.4 |
`X1 = 40 S1 = 25 |
فالبيانات هنا لها نفس المتوسطات في البيانات السابقة ولكن التشتت (داخل لعينات) كبيراً بما هو عليه في المتوسطات.
فالدليل على وجود الفرق بين متوسطات الجدول الأول واضح ولا يظهر ذلك بوضوح في بيانات الجدول الثاني بالرغم من تساوي المتوسطات في الحالتين ولذا يتبين لنا القصد من تحليل التباين والذي يعني الفرق بين المتوسطات والذي يقاس بالتشتت داخل البيانات.
ليكن لدينا الاختبار التالي:
Ho : μ1 = μ2 = μ3 = ... μk , H1 : عدم تساوي متوسطين على الأقل
وبفرض أن العينات مأخوذة من مجتمعات طبيعية ولها نفس التباين، فلاختبار يرتكز على مقارنة التباين داخل العينات وبينها بتقدير التباين المشترك بطريقتين فالأولى لا تعتمد على صحة أو عدم صحة الفرض الصفري بينما تتأثر الطريقة الثانية بالفرض الصفري فإن تبين خلاف معنوي بين الطريقتين (في التقدير) أخذنا بعدم صحة الفرض الصفري لأن عدم تساوي المتوسطات قد أثر على التقدير الثاني فتسبب في تجاوزه التقدير الأول فرفض Ho ونفصل ذلك بتقديرين للتباين σ2 كالآتي:
للتبسيط لنأخذ عينات من المجتمعات محل الدراسة لها نفس الحجم وحيث أن التباين في المجتمعات متماثل فنقدر التباين σ2 بمتوسط التباينات في العينات أي أن:
ويرمز لهذا التقدير بالرمز Sw2 لكونه يمثل التباين داخل المجموعات (Within Group) أي:
وفي حالة تساوي حجم العينات. ويلاحظ عدم اعتماد هذا التقدير على صحة أو عدم صحة Ho لأن كل تباين Si2 محسوب بطريقة مستقلة عن الآخرين وبافتراض صحة Ho فيعني أن العينات مأخوذة من مجتمع واحد، ونعلم تباين المتوسطات مأخوذة من مجتمع تباينه σ2 ويساوي σ2 / n وتقديره:
وهذا يمثل التباين بين المجموعات ( Between Group ) وهذان التقديران للتباين المشترك σ2 أحدهم لا يعتمد على صحة أو عدم صحة H0 في حين الآخر يجب صحة H0 أي أن جميع العينات المأخوذة يجب أن تكون من نفس المجتمع فتطابق التقديرين يعني صحة H0 وإلا تعارضت البيانات مع H0 ويجب أن نعلم أن اختلاف حجم العينات يجعل قيمة التقدير الأول Sw2 كالآتي:
وهو امتداد لتقدير المجتمع واستخدم للاستدلال الإحصائي لمتوسطين حال تساوي تباين المجتمعين ويكون التقدير الثاني كالآتي:
ويمكن استخدم الصيغ التالية:
النسبة بين التقديرين SB2 ، Sw2 تعرف بتوزيع F وهو توزيع ملتو جهة اليمين بمعلمتين تتمثلان بدرجتي حرية (البسط ، المقام) وهما k – 1 للبسط ، n – k للمقام حيث n مجموع إحجام العينات، فإذا كان لدينا اختبار لقياس معنوية الفرق بين التقديرين (F) نوجد Fα حيث α مستوى المعنوية المستخدم للفرضية H0 التي ترفض إذا كان F > Fα وإلا نؤكد بوجود الاختلاف بين المتوسطات، والشكل التالي يبين توزيع F.
منحنى توزيع F حسب درجات الحرية
إذا أردنا إجراء اختبار فروض بين متوسطات عددها k من العينات العشوائية المستقلة وبفرض n1 عدد مفردات العينة الأولى ، n2 عدد مفردات العينة الثانية ، ...، nk عدد مفردات العينة k وأن Xji للقيمة المفردة الموجودة i في العينة j وسنضع ذلك في الجدول التالي لبيانات العينات في تحليل التباين:
→ العينة المشاهدات ↓ |
Sample 1 | Sample 2 | Sample ... | Sample k |
1 2 : N |
X11 X12 : X1n1 |
X21 X22 : X2n2 |
: : : : |
Xk1 Xk2 : Xknk |
مجموع مفردات العينة | T1 | T2 | Tk | |
N = عدد المشاهدات الكلي |
N = n1 + n2 + ... + nk | |||
المجموع الكلي (العام)ـ |
T = T1 + T2 + ... + Tk |
من الجدول يتبين لنا:
1) الانحراف بين قيمة المشاهدة والمتوسط الحسابي العام وهو الانحراف الكلي ويرمز له (..Xji – `X ) حيث i = 1, 2, ..., k ( للعينات ) ، j = 1, 2, ..., n (للمشاهدات).
2) الاختلاف بين المتوسط الحسابي بكل عينة والمتوسط الحسابي العام (..Xji – `X ) وهو الانحراف بين العينات ويرجع لأسباب عشوائية حال عدم الاختلاف للعامل المؤثر
بين العينات وإلا فالاختلاف يرجع للأسباب العشوائية بجانب تأثير هذا العامل.
3) الاختلاف بين قيمة كل مشاهدة داخل العينة والمتوسط الحسابي ( Xji – `Xi ) وهو الانحراف داخل العينات ويرجع هذا الاختلاف لأسباب عشوائية بحتة.
بناء على ما سبق يمكن النظر للجدول التالي (جدول تحليل التباين) الذي يبين الخطوات اللازمة لحساب F (قيمة إحصائية الاختبار) حيث K عدد مستويات المتغير المستقل:
مصدر التباين Source of Variance |
مجموع المربعات Sum of squares (SS) |
درجات الحرية df |
متوسط مجموع المربعات أو التباين Mean squares (MS) |
F (المحسوبة) Calculated |
F (الجدولية) Tabulated (Sig.) |
بين المجموعات Between Groups |
SSB |
K – 1 |
SB2 |
SB2 / SW2
|
Fα (K – 1) , (N – K)
|
داخل المجموعات Within Groups (Error) |
SSW |
N – K |
SW2 |
||
المجموع Total |
SST = SSB + SSW |
N – 1 |
|
مثال:
في دراسة لتأثير وجود الطلاب في الصفوف على تحصيلهم في مادة الإحصاء، قام أستاذ الإحصاء بأخذ عينات عشوائية ومستقلة من ثلاثة صفوف (يقوم بتدريسها) كل منها مكون من خمسة طلاب وقام الأستاذ برصد درجاتهم والجدول التالي يبينها. بمستوى معنوية α = 0.05 اختبر ما إذا كان متوسط النتائج في اختبارات الأداء يختلف في تحصيل الطلاب.
Class 1 | Class 2 | Class 3 |
66 | 96 | 58 |
65 | 87 | 62 |
88 | 66 | 77 |
92 | 55 | 90 |
60 | 78 | 80 |
الحل: حل آخر الحل باستخدام SPSS الحل باستخدام MINITAB الحل باستخدام EXCEL الحل باستخدام SAS
لكل الحلول: الاختبار: H0 : μ1 = μ2 = μ3 (الفرضية الصفرية) ، متوسطان على الأقل غير متساويين : H1 (الفرضية البديلة)
نستكمل الجدول كالآتي:
Class 1 | Class 2 | Class 3 | |||
X1 | X12 | X2 | X22 | X3 | X32 |
66 | 4356 | 96 | 9216 | 58 | 3364 |
65 | 4225 | 87 | 7569 | 62 | 3844 |
88 | 7744 | 66 | 4356 | 77 | 5929 |
92 | 8464 | 55 | 3025 | 90 | 8100 |
60 | 3600 | 78 | 6084 | 80 | 6400 |
T1 = 371, T12 = 137641 |
28389 |
T2 = 382, T22 = 145924 |
30250 |
T3 = 367, T32 = 134589 |
27637 |
T = T1 + T2 + T3 = 371 +382 + 367 =1120 , T2 = 1254400 , n1 = n2 = n3 = 5 , N = 15
SSB = 137641 / 5 + 145924 / 5 + 134689 / 5 – 1254400 / 15
= 418254 / 5 – 1254400 / 15
= 83650.8 – 83626.7
= 24.1
SSW = ∑X12 + ∑X22 + ∑X32 – 83650.5
= 28389 + 30250 + 27637 – 83650.5
= 86276 – 83650.5
= 2625.5
SB2 = 24.1 / (3 – 1) = 12.1
SW2 = 2625.5 / (15 – 3) = 218.8
F = SB2 / SW2
F = 12.05 / 218.8
F = 0.055 < 3.89 = Fα(2 , 12)
جدول النتائج
مصدر التباين Source of Variance |
مجموع المربعات Sum of squares (SS) |
درجات الحرية df |
متوسط مجموع المربعات أو التباين Mean squares (MS) |
F (المحسوبة) Calculated |
F (الجدولية) Tabulated |
بين المجموعات Between Groups |
SSB = 24.1 |
K – 1 = 3 – 1 = 2 |
SB2 = 24.1/2 = 12.05 |
SB2 / SW2 12.05/218.5 0.055 |
Fα (K – 1) , (N – K)
3.89 أنظر الجدول أدناه باللون الأصفر |
داخل المجموعات Within Groups (Error) |
SSW = 2625.5 |
N – K = 15 – 3 = 12 |
SW2 = 2625.5/12 = 218.8 |
||
المجموع Total |
SST = SSB + SSW = 2649.6 |
N – 1 = 15 – 1 = 14 |
|
إن قيمة F المحسوبة أقل من قيمة F الجدولية ولذا نقبل الفرضية الصفرية عند α = 0.05 بعدم وجود اختلاف بين المتوسطات.