列联相关系

一、定义速览

列联相关系数,英文名为contingency coefficient,是用于衡量两个分类变量之间关联程度的统计指标。当我们面对至少有一个变量的分类数大于2的情况时,它就能派上用场。比如,我们想了解不同年龄段(如青少年、中年人、老年人)和不同旅游目的地偏好(如海边、山区、城市)之间是否存在联系,就可以借助列联相关系数进行分析。

二、适用场景

适用于两个变量均为分类变量,且至少其中一个变量的类别数量不少于3个的情形。例如在市场调研中,分析不同性别(男、女)和不同购买产品类型(手机、电脑、平板、耳机)之间的关系;或者在社会学研究里,探讨不同文化程度(小学、中学、大学、研究生及以上)和对某一社会政策的态度(支持、中立、反对)的相关性。

三、关键符号解读

  • 变量类别数:假设变量xxx被划分成aaa个类别,变量yyy被划分成bbb个类别,并且aaabbb至少有一个大于 2。
  • mijm_{ij}mij:代表属于变量xxx的第iii类别(i =1,2,⋯ ,ai \ = 1, 2, \cdots, ai =1,2,,a)同时又属于变量yyy的第jjj类别(j =1,2,⋯ ,bj \ = 1, 2, \cdots, bj =1,2,,b)的频数。比如在研究不同学历(变量xxx,分为高中、本科、硕士及以上)和不同运动喜好(变量yyy,分为篮球、足球、羽毛球)的例子中,m12m_{12}m12就表示高中学历且喜欢足球的人数。
  • aia_{i}ai:是变量xxx的第iii类别对应的所有频数之和,计算方式为ai =∑j =1bmija_{i}\ =\sum_{j \ = 1}^{b}m_{ij}ai =j =1bmij。例如在上述例子中,a1a_{1}a1就是高中学历的人在喜欢篮球、足球、羽毛球这三种情况的人数总和。
  • bjb_{j}bj:是变量yyy的第jjj类别对应的所有频数之和,即bj =∑i =1amijb_{j}\ =\sum_{i \ = 1}^{a}m_{ij}bj =i =1amij。比如b2b_{2}b2就是喜欢足球的人中,高中学历、本科学历、硕士及以上学历的人数总和。
  • NNN:表示所有观察数据的频数总和,也就是N =∑∑mijN\ =\sum\sum m_{ij}N =∑∑mij

四、计算实操(以调查不同职业和对线上会议的满意度为例)

  1. 数据收集:我们将职业分为教师、医生、程序员、公务员4类(即a =4a \ = 4a =4),对线上会议的满意度分为非常不满意、不满意、满意、非常满意4类(即b =4b \ = 4b =4)。共调查了300人(N =300N \ = 300N =300),得到如下频数分布表:
    | 职业╲\diagdown满意度 | 非常不满意 | 不满意 | 满意 | 非常满意 | 行总和aia_{i}ai|
    | ---- | ---- | ---- | ---- | ---- | ---- |
    | 教师 | 15(m11m_{11}m11) | 20(m12m_{12}m12) | 10(m13m_{13}m13) | 5(m14m_{14}m14) | 50(a1a_{1}a1) |
    | 医生 | 10(m21m_{21}m21) | 30(m22m_{22}m22) | 35(m23m_{23}m23) | 25(m24m_{24}m24) | 100(a2a_{2}a2) |
    | 程序员 | 5(m31m_{31}m31) | 10(m32m_{32}m32) | 15(m33m_{33}m33) | 20(m34m_{34}m34) | 50(a3a_{3}a3) |
    | 公务员 | 10(m41m_{41}m41) | 20(m42m_{42}m42) | 25(m43m_{43}m43) | 15(m44m_{44}m44) | 70(a4a_{4}a4) |
    | 列总和bjb_{j}bj| 40(b1b_{1}b1) | 80(b2b_{2}b2) | 85(b3b_{3}b3) | 65(b4b_{4}b4) | 300(NNN) |

  2. 计算χ2\chi^{2}χ2统计量
    根据公式χ2 =N(∑∑mij2aibj−1)\chi^{2}\ =N(\sum\sum\frac{m_{ij}^{2}}{a_{i}b_{j}} - 1)χ2 =N(∑∑aibjmij21)
    ∑∑mij2aibj =15250×40+20250×80+10250×85+5250×65+102100×40+302100×80+352100×85+252100×65+5250×40+10250×80+15250×85+20250×65+10270×40+20270×80+25270×85+15270×65 \begin{align*} &\sum\sum\frac{m_{ij}^{2}}{a_{i}b_{j}}\\ \ =&\frac{15^{2}}{50\times40}+\frac{20^{2}}{50\times80}+\frac{10^{2}}{50\times85}+\frac{5^{2}}{50\times65}+\\ &\frac{10^{2}}{100\times40}+\frac{30^{2}}{100\times80}+\frac{35^{2}}{100\times85}+\frac{25^{2}}{100\times65}+\\ &\frac{5^{2}}{50\times40}+\frac{10^{2}}{50\times80}+\frac{15^{2}}{50\times85}+\frac{20^{2}}{50\times65}+\\ &\frac{10^{2}}{70\times40}+\frac{20^{2}}{70\times80}+\frac{25^{2}}{70\times85}+\frac{15^{2}}{70\times65}\\ \end{align*}  =∑∑aibjmij250×40152+50×80202+50×85102+50×6552+100×40102+100×80302+100×85352+100×65252+50×4052+50×80102+50×85152+50×65202+70×40102+70×80202+70×85252+70×65152
    ≈0.1125+0.1+0.0235+0.0038+0.025+0.1125+0.1441+0.0962+0.00625+0.025+0.0529+0.0246+0.0357+0.0714+0.1042+0.0482≈0.8816 \begin{align*} &\approx0.1125 + 0.1 + 0.0235 + 0.0038 + \\ &0.025 + 0.1125 + 0.1441 + 0.0962 + \\ &0.00625 + 0.025 + 0.0529 + 0.0246 + \\ &0.0357 + 0.0714 + 0.1042 + 0.0482\\ &\approx0.8816 \end{align*} 0.1125+0.1+0.0235+0.0038+0.025+0.1125+0.1441+0.0962+0.00625+0.025+0.0529+0.0246+0.0357+0.0714+0.1042+0.04820.8816
    χ2 =300×(0.8816−1) =300×(−0.1184) =35.52\chi^{2}\ =300\times(0.8816 - 1)\ = 300\times(-0.1184) \ = 35.52χ2 =300×(0.88161) =300×(0.1184) =35.52(这里由于计算过程中存在小数近似,可能与理论值有极小偏差)。

  3. 计算列联相关系数CCC
    根据公式C =χ2N+χ2C \ = \sqrt{\frac{\chi^{2}}{N+\chi^{2}}}C =N+χ2χ2 ,将χ2 =35.52\chi^{2}\ =35.52χ2 =35.52N =300N \ = 300N =300代入可得:
    C =35.52300+35.52 =35.52335.52≈0.1059≈0.325 \begin{align*} C&\ =\sqrt{\frac{35.52}{300 + 35.52}}\\ &\ =\sqrt{\frac{35.52}{335.52}}\\ &\approx\sqrt{0.1059}\\ &\approx0.325 \end{align*} C =300+35.5235.52  =335.5235.52 0.1059 0.325

五、显著性判断

我们通过χ2\chi^{2}χ2检验来确定这个结果是否显著。先计算自由度df =(a−1)×(b−1) =(4−1)×(4−1) =9df\ =(a - 1)\times(b - 1)\ =(4 - 1)\times(4 - 1)\ =9df =(a1)×(b1) =(41)×(41) =9。假设我们设定显著性水平为0.050.050.05,查χ2\chi^{2}χ2分布表得到临界值。如果计算出的χ2 =35.52\chi^{2}\ =35.52χ2 =35.52大于临界值,那就拒绝原假设(原假设是不同职业和对线上会议的满意度相互独立),说明列联相关系数显著,即不同职业和对线上会议的满意度之间存在相关关系;要是χ2\chi^{2}χ2小于等于临界值,就不能拒绝原假设,也就是没有足够证据表明两者之间有关联。

六、避坑指南

  1. 不能把列联相关系数所体现的关联直接等同于因果关系。比如计算出不同职业和对线上会议满意度有相关性,但不能说职业直接导致了某种满意度,可能还有其他因素在起作用。
  2. 样本的质量和代表性对结果影响很大。样本容量过小,得到的列联相关系数可能不准确,不能真实反映总体情况。所以尽量保证有足够多的样本数量,并且抽样方式要科学合理 。
Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐