列联表中相关系数越接近于1,相关程度越高_列联表可以检验变量之间的因果关系
从小小的图表中理解社会研究的逻辑,抑或是社会现象的规律。同时,也关注图表制作本身,使我们的工作技能不断有点滴的进步。这两点便是此事的乐趣所在。
今天为大家分享最为简单的数据分析工具:
◆◆
列联表
◆◆
我想通过它,分享一个道理:
列联表虽然简单,它却有着明确的规则,支撑着它的是我们时刻都应注意的因果逻辑关系。总之,列联表看似简单,做起来却很难。有时比回归分析还难。
先告诉大家一个历史事实,在20世纪初、中期,列联表可以说是“最先进”的数据分析工具。正是那个时代及其之后的时代,支撑着我们步入今日的大数据时代(DT)。
下图是相对比较复杂的列联表。我在表中做了一些笔记,主要是勾画了表的“设计逻辑”。
第一,表的标题。“1964年美国城市黑人按受教育程度划分的宗教信仰虔诚度的百分比分布”的表述逻辑是这样的:
1)1964年(数据收集时间,这一点非常重要,因为任何事物都是历史发展的);
2)美国城市黑人(这是调查总体,界定了三个组别:国别是美国、地区是城市、族群是黑人);
3)受教育程度(自变量);
4)宗教信仰虔诚度(因变量);
5)百分比分布(表的类别,还有一种是频数分布表;相对而言,百分比分布表的意义更大,我们一般不做单纯的频数分布表,表达的信息有限)。
这里告知我们注意,一个表应该始终包含足够的信息,使读者不看文字也能读懂。因此,标题和变量名称应当清楚且完整;如果标题的空间不够,应当在脚注中对表加以说明。
第二,百分数表的方向。这里我就不过多解释,只是告诉大家百分数表的方向通常顺着自变量类别的数值顺序。所谓方向,就是沿着这个方向求和是100%。如图,自变量为受教育程度,小学是其中一个类别,这一类别的百分数值为31%、57%、12%、1%。小学这一类别中的百分数值求和即为100%,以此类推,分别高中、大学的类别中求和得100%。不过,我们要思考,换一个方向做表又如何呢?是否方便我们理解?
第三,大家看合计这一栏,数值并不是100%。这是经常出现的现象,但非专业人士是很难关注到的。道理很简单,这是由四舍五入引起的误差,一般而言,偏差一个百分点是可以接受的(99%-101%),较大的偏差可能是计算误差了,要仔细检查。更专业的做法还应该在脚注中说明这一问题,“由于四舍五入,各数据之和可能不等于总额(或100%)。”
最后,告诉大家两个读百分比表的基本规则:
1、通常只比较两个极端的类别,而忽视中间类别(有一些统计处理的道理在里面,要了解,请看书或给我们留言);
2、在自变量的不同类别之间进行相对大小的比较(因为序次变量各类别之间没有绝对界限)。
✕
✕
✕
✕