列联表中相关系数越接近于1,相关程度越高_列联表可以检验变量之间的因果关系

2022-11-26 02:13:09 0

从小小的图表中理解社会研究的逻辑，抑或是社会现象的规律。同时，也关注图表制作本身，使我们的工作技能不断有点滴的进步。这两点便是此事的乐趣所在。

今天为大家分享最为简单的数据分析工具：

◆◆

列联表

◆◆

我想通过它，分享一个道理：

列联表虽然简单，它却有着明确的规则，支撑着它的是我们时刻都应注意的因果逻辑关系。总之，列联表看似简单，做起来却很难。有时比回归分析还难。

先告诉大家一个历史事实，在20世纪初、中期，列联表可以说是“最先进”的数据分析工具。正是那个时代及其之后的时代，支撑着我们步入今日的大数据时代（DT）。

下图是相对比较复杂的列联表。我在表中做了一些笔记，主要是勾画了表的“设计逻辑”。

第一，表的标题。“1964年美国城市黑人按受教育程度划分的宗教信仰虔诚度的百分比分布”的表述逻辑是这样的：

1）1964年（数据收集时间，这一点非常重要，因为任何事物都是历史发展的）；

2）美国城市黑人（这是调查总体，界定了三个组别：国别是美国、地区是城市、族群是黑人）；

3）受教育程度（自变量）；

4）宗教信仰虔诚度（因变量）；

5）百分比分布（表的类别，还有一种是频数分布表；相对而言，百分比分布表的意义更大，我们一般不做单纯的频数分布表，表达的信息有限）。

这里告知我们注意，一个表应该始终包含足够的信息，使读者不看文字也能读懂。因此，标题和变量名称应当清楚且完整；如果标题的空间不够，应当在脚注中对表加以说明。

第二，百分数表的方向。这里我就不过多解释，只是告诉大家百分数表的方向通常顺着自变量类别的数值顺序。所谓方向，就是沿着这个方向求和是100%。如图，自变量为受教育程度，小学是其中一个类别，这一类别的百分数值为31%、57%、12%、1%。小学这一类别中的百分数值求和即为100%，以此类推，分别高中、大学的类别中求和得100%。不过，我们要思考，换一个方向做表又如何呢？是否方便我们理解？

第三，大家看合计这一栏，数值并不是100%。这是经常出现的现象，但非专业人士是很难关注到的。道理很简单，这是由四舍五入引起的误差，一般而言，偏差一个百分点是可以接受的（99%-101%），较大的偏差可能是计算误差了，要仔细检查。更专业的做法还应该在脚注中说明这一问题，“由于四舍五入，各数据之和可能不等于总额（或100%）。”

最后，告诉大家两个读百分比表的基本规则：

1、通常只比较两个极端的类别，而忽视中间类别（有一些统计处理的道理在里面，要了解，请看书或给我们留言）；

2、在自变量的不同类别之间进行相对大小的比较（因为序次变量各类别之间没有绝对界限）。

上一篇：成龙的儿子和女儿为什么不姓成（成龙的儿子和女儿名字和图片）

下一篇：摩托车被“惹事”白叟推倒毁坏车主坚持追责为讨归合理

列联表中相关系数越接近于1,相关程度越高_列联表可以检验变量之间的因果关系

热门文章

随机文章

最近发表

列联表中相关系数越接近于1,相关程度越高_列联表可以检验变量之间的因果关系

相关文章

热门文章

随机文章

最近发表