什么问题适合使用卡方检验?

卡方检验作为一种非常著名的非参数检验方法(不受总体分布因素的限制),在工程试验、临床试验、社会调查等领域被广泛应用。但是也正是因为使用的便捷性,造成时常被误用。本文参阅相关的文献,对卡方检验的适用性进行粗浅的论述。

首先,从技术角度来看,(1)卡方检验的样本涉及的因素(也就是变量)需要两个(含)以上,而且是定性变量(分类变量,定类变量),其值可以是数字,也可以符号,但是即使是数字也不具备数量的含义,只是用于区分。比如性别变量,它的值可以是男或女,也可以是0或1,A或B;(2)其样本数据是由多个因素在不同水平(取值)情况下共同决定的数据,直观上表现为列联表(交互分类表,交叉表),形如下表。

某项产品的地区调查(人)
北京 上海
满意 600 480
一般 120 150
不满意 80 70

上表涉及的因素(变量)有两个,分别是地区和满意度,其值分别是[北京,上海]和[满意,一般,不满意]。而样本是由两个变量的不同取值作用下的统计数据,可以是总和,也可以是平均数,或者其他统计量。

其次,从应用的角度来看,我们的目的是要进行无差异推断,或者不相关推断(无差异等价于不相关)。比如上述问题可以回答北京、上海两地对该产品的满意度是否无差异,或者说对该产品的满意度是否与上述地区不相关。通过即调用卡方检验函数,获得p=0.00472,在显著性水平0.05下,两地满意度无差异(或与地区不相关)的假设被拒绝。于是我们可以认为“两地对某产品的满意度是有差异的”或“某产品的满意度与地区有相关性”。

还有一种特殊情况,就是样本数据只有一组,也就是说表面上看因素只有一个,这种情况实际是进行“试验值(实际值,经验值)与理论值的无差异”推断。如下例:

进行抛硬币试验,进行七轮,每轮抛20次,数据如下表所示。是否可以认为硬币正面与反面(只有这两种情况)朝上的概率相同。

硬币正面向上的频数
第一轮 第二轮 第三轮 第四轮 第五轮 第六轮 第七轮
8 12 10 7 9 8 9

乍一看,此样本只有一组数据,而结合要解答的问题,实际上还有一组数据,即理论值。该理论值是等概率条件下硬币正面向上的次数,也就是每轮都是10。于是样本就变成了

硬币正面向上的频数
第一轮 第二轮 第三轮 第四轮 第五轮 第六轮 第七轮
8 12 10 7 9 8 9
10 10 10 10 10 10 10

通过将上述样本数据带入卡方检验函数,p=0.98928。即在显著性水平0.05下,我们接受“硬币正面与反面朝上的概率相同”这一假设。

再来看一个例子,某餐厅对一年内每周内每天的营业额进行统计(均值),看看营业情况是否存在时间方面的差异,数据如下。

一周的营业额统计(万元)

周一 周二 周三 周四 周五 周六 周日
9 11 6 7 8 15 10

该问题同样是一种“试验值(实际值,经验值)与理论值的无差异”推断问题。只不过理论值的与上例不同。如果我们认为营业额与时间无关,也就意味的每天营业额是相同的,于是理论值将由每天营业额的均值来体现。即样本数据为:

一周的营业额统计(万元)

周一 周二 周三 周四 周五 周六 周日
9 11 6 7 8 15 10
9.42 9.42 9.42 9.42 9.42 9.42 9.42

通过将上述样本数据带入卡方检验函数,p=0.85073。即在显著性水平0.05下,我们接受“营业额不存在时间方面的差异”这一假设。尽管从表面来看,该结果不太容易被接受,似乎周末营业情况更好,但是放眼总体(更长的时间范围),并不能支持直观感受。

最近更新

  1. TCP协议是安全的吗?

    2023-12-07 19:34:03       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2023-12-07 19:34:03       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2023-12-07 19:34:03       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2023-12-07 19:34:03       20 阅读

热门阅读

  1. qt 链表QList,QLinkedList的常见使用

    2023-12-07 19:34:03       38 阅读
  2. 英伟达显卡系列与架构、代表产品

    2023-12-07 19:34:03       33 阅读
  3. Ubuntu 配置打开文件限制

    2023-12-07 19:34:03       43 阅读
  4. Python批量图像处理--图片重命名、图片旋转

    2023-12-07 19:34:03       40 阅读
  5. CG 函数

    2023-12-07 19:34:03       40 阅读
  6. 解决分布式React前端在本地开发环境的跨域问题

    2023-12-07 19:34:03       38 阅读
  7. 关于业界大语言模型(LLM)开源的一些看法

    2023-12-07 19:34:03       33 阅读
  8. 供应链产品经理常用的ChatGPT通用提示词模板

    2023-12-07 19:34:03       37 阅读
  9. MyBatis

    MyBatis

    2023-12-07 19:34:03      41 阅读
  10. 冒泡排序详解

    2023-12-07 19:34:03       42 阅读
  11. 【ASP.NET CORE】EntityFrameworkCore 数据迁移

    2023-12-07 19:34:03       39 阅读
  12. 如何在Go中构建For循环

    2023-12-07 19:34:03       38 阅读