nbhkdz.com冰点文库

高二数学独立性检验的基本思想及其初步应用

时间:2017-06-21


对于性别变量, 其取值为男和女两种 .这 种变量的不同 " 值" 表示个体所属的不同 类 别 , 像这类变量称为 分类变量 .在现实 生活中, 分类变量是大量存在的 , 例如 是 否吸烟,宗教信仰 ,国籍, 等等. 在日常生活中 , 我们常常关心两个分类 变 量之间是否有关系 .例如, 吸烟与肺癌是否 有关系? 性 别对于是否喜欢数学课 程 有 影响? 等等.

探究 为调查吸烟是否对患肺 癌有影响,某 肿瘤研究所随机地调查 了9 965人, 得到如下 结果 (单位 : 人 ) :
表3 ? 7吸烟与患肺癌列联表

不患肺癌 患肺癌 不吸烟 吸烟 总计 7775 2099 9874 42 49 91

总计 7817 2148 9965

那么吸烟是否对患肺癌 有影响?

像表 3 ? 7 这 样列出的两个分类变量 的 频数表 , 称为列联表. 由吸烟情况和患肺 癌情况的列联 表可以粗略 估计出: 在不 吸烟者中 , 有0.54%患有肺癌 ; 在吸烟者中 , 有2.28% 患有肺癌 .因此, 直观上可以得出 结论 : 吸烟者和不吸烟者患 肺癌可能存 在差异.

与表格相比 , 三维柱形图和二维条形 图 能更直观地反映出相关数据的总体 状 况.

8000 7000 6000 5000 4000 3000 2000 1000 0

吸烟
患肺癌

不患肺癌

不吸烟

图3.2 ? 1

图3.2 ? 1是列联表的三维柱形图 , 从中能清晰 地看出各个频数的相对 大小. 作三维柱形图要注意选 择恰当的视角 ,以使每 个柱体都能看到 .

9000 8000 7000 6000 5000 4000 3000 2000 1000 0

不患肺癌

患肺癌

不吸烟

吸烟

图3.2 ? 2

图 3.2 ? 2 是叠在一起的二维条形 图, 其中绿色 条高表示不患肺癌的人 数,黑色条高表示患肺 癌的人数.从图中可以看出 ,吸烟者中患肺癌的 比例高于不吸烟者中患 肺癌的比例 .

1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00

不吸烟

吸烟

为了更清晰地表达这个 特征, 我们还可用如下的等 高条形图表示两种情况 下患肺癌的比例.如图3.2 ? 3 所示, 在等高条形图中 , 绿色的条高表示不患肺 癌 的百分比 ;黑色的条高表示患肺癌 的百分比 .

图3.2 ? 3

上面我们通过分析数据 和图形 , 得到的直观印 象是吸烟和患肺癌有关 .那么事实是否真的如 此呢 ? 或者说我们能够以多大 的把握认为 "吸 烟与患肺癌有关 "呢 ? 为了回答上述问题, 我们先假设 H0 : 吸烟与患肺癌没有关系. 用A表示不吸烟,B表示不患肺癌, 则" 吸烟与患 肺 癌没有关系 " 等价于" 吸烟与患肺癌独立" , 即H0等价于 P?AB? ? P?A ?P?B ?.

把表3 ? 7中的数字用字母代替 , 得到如下用字 母表示的列联表:
表3 ? 8 吸烟与患肺癌列联表

不吸烟 吸烟 总计

不患肺癌 患肺癌 a b c d a?c b?d

总计 a?b c?d a?b?c ?d

在表3 ? 8中, a 恰好为事件AB 发生的频数 : a ? b 和a ? c 恰恰好分别为事件A 和 B发生的频数 .由 于频率近似于概率, 所以在H0成立的条件下应有

a a?b a?c ? ? , 其中n ? a ? b ? c ? d为样本容 n n n 量, 即 ?a ? b ? c ? d?a ? ?a ? b ??a ? c ?, 即 ad ? bc.

因此,| ad ? bc | 越小, 说明吸烟与患肺癌之间关 系越弱;| ad ? bc | 越大, 说明吸烟与患肺癌之间 关系越强. 为了使不同样本容量的数据有统一的评判标 准, 基于上面的分析, 我们构造一个随机变量
n?ad ? bc ? K ? ?a ? b??c ? d??a ? c ??b ? d? 其中n ? a ? b ? c ? d为样本容量.
2 2

?1 ?

若H0成立, 即" 吸烟与肺癌没有关系" , 则K 2应该 很小.现在, 根据表3 ? 7中的数据, 利用公式?1?计 算得K 2的观测值为 9965 ? ?7775 ? 49 ? 42 ? 2099 ? k? ? 56.632, 7817 ? 2148 ? 9874 ? 91 这个值是不是很大呢 ? 在H0成立的情况下, 统计学家估算出如下概率 ?2? P?K 2 ? 6.635 ? ? 0.01. 即在H0成立的情况下K 2的值大于6.635的概率 非常小.近似于0.01.也就是说.在H0成立的情况
2

下对随机变量K 2 进行多次观测, 观测值超过6.635 1 的频率约为 . 100 在?2 ?中, n越大, 近似程度越高 .在实际应用中 , 通常 要求a, b, c, d都不小于5. 思考 如果K 2 ? 6.635, 就断定H0不成立, 这种判 断出错的可能性有多大 ? 现在观测值k ? 56.632远远大于6.635, 在H0 成立 的条件下,由 ?2?式可知能够出现这样的观测值的 概率不超过 0.01. 因此我们有 99% 的把握认为H0 不成立, 即有99%的把握认为" 吸烟与肺癌有关系".

上面这种利用随机变量K 来确定在多大程度上

2

可以认为 " 两个分类变量有关系"的方法称为两 个分类变量的 独 立 性 检 验 .. 独立性检验的基本思想 类似于反证法 .要确认" 两个 分类变量有关系 " 这一结论成立的可信程 度, 首先假 设该结论不成立 ,即假设结论" 两个分类变量没有关 系" 成立, 在该假设下构造的随机 变量K 2 应该很小 .如 果由观测数据计算得到 的K 2 的观察值很大 , 则在一 定程度上说明假设不合 理.根据随机变量 K 2 的含义, 可以通过概率?2? 式评价该假设不合理的 程度,由实 际计算出的k ? 6.635 , 说 明 假 设 不 合 理的程度为 99%,即" 两个分类变量有关系 " 这一结论成立的可信 程度约为 99%.

思考 利用上面的结论 , 你能从列联表的三维柱 形图中看出两个分类变 量是否相关吗? 一般地, 假设两个分类变量 X和Y,它们的值域分 别为 ?x1, x 2 ? 和 ?y1, y 2 ? , 其样本频数列联表 (称为 2 ? 2列联表) 为 :
表3 ? 9 2 ? 2列联表

x1 x2 总计

y1 a c a?c

y2 b d b?d

总计 a?b c?d a?b?c ?d

若要推断的论述为H1 :" X与Y有关系" , 可以按如下步 骤判断结论H1成立的可能性 :

1.通过三维柱形图和二维条形图 , 可以粗略地判断两 个分类变量是否有关 , 但是这种判断无法精确地给出 所得结论的可靠程度 .

?1?在三维柱形图中, 主对角线上两个柱形高度的乘积
ad与副对角线上的两个柱形高度的乘积bc相差越大, H1成立的可能性越大 .

?2?在二维条形图中 , 可以估计满足条件X ? x1的个体
a 中具有Y ? y1的个体所占的比例 , 也可以估计满 a?b 足条件X ? x 2的个体中具有Y ? y1的个体所占的比例 c .两个比例的值相差越大 ,H1成立的可能性就越大 . c?d 2.可以利用独立性检验来考察两个分类变量是否 有关系, 并且能较精确地给出这种判断的可靠程度 . 具体做法是 : 根据 观测数据计算则 ?1? 式给出的检 验随机变量K 2的值k, 其值越大, 说明 " X与Y有关系" 成立的可能性越大 .当得到的观测数据 a, b, c, d 都不 小于5时, 可以通过查阅下表 (表3 ? 10) 来确定结论 " X与Y有关系"的可信程度.

当观测数据a, b, c, d中有小于5时,需采用很复杂的精 确的检验方法 .
表3 ? 10 P?K 2 ? k ? 0.50 0.40 0.25 0.15 0.10 k 0.455 0.708 1.323 2.072 2.706
0.05 0.025 3.841 5.024 0.010 6.635 0.005 7.879 0.001 10.828

例如 : ?1?如果k ? 10.828, 就有99.9%把握认为" X与Y有 关系" ; ?2?如果k ? 7.879, 就有99.5% 把握认为" X与 Y有关 系" ; ?3 ?如果k ? 6.635, 就有99%把握认为" X与 Y有关系" ;

?4 ?如果k ? 5.024, 就有97.5%把握认为" X与 Y有关

系" ; ?5 ?如 果k ? 3.841, 就 有95%把握认为" X与 Y有关系" ; ?6 ?如果k ? 2.706, 就有90%把握认为" X与 Y有关系" ; 如果k ? 2.706, 就认为没有充分的证据 显示" X与 Y 有关系".

例1 在某医院,因为心脏 病而住 院的 665 名男性 病人中 , 有 214 人秃顶 ,而另外 772 名不是因为患心 脏病而住院的男性病 人中有 175 人秃顶 .分别利用 图形和独立性检 验方法判断秃顶与患心 脏病是否 有关系? 你所得的结论在什么范 围内有效? 解 根据题目所给数据得到 如下列联表
表3 ? 11 秃顶与患心脏病列联表

秃顶 不秃顶 总计

患心脏病 214 451 665

患其他病 175 597 772

总计 389 1048 1437

相应的三 维柱形图 600 500 如图 3.2 ? 4 所示.比 400 300 较来说 , 底面副对角 200 100 线上两个柱 体 高度 0 的乘积要大一些 ,可 秃顶 不秃顶 以在 某种程度上认 图3.2 ? 4 为" 秃顶与患心脏病有关 ". 根据列联表 3 ? 11 中的数据 , 得到
2 2

患其他病
患心脏病

1437 ? ?214 ? 597 ? 175 ? 451? K ? ? 16.373 ? 6.635. 389 ? 1048 ? 665 ? 772 所以有99%的把握认为 " 秃顶与患心脏病有关 ". 因为这组数据来自住院 的病人,因此所得到的结论适合 住院的病人群体 .

例 2 为考察高中生的性别与 是否喜欢数学课程 之间的关系, 在某城市的某校高中生 中随机 抽出 300名学生, 得到如下列联表:
表3 ? 12 性别与喜欢数学课程列 联表

男 女 总计

喜欢数学课程 不喜欢数学课程 总计 37 85 122 35 143 178 72 228 300

由表中数据计算得K 2 ? 4.513 .高中生的性别与是 否喜欢数学课程之间是 否有关系? 为什么?

解 可以有约 95%以上把握认为 " 性别与喜欢数学 课之间有关系 ". 作出这种判断的依 据是独立性检 验的基本思想 , 具体过程如下 :

分别用 a, b, c, d表示样本中喜欢数学课 的男生人数、 不喜欢数学课的男生人 数、喜欢 数学课的女生人 数、不喜欢数学课的女 生人数 .如果性别与是否喜 欢 数 学 课 有关 系 , 则男 生中喜 欢 数 学 课 的比 例 a c 与女生中喜欢 数学课的人数比例 应该 a?b c?d a c ac ? bd 相差很多, 即 ? ? 应很大. a ? b c ? d ?a ? b ??c ? d?

将上式等号右边的式子 乘以常数因子

?a ? b ? c ? d??a ? b??c ? d? , ?a ? c ??b ? d?
然后平方得 n?ac ? bd? K ? , ?a ? b??c ? d??a ? c ??b ? d?
2 2

其中 n ? a ? b ? c ? d.因此 K 2越大, " 性别与喜 欢数学课之间有关系 " 成立的可能性越大 .

另一方面 , 假设 " 性别与喜欢数学课之间 没有关系 " , 由于事件 A ? ?K 2 ? 3.841?的概率为 P?K 2 ? 3.841? ? 0.05,因此事件 A是一个小概率事件 .而由样本数 据计算得 K 2 ? 4.513, 这表明小概率事件 A发生.根 据假设检验的基本原理 , 我们应该断定 " 性别与喜 欢数学课之间有关系 " 成立, 并且这种判断出错的 可能性约为 5%.所以, 约有95%的把握认为 " 性别与 喜欢数学课之间有关系 ".

作业:P97习题3.2A组

www.ks5u.com

微信投票群 微信免费互投票群 http://www.weixintoupiaoqun.com

geg352uip


赞助商链接

3.2.1独立性检验的基本思想及其初步应用

3.2.1独立性检验的基本思想及其初步应用_数学_高中教育_教育专区。学校:临清二中 学科:数学 编写人: 游恒涛教学目标 审稿人:马英济 3.2.1 独立性检验的基本...

...年高中数学3.2独立性检验的基本思想及其初步应用学...

2016_2017学年高中数学3.2独立性检验的基本思想及其初步应用学案 - 3.2 独立性检验的基本思想及其初步应用 1.了解分类变量、2×2 列联表、随机变量 K 的意义...

...三章3.2独立性检验的基本思想及其初步应用

高中数学必修2-3第三章3.2独立性检验的基本思想及其初步应用_数学_高中教育_教育专区。3.2 独立性检验的基本思想及其初步应用 1.问题导航 (1)分类变量的概念是...

...2习题:第一章1.2独立性检验的基本思想及其初步应用含答案

人教a版高中数学选修1-2习题:第一章1.2独立性检验的基本思想及其初步应用含答案_数学_高中教育_教育专区。第一章 统计案例 1.2 独立性检验的基本思想及其初步...

《独立性检验的基本思想及其初步应用》教学设计

独立性检验的基本思想及其初步应用》教学设计 - 《独立性检验的基本思想及其初步应用》教学设计 教学要求:通过探究“吸烟是否与患肺癌有关系”引出独立性检验的问题...

第03课时:独立性检验的基本思想及其初步应用习题

第03课时:独立性检验的基本思想及其初步应用习题_高二数学_数学_高中教育_教育专区。小榄中学 2015-2016 学年第二学期高二数学天天清 编写:谢良学 审核:陈飞俭 ...

...3导学案:3.2独立性检验的基本思想及其初步应用

2015-2016学年高二人教A版数学选修2-3导学案:3.2独立性检验的基本思想及其初步应用_高二数学_数学_高中教育_教育专区。32 独立性检验的基本思想及其初步应用 3....

2017-2018学年人教A版选修1-2 独立性检验的基本思想及其初步应用 ...

2017-2018学年人教A版选修1-2 独立性检验的基本思想及其初步应用 学案_高二数学_数学_高中教育_教育专区。1.2 独立性检验的基本思想及其初步应用 独立性检验的有...

...2-3同步练习:3.2《独立性检验的基本思想及其初步应用》

高中数学人教版选修2-3同步练习:3.2《独立性检验的基本思想及其初步应用》 - 课时训练 15 一、选择题 独立性检验的基本思想及其初步应用 ). 1.通过对 K2 的...

...高中数学选修2-3:第三章3.2独立性检验的基本思想及其初步应用...

人教版高中数学选修2-3:第三章3.2独立性检验的基本思想及其初步应用含解析_数学_高中教育_教育专区。第三章 统计案例 3.2 独立性检验的基本思想及其初步应用 ...