nbhkdz.com冰点文库

2013级 2.2.2用样本的数字特征估计总体的数字特征1-2


2.2.2 用样本的数字特征估计总 体的数字特征

众数

中位数 平均数

三数概念
1、众数 在一组数据中,出现次数最多 的数据叫做这一组数据的众数。
2、中位数 将一组数据按大小依次排列, 把处在最中间位置的一个数据(或两个数 据的平均数)叫做这组数据的中位数。 3、平均数 一组数据的总和除以

数据的个 数所得的值。

求下面这组数据的众数、中位数、平均数
4、4、4、6、6、6、6、8、8、8 众数为6 中位数为6 平均数
4? 4? 4?6?6?6?6?8?8?8 x? 10 3 4 3 ? ? 4 ? ? 6 ? ?8 10 10 10 ?6

也可以说平均数为各个不同数字乘以相应频率之和。

如何从频率分布直方图中估计众数?如图:
频率 / 组距 0.50 0.40 0.30 0.20 0.10 o 0.5 1 1.5 2 2.5 3

3.5

4

4.5

月均用水量 /t

众数在样本数据的频率分布直方图中, 就是最高矩形的中点的横坐标。

2.2 5

思考:频率分布直方图中估计的众数与原始
数据中的众数2.3不同,为什么?
在频率分布直方图,我们只能直观地看出 数据的大概分布情况,从直方图本身得不出 原始的数据内容,直方图已经损失一些样本 信息。

讨论:众数估计总体情况有什么优缺点?
能够体现样本数据的最大集中点,但它 对其它数据信息的忽视使得无法客观地反映 总体特征。

如何从频率分布直方图中估计中位数?
频率 / 组距 0.50 0.40 0.30 0.15 0.20 0.10 0.04 o 0.5 1 1.5 2 2.5 3 0.08 0.06 0.14 0.22

前四个小矩形的面积 和=0.49
0.25

注:图中的数据是小矩形的面积即频率

后四个小矩形的 面积和=0.26

0.04
3.5

0.02 4 4.5

月均用水量 /t

2.0 总结:在频率分布直方图中,把频率分布直方图划分左右两 分析:在样本数据中,有50%的个体小于或等于中位数,也有50%的个体大 2 于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图 个面积相等的分界线与x轴交点的横坐标称为中位数。 的面积应该相等。 0.04 ? 0.08 ? 0.15 ? 0.22 ? ( x ? 2) ? 0.5 ? 0.5 上图中,设中位数为x,则

x ? 2.02

思考:2.02这个中位数的估计值,与样本数据的中
位数2.0不同,为什么?
从频率分布直方图本身得不出原始的数据内容, 频率分布直方图已经损失一些样本信息。

思考:中位数不受少数极端值的影响,这在某些情
况下是一个优点,但它对极端值的不敏感有时也会成 为缺点,你能举例说明吗?
对极端值不敏感有利的例子: 考察100位居民的月均用水量表中的数据,如果把 最后一个数据错写成22,并不会对样本中位数产生影 响也就是说对极端数据不敏感的方法能够有效地预防 错误数据的影响,而在实际应用中人为操作的失误经 常造成错误数据。

对极端值不敏感有弊的例子:
某人具有初级计算机专业技术水平, 想找一份收入好的工作。这时如果采用各个 公司计算机专业技术人员收入的中位数作为 选择工作的参考指标就会冒这样的风险:很 可能所选择公司的初级计算机专业技术水平 人员的收入很低,其原因是中位数对极小的 数据不敏感。这里更好的方法是同时用平均 数和中位数来作为参考指标,选择平均数较 大且中位数较大的公司就业。

如何从频率分布直方图中估计平均数 ?
频率 / 组距 0.50 0.40 0.30 0.15 0.20 0.10 0.04 0.08 0.06 0.14 0.22

0.25

o 0.25 0.50.75 1 1.25

.

.

. 1.5 .

1.75

2

2.25

. 2.5 .

2.75

3

.

3.25

. 3.5

0.04

3.75

0.02 4 4.5
4.25

.

月均用水量 /t

2.02 注:图中的数据是小矩形的面积即频率

平均数等于频率分布直方图中每个小矩形 的面积乘以小矩形底边中点的横坐标之和。

思考:平均数估计总体情况有什么优缺点?
平均数与每一个样本的数据有关,与众数、中 位数比较起来,平均数可以反映出更多的关于样本 数据全体的信息,但平均数受数据中的极端值的影 响较大,使平均数在估计时可靠性降低。

想一想:某次数学期中考试,毛毛同学得了78分。
全班共30人,其他同学的成绩为1个100分, 4个90 分, 22个80分, 以及一个2分和一个10分。毛毛计 算出全班的平均分为77分,所以毛毛回家告诉妈妈 说,他这次成绩处于班级“中上水平”。这种说法 对吗?

三 、三种数字特征的优缺点
1、众数体现了样本数据的最大集中点,但它 对其它数据信息的忽视使得无法客观地反映总体 特征。

2、中位数是样本数据所占频率的等分线, 它不受少数几个极端值的影响,这在某些情况 下是优点,但它对极端值的不敏感有时也会成 为缺点。 3、平均数与每一个样本的数据有关,与众数、 中位数比较起来,平均数可以反映出更多的关于 样本数据全体的信息,但平均数受数据中的极端 值的影响较大,使平均数在估计时可靠性降低。

众数、中位数、平均数的 简单应用 例 某工厂人员及工资构成如下:
人员 周工资 人数 合计 经理 2200 1 2200 管理人员 250 6 1500 高级技工 220 5 1100 工人 200 10 2000 学徒 合计 100 1 23 100 6900



(1)指出这个问题中周工资的众数、中 位数、平均数 (2)这个问题中,工资的平均数能客观 地反映该厂的工资水平吗?为什么?

分析:众数为200,中位数为220,
平均数为300。

因平均数为300,由表格中所列 出的数据可见,只有经理在平均数以 上,其余的人都在平均数以下,故用 平均数不能客观真实地反映该工厂的 工资水平。

标准差与方差

如:有两位射击运动员在一次射击测试中各射靶 10次,每次命中的环数如下:
甲:7 乙:9 8 5 7 7 9 8 5 7 4 6 9 8 10 6 7 7 4 7

如果你是教练,你应当如何对这次射击作出评价? 如果看两人本次射击的平均成绩,由于 x甲 ? 7,x乙 ? 7 思考:两人射击的平均成绩是一样的.那么两个 人的水平就没有什么差异吗?若有差异你能说明 其水平差异在那里吗?
? ?

甲、乙两人射击的平均成绩相等,观察两人成绩的频率分 布条形图,你能说明其水平差异在那里吗?
频率 0.4 0.3 0.2 0.1 O 0.4 0.3 0.2 0.1 4 5 6 7 8 9 10 环数 O

(甲)

频率

(乙)

4 5 6 7 8 9 10 环数

甲的成绩比较分散,乙的成绩相对集中,比较稳定.

一组数据的最大值与最小值的差称为极差; 极差越大,数据越分散,极差越小,数据越集中.
甲的环数极差=10-4=6 乙的环数极差=9-5=4. 因此我们可以得到一种“去掉一个最高分,去掉一个最低分”的 统计策略.

考察样本数据的分散程度的大小,最常用的统计量是标准差 1、标准差是样本数据到平均数的一种平均距离。 一般用s表示。它用来描述样本数据的离散程度。 在实际应用中,标准差常被理解为稳定性。
假设样本数据是x1 , x2 ,...xn , x 表示这组数据的平均数。xi到 x的距离是
xi ? x (i ? 1 2, ?, n). ,
?

?

?

于是, 样本数据x1 , x2 ,? xn到 x 的“平均距离”是:

?

s=

(x 1 - x )x1+ (x 2 ? x2 ?+xL? + (x nn -? x )2 ? x - x) ?x x S ? n
n

2

?

2

?

?

由于上式含有绝对值,运算不太方便,因 此,通常改用如下公式来计算标准差.

1、标准差是样本数据到平均数的一种平均距离。 一般用s表示。它用来描述样本数据的离散程度。 在实际应用中,标准差常被理解为稳定性。

s=

( x 1 - x ) + ( x 2 - x ) + L + (x n - x ) n

2

2

2

思考:1、标准差的取值范围是什么? 1、标准差的值必是大于等于0的; 思考:2、标准差为0的样本数据有什么特点? 2、当标准差为0时,样本数据都是相等的。

思考3:对于一个容量为2的样本:x1,x2(x1<x2), 则 x = x 1 + x 2, s = x 2 - x 1

2

2

在数轴上,这两个统计数据有什么几何意义?由此说明标 准差的大小对数据的离散程度有何影响? a
x1
x1 ? x2 2

x2

3、标准差越大, 数据的离散程度越大,数据较分散; 标准差越小, 数据的离散程度越小,数据较集中在平 均数周围. 用计算器可算出甲,乙两人的的成绩的标准差 由 s甲 ? s乙可以知道,甲的成绩离散程度大,乙的成 绩离散程度小.由此可以估计,乙比甲的射击成绩稳定.

s甲 ? 2,s 乙 ? 1? 095

上面两组数据的离散程度与标准差之间的关系可用图 直观地表示出来.

s甲

s乙

4

5

6

7

8

9

10

例题1:画出下列四组样本数据的条形图,说明它们的异 同点. (1) 5, 5, 5, 5, 5, 5, 5, 5, 5; (2) 4, 4, 4, 5 , 5, 5, 6, 6, 6; (3) 3 , 3 , 4 , 4 , 5, 6 , 6, 7 , 7; (4) 2 , 2 , 2 , 2, 5 , 8 , 8 , 8 , 8 ; 解:四组样本数据的条形图是:
频率 1.0 0.8 0.6 0.4 0.2
O

x?5 s?0
1.0 0.8 0.6 0.4 0.2

频率

x?5 s ? 0.82

1 2 3 4 5 6 7 8
(1)

O 1 2 3 4 5 6 7 8 (2)

频率 1.0 0.8 0.6 0.4 0.2

频率

x?5 s ? 1.49

x?5
1.0 0.8 0.6 0.4 0.2

s ? 2.83

O
1.0 0.8 0.6 0.4 0.2
O

1 2 3 4 5 6 7 8
频率 (3)

O

1 2 3 4 5 6 7 8
频率 (4)

x?5 s?0
1.0 0.8 0.6 0.4 0.2

x?5

s ? 0.82

1 2 3 4 5 6 7 8
(1)

O 1 2 3 4 5 6 7 8 (2)

标准差还可以用于对样本数据的另外一种解释.例如对于 城市居民月均用水量样本数据,其平均数 x = 1.973 , 标准差s=0.868.在这100个数据中, 落在区间( x -s, x +s)=[1.105,2.841]外的有28个; 落在区间(x -2s,+2s)=[0.237,3.709]外的只有4个; x 落在区间( x -3s, +3s)=[-0.631,4.577]外的有0个. x 一般地,对于一个正态总体,数据落在区间 ( x -s,x +s)、(x -2s, x +2s)、(x -3s, x +3s) 内的百分比分别为68.3%、95.4%、99.7%,这个原理在产 品质量控制中有着广泛的应用(参考教材P79“阅读与思 考”). ? ?? ? 也就是说, x? 2s, x? 2s ?几乎包含了所有样本数 。 据 ? ? ?

1、标准差:

s=

( x 1 - x ) 2 + ( x 2 - x ) 2 + L + (x n - x ) 2 n

2.方差 从数学角度考虑,有时也可以用标准差的平 2
s
2

方 s ——方差来替代标准差作为测量数据分散程度 的工具。 1

? ?( x ? x) n
1

2

? ( x2 ? x) ? .......? ( xn ? x)
2

2

?

在刻画样本数据的分散程度上,方差与标准差是 一样的,但在解决实际问题时,一般采用标准差 现实中的总体所包含的个体数往往是很多的,总体的平均 数与标准差是不知道的,如何求总体的标准差和平均数?------通常采用样本的平均数和标准差去估计总体的平 均数与标准差,只要样本的代表性好,这样做就是合理的.

例2、甲乙两人同时生产内径为25.40mm的一种零件.为了 对两人的生产质量进行评比,从他们生产的零件中各抽出 20件,量得其内径尺寸如下(单位:mm) 甲: 25.46, 25.32, 25.45, 25.39, 25.36 25.34, 25.42, 25.45, 25.38, 25.42 25.39, 25.43, 25.39, 25.40, 25.44 25.40, 25.42, 25.35, 25.41, 25.39 乙: 25.40, 25.43, 25.44, 25.48, 25.48 25.47, 25.49, 25.49, 25.36, 25.34 25.33, 25.43, 25.43, 25.32, 25.47 25.31, 25.32, 25.32, 25.32, 25.48 从生产的零件内径的尺寸看,谁生产的质量较高?

例2、甲乙两人同时生产内径为25.40mm的一种零件.为了 对两人的生产质量进行评比,从他们生产的零件中各抽出 20件,量得其内径尺寸如下(单位:mm)

解:用计算器计算可得:

x甲 ? 25.4005 x乙 ? 25,4008 , ; s甲 ? 0.038, s乙 ? 0.074
s甲 ? s乙 ,因此甲生产的零件内径比乙的稳定程度高得多. 于是可以作出判断,甲生产的零件的质量比乙的高一些.

?

?

例3:为了保护学生的视力,教室内的日光灯在使用一段时间后 必须更换.已知某校使用的100只日光灯在必须换掉前的使用天 数如下,试估计这种日光灯的平均使用寿命和标准差.

天数
灯泡 数

151~ 181~ 211~ 241~ 271~ 301~ 331~ 361~ 180 210 240 270 300 330 360 390
1 11 18 20 25 16 7 2

各组组中值依次为165,195,225,255,285,315,345, 解: 375,由此算得平均数为

x ? (165 ?1 ? 195 ?11 ? 225 ?18 ? 255 ? 20 ? 285 ? 25 ? 315 ?16 ? 345 ? 7 ? 375 ? 2) /100 ? 267.9 ? 268
s2 ?

1 ? [1 ? (165? 268)2 ? 11? (195? 268)2 ? ? ? ?2 ? ( 375? 268)2 ] ? 2128 60(天 2 . ) 100

?s ?

s2 ?

212860 ? 46(天) .

从上述例子我们可以看到,对一名工人生产的零件内径 (总体)的质量判断,与我们抽取的内径(样本数据)直接相 关.显然,我们可以从这名工人生产的零件中获取许多样 本。这样,尽管总体是同一个,但由于样本不同,相应的样 本频率分布与平均数,标准差等都会发生改变,这就会影 响到我们对总体情况的估计.如果样本的的代表性差,那 么对总体所作出的估计就会产生偏差;样本没有代表性时, 对总体作出错误估计的可能性就非常大.这也正是我们在 前面讲随机抽样时反复强调样本代表性的理由.在实际操 作中,为了减少错误的发生,条件许可时,通常采取适当增 加样本容量的方法.当然,关键还是要改进抽样方法,提高 样本的代表性.

练习: 1.在数据统计中,能反映一组数据变化范围大小的 指标是 A )A.极差 B.方差 C.标准差 D.以上都不对 (

2.求数据2,1,0,-1,1的方差。

3. 已知一个样本1, 2, X,若它的平均 5. 3, 5,

2 数是3,则这个样本的标准差是 ______.

4. 若样本x 6.

1

, x 2 , ?,x n的方差为0,则表示 B ) ( B.x1 ? x 2 ? ? ? x n

A.x ? 0

C.x1 ? x 2 ? ? ? x n ? 0 D.总体方差一定是0

回顾:
1.用样本的数字特征估计总体的数字特征分 两类: 用样本平均数估计总体平均数。 用样本方差、标准差估计总体方差、标准差。 样本容量越大,估计就越精确。 2.方差、标准差描述一组数据围绕平均数波 动的大小,反映了一组数据变化的幅度.

方差越小,数据的波动越小。

小结:
1 . 众数、中位数、平均数的概念

2. 众数、中位数、平均数与频率分布直方 图的关系 3. 三种数字特征的优缺点
4. 什么是标准差?

5. 如何利用标准差刻画数据的离散程度?

练习
1.数据:1,1,3,3的众数和中位数分别是 A.1或3,2 B.3,2 C.1或3,1或3 D.3,3 ( )

2.频率分布直方图中最高小矩形的中间位置 所对的数字特征是 A.中位数 B.众数 C.平均数 D.标准差

(

)

3.

4.

5.


2.2.2用样本的数字特征估计总体的数字特征

2.2.2用样本的数字特征估计总体的数字特征_理化生_高中教育_教育专区。分层...方差公式 三、思维拓展部分: 已知一组数据按大小顺序排列为:0 , 1 , 4 , ...

2.2.2用样本的数字特征估计总体的数字特征

2 页共 4 页 2.2.2 用样本的数字特征估计总体的数字特征 制作:房祥虎 审核:高一数学组 跟踪练习 1:某校在一次考试中,甲、乙两班学生的数学成绩统计如...

13-2.2.2用样本的数字特征估计总体的数字特征

2.2.2 教材分析: 用样本的数字特征估计总体的数字特征 1.本节是在已经学习了用图、表来组织样本数据,用样本的频率分布估计总体的分布情况下,进一步 学习如何通过...

2.2.2用样本的数字特征估计总体的数字特征1

2.2.2 用样本的数字特征估计总体的数字特征 第 课时 一、教学目标: 知识与技能 (1)正确理解样本数据标准差的意义和作用,学会计算数据的标准差。 (2)能根据...

2.2.2 用样本的数字特征估计总体的数字特征知识点试题及答案

2.2.2 用样本的数字特征估计总体的数字特征知识点试题及答案 隐藏>> 一、知识要点及方法一、众数,中位数,平均数 1、在频率分布直方图中估计众数数 直方图中最...

2.2.2用样本的数字特征估计总体的数字特征

2.2.2用样本的数字特征估计总体的数字特征_数学_高中教育_教育专区。统计,2.2.2用样本,的数字特征,估计总体,的数字特征 高一数学 用样本的数字特征估计总体的...

2.2.2-1用样本数字特征估计总体数字特征教案

2.2.2-1用样本数字特征估计总体数字特征教案_高二数学_数学_高中教育_教育专区...” 2 问题 5: 总结在利用众数、中位数、平均数估计总体的数字特征时各 自的...

2.2.2 用样本的数字特征估计总体的数字特征

众数=中位数=平均数 )) 2.2.2 用样本的数字特征 课时安排 2 课时 课题 估计总体的数字特征 理解样本数据的平均数,方差,标准差的意义和作用,学会 【学习目标...

2.2.2用样本的数字特征估计总体的数字特征 -

§ 2.2.2 用样本的数字特征估计总体的数字特征 学习目标 (1)正确理解样本数据标准差的意义和作用,学会计算数据的标准差。 (2)能根据实际问题的需要合理地选取...