nbhkdz.com冰点文库

3.1回归分析的基本思想及其初步应用(高中数学人教A版选修2-3)


回归分析知识结构图
问题背景分析

散点图

两个变量线性相关

两个变量非线性相关

最小二乘法
线性回归模型

残差分析
R2

非线性回归模 型

应用
注:虚线表示高中阶段不涉及的关系

>
知识结构 1.回归分析的基本方法.线性回归模型 y=bx+a+e不同于一次函数y=bx+a, 含有__________ , 随机误差e ,其中x为________ 解释变量 预报变量. y为________

2.回归直线一定过点( x , y ),此为 样本点的中心 _____________ .
3. R 表达式中的 ? (yi- y )2 为确定的
2 i= 1 n n

数, ? (yi-^ y i)2 称为____________.
i= 1

残差平方和

4.
2 相关指数: R ? 1?

2 ? ? ( yi ? yi ) i ?1 n 2 ( y ? y ) ? i i ?1

n

★其中:

(1)在含有一个解释变量的线性模型中,R2恰好等于相 关系数r的平方. (2)R2取值越大(越接近1),则残差平方和越小,即模 型的拟合效果越好.(实际上就是:|r|越大,则|e|越小)

3

高二数学 选修2-3

3.1回归分析的基本思想及其初步应用(一)
——回归直线方程

一.回顾复习
正相关(增)

确定性关系——函数关系

线性相关 负相关(减) 非线性相关

1、两个变量的关系
不确定性关系

相关关系

2、相关关系的定义:

不相关关系

对于两个变量,当自变量取值一定时,因变量的取值带有一定随机性的
两个变量之间的关系叫做相关关系。 注:1)对具有相关关系的两个变量进行统计分析的方法叫回归分析。 2)函数关系中的两个变量间是一种确定性关系 相关关系是一种非确定性关系 函数关系是一种理想的关系模型 相关关系在现实生活中大量存在,是更一般的情况
如:人的身高与年龄;产品的成本与生产数量 商品的销售额与广告费;家庭的支出与收入。等等

一.回顾复习
问题1:正方形的面积y与正方形的边长x之间 确定性关系 的函数关系是 y = x2 问题2:某水田水稻产量y与施肥量x之间是否有一个确 定性的关系? 例如:在 7 块并排、形状大小相同的试验田上进行施肥量对水 稻产量影响的试验,得到如下所示的一组数据: 施化肥量x

15

20

25

30

35

40

45

水稻产量y

330 345

365

405 445

450 455

施化肥量x
水稻产量y

15

20

25
365

30

35

40

45

330 345

405 445

450 455

y
500 450 400 350 300 10

水稻产量

··
20

·

·

· · ·
施化肥量

30

40

50

x

施化肥量x
水稻产量y

15

20

25
365

30

35

40

45

330 345 水稻产量

405 445

450 455 散点图

y
500 450 400 350 300

··

·

·

· · ·

施化肥量

x 10 20 30 40 50 探索1:水稻产量y与施肥量x之间大致有何规律?
发现:图中各点,大致分布在某条直线附近。 探索2:在这些点附近可画直线不止一条,哪条直线最能代表 x与y之间的关系呢?

? ? bx ? a ? y 3.线性回归直线方程:
对于一组具有线性相关关系的数据 ( x1 , y1 ),( x2 , y2 ),...,( xn , yn ), 其回归直线方程为 其回归方程的截距和斜率的最小二乘估计公式分别为:
?? b

?

?

? ?a ? ? bx ? y
n i i

此直线叫做回归直线。

? ( x ? x)( y ? y) ? x y ? nx y
i ?1 i i 2 ( x ? x ) ? i i ?1 n

n

?

i ?1 n

2 x ? i ? nx i ?1

2

,

? ? ? y ? bx a
1 n 1 n (其中x ? ? xi , y ? ? yi) n i ?1 n i ?1

最 小 二 乘 估 计

? 注:1)回归直线方程 y

? ?a ? 恒过样本中心点 ( x, y ) ? bx

2)、对两个变量进行的线性分析叫做线性回归分析。

4.求回归直线方程的步骤:

(2)求? xi , ? xi yi .
2 i ?1 i ?1

1 n 1 n (1)求 x ? ? xi , y ? ? yi nn n i ?1 i ?1 n
n

(3)代入公式

?

b?

? ( x ? x)( y ? y) ? x y ? nx y
i ?1 i i 2 ( x ? x ) ? i i ?1 n

n

?

i ?1 n

i

i

2 x ? i ? nx i ?1

2

,

a ? y ? bx,......(1)

^

^ 即为所求的回归直线方程。 (4)写出直线方程为y=bx+a, 5.回归分析的基本步骤:

画散点图

求回归方程

预报、决策

例1、某大学中随机选取8名女大学生,其身高和体重数据如
下表所示.

编号 体重/kg

1 48

2 57

3 50

4 54

5 64

6 61

7 43

8 59

身高/cm 165 165 157 170 175 165 155 170

(1)画出散点图 (2)根据女大学生的身高预报体重的回归方程, (3)预报一名身高为172cm的女大学生的体重.

解:1.确定变量:
由于问题中要求根据身高预报体重,因此选取身高为自变 量x,体重为因变量y.
体重/kg
75 70

2. 作散点图;

65 60 55 50 45 40 150 155 160 165 170 身高/cm 175 180 185

3.设回归方程:由散点图可知,样本点呈条状分布,身高和体重有
较好的线性相关关系,因此可以用线性回归方程来近似的刻画它们之 间的关系.故设回归直线方程为

? ?a ? ? bx ? y

4.求回归方程: 有
n ? (xi - x)(yi - y) ? ? i=1 ? = ?b = n ? (xi - x)2 ? ? i=1 ? ? ?a = y - bx = -85.712

?x y
i=1 n

n

i i 2 i

- nxy - nx
2

?x
i=1

= 0.849,

故所求线性回归方程为:

? ? 0.849 x ? 85.712 y

? ? 0.849 是斜率的估计值,说明身高x每增加1个单位时, b
体重y就增加0.849个单位,这表明体重与身高具 有正的线性相关关系. 5.根据回归方程作出预报. 因此,对于身高172cm的女大学生,由线性回归方程可以预报其 体重为: y ? ? 0.849 ? 172 ? 85.712 ? 60.316( kg)

思考1:如何描述两个变量之间线性相关关系的强弱?
1)用相关系数r来衡量两个变量之间线性相关关系的强弱 n n _ _ (xi - x)(yi - y) x iy i ? n x y ? ? i=1 i?1 相关系数 r = ? n n ? n 2 ? _ ?2 ?? n 2 ? _ ?2 ? 2 2 ?(xi - x) ?(yi - y) ?? ? xi ? n? x ? ???? ? yi ? n? y ? ??
i=1 i=1

? i?1

? ? ?? i?1

? ? ?

2)相关系数的性质:
(1)|r|≤1. (2)r>0正相关;r<0负相关. (3)|r|越接近于1,x与y相关程度越强; |r|越接近于0,x与y相关程度越弱.

问题:达到怎样程度,x、y线性相关呢?它们的相关程度怎样呢?
通常:r∈[-1,-0.75]--负相关很强; r∈[0.75,1]—正相关很强; r∈[-0.75,-0.3]--负相关一般; r∈[0.3, 0.75]—正相关一般; r∈[-0.25, 0.25]--相关性较弱;

相关关系的测度(相关系数取值及其意义)

完全负相关

无线性相关

完全正相关

-1.0

-0.5

0

+0.5

+1.0

r
负相关程度增加 正相关程度增加 ①、当 r ? 1 时,x与y为完全线性相关,它们之间存在确定的函数关系。
②、当 0 ? r ? 1 时,表示x与y存在着一定的线性相关, r的绝对值越大,越接近于1,表示x与y直线相关程度越高,反之越低。

本例中,由上面公式可求得r=0.798>0.75.
表明体重与身高有很强的线性相关性,从而说明我们建立的回归模型 有意义的.

思考2:身高为172cm的女大学生的体重一定是60.316kg
吗?如果不是,你能解析一下原因吗?
答:身高为172cm的女大学生的体重不一定是60.316kg,但一般可以认 为她的体重接近于60.316kg或在60.316kg 左右。即,用这个回归方程不 能给出每个身高为172cm的女大学生的体重的预测值,只能给出她们平 均体重的值。 从散点图看到,样本点散布在某一条直线的附近,而不是在一条直线上, 所以不能用一次函数y=bx+a描述它们关系。 我们可以用下面的线性回归模型来表示:y=bx+a+e, (其中a和b为模型的未知参数,e称为随机误差)。
75 70 65

体重/kg

60 55 50 45 40 150 155 160 165 170 身高/cm 175 180 185

思考3:产生随机误差项e的原因是什么?
随机误差e的来源(可以推广到一般): 1、其它因素的影响:影响体重y 的因素不只是身高x,可能还包括 遗传基因、饮食习惯、生长环境等因素; 2、用线性回归模型近似真实模型所引起的误差; 3、身高 y 的观测误差。
以上三项误差越小,说明我们的回归模型的拟合效果越好。

思考4:函数模型与回归模型之间的差别?
函数模型: 回归模型:

y ? bx ? a y ? bx ? a ? e

函数模型:因变量y完全由自变量x确定

线性回归模型y=bx+a+e增加了随机误差项e,因变量y的值由自变量x和 随机误差项e共同确定,即自变量x只能解析部分y的变化。 在统计中,我们也把自变量x称为解析变量,因变量y称为预报变量。

因此,一次函数模型是线性回归模型的特殊形式, 线性回归模型是一次函数模型的一般形式.

小结:线性回归分析的基本步骤:
1.确定变量; 2.作散点图,判断相关关系; 3.设回归方程;

4.求回归方程;
5.根据回归方程作出预报.

高二数学 选修2-3

3.1回归分析的基本思想及其初步应用(二)
——随机误差与线性回归模型

一.复习回顾
1、线性回归模型:y=bx+a+e
(其中a和b为模型的未知参数,e称为随机误差)。 2.线性回归分析的基本步骤:
1)确定变量; 2)作散点图,判断相关关系; 3)设回归方程;4)求回归方程;5)根据回归方程作出预报.

3、线性相关关系强弱的判断: 相关系数r n
1)相关系数r ?

? ( x ? x)( y ? y)
i ?1 i i 2 n i i ?1 i

? ( x ? x) ? ( y ? y )
i ?1

n

.
2

2) 相关系数r的性质:
(1)|r|≤1.
(2)r>0正相关;r<0负相关. (3)|r|越接近于1,x与y相关程度越强; |r|越接近于0,x与y相关程度越弱.

案例1:女大学生的身高与体重
例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。

1 2 3 4 5 6 7 8 编号 身高/cm 165 165 157 170 175 165 155 170 体重/kg 48 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为 172cm的女大学生的体重。

解:1、选取身高为自变量x,体重为因变量y,作散点图: 2、由散点图知道身高和体重有比较 好的线性相关关系,因此可以用线性 回归方程刻画它们之间的关系。 3、从散点图还看到,样本点散布在 某一条直线的附近,而不是在一条 直线上,所以不能用一次函数 y=bx+a描述它们关系。

思考:有些时候,样本数据中难免混有错误数据,通过何
种方法把它剔除? 1.残差分析与残差图的定义:
数据点和它在回归直线上相应位置的差异 (yi ei =yi ? y i 为残差。

? y i ) 是随机误差的效应,称

然后,我们可以通过残差 e1 , e2 , , en 来判断模型拟合的效果,判断原始 数据中是否存在可疑数据,这方面的分析工作称为残差分析。 我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本 编号,或身高数据,或体重估计值等,这样作出的图形称为残差图。

注意:1)残差分析步骤:
1)计算每组数据的残差,即样本值减预测值 (yi ? y i ) 2)画残差图。纵坐标为残差,横坐标为自变量。 3)分析残差图 4)找异常值

2)残差图的制作:
坐标纵轴为残差变量,横轴可以有不同的选择. 横轴为编号:可以考察残差与编号次序之间的关系,常用于调查 数据错误. 横轴为解释变量:可以考察残差与解释变量的关系,常用于研究

下表列出了女大学生身高和体重的原始数据以及相应的残差数据。 编号 身高/cm 体重/kg 残差
8 6 4

1 165 48
-6.373

2 165 57
2.627

3 157 50
2.419

4 170 54
-4.618

5 175 64
1.137

6 165 61
6.627

7 155 43
-2.883

8 170 59
0.382

残 差 图

2 0 -2 0 -4 -6 -8 2 4 6 8 10

问 题 数 据

越 窄 越 好

注意:残差图的作用:
1)发现原始数据中的可疑数据,问题数据 2)判断模型的适用性,若模型选择的正确,残差图中的点应该比较均匀地落在 以横轴为中心的水平的带状区域中 带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高, 说明选用的模型较合适。

2.用相关指数R2来刻画回归的效果:
R2 ? 1?
2 ? ( y ? y ) ? i 2 ( y ? y ) ? i i ?1 i ?1 n n

残差平方和 总体偏差平方和

注意:1) 取值范围在 [ 0 , 1 ] 之间,即0≤ R2 ≤1.
2)在线性回归模型中,相关指数R2表示解析变量x对预报变量y变化的贡献率。

代表自变量刻画预报变量的能力。
R2反映回归直线的拟合程度,是度量模型拟合效果的一种指标。 3)R2的值越大,说明残差平方和越小,模型拟合效果越好 R2的值越小,说明残差平方和越大,模型拟合效果越好 4) R2 ?1,说明回归方程拟合的越好,表示解析变量x和预报变量y的线性相 关性越强。 R2?0,说明回归方程拟合的越差 5)如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过 比较R2的值来做出选择,即选取R2较大的模型作为这组数据的模型。 6)判定系数等于相关系数的平方,即R2=(r)2 注:本例中R2=0.64,表示解析变量x对预报变量y约贡献了64%,即,可以叙述为 “身高解析了64%的体重变化”,而随机误差贡献了剩余的36%。 所以,身高对体重的效应比随机误差的效应大得多。

?

练习:关于x与y有如下数据:

x y

2 30

4 40

5 60

6 50

8 70

为了对x、y两个变量进行统计分析,现有以下两种线性模 型:y=6.5x+17.5,y=7x+17,试比较哪一个模型拟合的效

果更好.

小结
一.用身高预报体重时,需要注意下列问题:
——这些问题也使用于其他问题。 1、回归方程只适用于我们所研究的样本的总体; 2、我们所建立的回归方程一般都有时间性; 3、样本采集的范围会影响回归方程的适用范围; 4、不能期望回归方程得到的预报值就是预报变量的精确值。 事实上,它是预报变量的可能取值的平均值。

涉及到统计的一些思想:
模型适用的总体; 模型的时间性; 样本的取值范围对模型的影响; 模型预报结果的正确理解。

二.建立回归模型的基本步骤为: 1.确定变量 2.制作散点图,观察是否相关

3.确定回归方程的类型(线性回归、指数回归、对数回归等)

4.利用公式确定回归参数
5.利用残差分析回归是否合理或模型是否合适

三.回归分析的一般方法: 1).利用散点图观察两个变量是否线性相关 2).利用残差来判断模型拟合的效果(残差分析) 利用残差图来分析数据,对可疑数据(残差较大的 数据)进行重新调查,有错误就更正,然后重新利 用回归模型拟合,如果没有错误,则需要找其他原 因。

高二数学 选修2-3

3.1回归分析的基本思想及其初步应用(三)
——非线性回归模型

复习回顾
1、线性回归模型:y=bx+a+e
(其中a和b为模型的未知参数,e称为随机误差)。 2、数据点和它在回归直线上相应位置的差异 (yi ? y i ) 是随机误差的效应,称ei =yi ? y i 为残差。 3、对每名女大学生计算这个差异,然后分别将所得 n ( yi ? y i ) 2 ? 的值平方后加起来,用数学符号表示为: i ?1 称为残差平方和,它代表了随机误差的效应。
2来刻画回归的效果,其计算公式是: 4 、我们可以用相关指数 R n n
2 ( y ? y ) ? i i 2 ( y ? y ) ? i

R2 ? 1 ?

?(y
i ?1

i ?1 n

?

i

? y)2

?(y
i ?1

i ?1 n

i

? y)2

注:R2 ?1,说明回归方程拟合的越好;
R2?0,说明回归方程拟合的越差。

5.回归分析的一般方法:
1).利用散点图观察两个变量是否线性相关 2).利用残差来判断模型拟合的效果(残差分析) 利用残差图来分析数据,对可疑数据(残差较大的数据)进行重新调查,有错误 就更正,然后重新利用回归模型拟合,如果没有错误,则需要找其他原因。

6.建立回归模型的基本步骤 1)确定解释变量x和预报变量y;

2)画出散点图;
3)确定回归方程类型; 4)求出回归方程; 5)利用相关指数或残差进行分析.

注意回归模型的适用范围:
(1)回归方程只适用于我们所研究的样本的总体。样本数据 来自哪个总体的,预报时也仅适用于这个总体。

(2)模型的时效性。利用不同时间段的样本数据建立的模型, 只有用来对那段时间范围的数据进行预报。
(3)建立模型时自变量的取值范围决定了预报时模型的适用 范围,通常不能超出太多。 (4)在回归模型中,因变量的值不能由自变量的值完全确定。 正如前面已经指出的,某个女大学生的身高为172cm,我们 不能利用所建立的模型预测她的体重,只能给出身高为 172cm的女大学生的平均体重的预测值。

练习;关于x与y有如下数据:
x y (1) y ? 2 30 4 40 5 60 6 50 8 70

有如下的两个线性模型:

? 6.5x ? 17.5

;(2)

? ? 7 x ? 17. y

试比较哪一个拟合效果更好。

问题四:若两个变量呈现非线性回归关系,如何解决?(分析例2)

例2:一只红铃虫的产卵数y和温度x有关。现收集了7组观
测数据列于表中: 温度xoC 产卵数y/个 21 7 23 11 25 21 27 24 29 66 32 115 35 325

(1)试建立产卵数y与温度x之间的回归方程;并预测温度为

28oC时产卵数目。
(2)你所建立的模型中温度在多大程度上解释了产卵数的变化?

问题四:若两个变量呈现非线性回归关系,如何解决?(分析例2)

例2:一只红铃虫的产卵数y和温度x有关。现收集了7组观测数
据列于表中,试建立y与x之间的回归方程

温度x 21 产卵数y 7

23 11
350 300

25 21

27 24

29 66

32 115

35 325

解:作散点图;

250

200

产卵数
150 100 50 0 20 22 24 26 28 温度 30 32 34 36

从散点图中可以看出产卵数和温度之间的关系并不能用 线性回归模型来很好地近似。 这些散点更像是集中在一条指数曲线或二次曲线的附近。

问题四:若两个变量呈现非线性回归关系,如何解决?(分析例2)

方 法 一 : 一 元 函 数 模 型

选变量

350 300 250

解:选取气温为解释变量x,产卵数 为预报变量y。

画散点图

200 150

100

选模型

50 0 0 3 6 9 12 15 18 21 24 27 30 33 36 39

估计参数

假设线性回归方程为 :?=bx+a
由计算器得:线性回归方程为y=19.87x-463.73 相关指数R2=r2≈0.8642=0.7464

分析和预测

当 x =28 时, 19.87 28463.73≈ 当 x =28 时, yy == 19.87 ×× 28463.73≈ 93 93
所以,一次函数模型中温度解释了74.64%的产卵数变化。

www.sxpyzx.com

问题四:若两个变量呈现非线性回归关系,如何解决?(分析例2)

思考: 93>66 ? 模型不好?
奇 怪 ?

问题四:若两个变量呈现非线性回归关系,如何解决?(分析例2)

问题1

选用y=c1x2+c2 ,还是y=c1x2+cx+c2 ? 如何求c1、c2?
y= c1 x2+c2 非线性关系 产卵数 变换
令 t=x2

方 法 二 , 二 元 函 数 模 型

问题2

问题3

y= c1 t+c2 线性关系

400 300 200 100

-40

-30

-20

0 -10 0 -100 -200

气 温
10 20 30 40

www.sxpyzx.com

问题四:若两个变量呈现非线性回归关系,如何解决?(分析例2) 平方变换:令t=x2,产卵数y和温度x之间二次函数模型y=bx2+a 就转化为产卵数y和温度的平方t之间线性回归模型y=bt+a
温度 温度的平方t 产卵数y/个 21 441 7 23 529 11 25 625 21 27 729 24 29 841 66 32 1024 115 35 1225 325

作散点图,并由计算器得: y 和 t 之间的线性回归方程为 y=0.367t-202.54,相关指数R2=r2≈0.8962=0.802 将t=x2代入线性回归方程得: y=0.367x2 -202.54 当x=28时,y=0.367×282202.54≈85,且R2=0.802, 所以,二次函数模型中温度解 释了80.2%的产卵数变化。
产卵数y/个 350 300 250 200 150 100 50 0 0 150 300 450 600 750 900 1050 1200 1350

t

www.sxpyzx.com

问题四:若两个变量呈现非线性回归关系,如何解决?(分析例2)
产卵数

方 法 三 : 指 数 函 数 模 型

-10

450 400 350 300 250 200 150 100 50 0 -5 -50 0

气 温

5

10

15

20

25

30

35

40

问题1

如何选取指数函数的底?
非线性关系
两边取对数

问题2

y ? c1ec2 x

变换

y=bx+a 线性关系

问题四:若两个变量呈现非线性回归关系,如何解决?(分析例2)

对数变换:在

ln y ? ln(c3ec4 x ) ? ln c3 ? ln ec4 x ? ln c3 ? c4 x ln e ? c3 x ? ln c4
令 z ? ln y, a ? ln c3 , b ? c4 ,则 就转换为z=bx+a
温度xoC z=lgy 产卵数y/个 21 0.85 7 23 1.04 11 25 1.32 21 27 1.38 24
2.8 2.4 2 1.6 1.2 0.8 0.4 0 0 3 6 9 12 15 18 21 24 27 30 33 36 39

y ? c3ec4 x

中两边取自然对数得

y ? c3ec4 x
29 1.82 66
z

32 2.06 115

35 2.51 325

由计算器得:z关于x的线性回归方程
为z=0.272x-3.849 , y ? e0.272x-3.849 相关指数R2=r2≈0.99252=0.98 当x=28oC 时,y ≈44 ,指数回归 模型中温度解释了98%的产卵数的变 化
www.sxpyzx.com

x

问题四:若两个变量呈现非线性回归关系,如何解决?(分析例2)
400 300

400 300 200 100 0
0 5 10 15 20 25 30 35 40

产卵数

产卵数

200 100 0 -100

450 400 350 300 250

产卵数

-40

-30

-20

-10 0 -100 -200

10

20

30

气 温 40
-10

200 150 100 50 0 -5 -50 0

气 温
5 10 15 20 25 30 35 40

线性模型

二次函数模型

指数函数模型

函数模型

相关指数R2

线性回归模型
二次函数模型 指数函数模型
www.sxpyzx.com

0.7464
0.802 0.98

思考:最好的 模型是哪个?

(1)由上表显而易见,指数函数模型最好!

问题四:若两个变量呈现非线性回归关系,如何解决?(分析例2)

? (1) ? e0.272 x?3.849 , y ? (2) ? 0.367 x2 ? 202.543. (2)另外由计算可得: y
则回归方程的残差计算公式分别为:
(1) (1) 0.272 x ?3.849 ? ? ei ? yi ? yi ? yi ? e , i ? 1, 2,..., 7;

?i(2) ? yi ? y ?i(2) ? yi ? 0.367 x 2 ? 202.543, i ? 1, 2,..., 7. e
x y 21 7 0.557 23 11 -0.101 25 21 1.875 27 24 -8.950 29 66 9.230 32 115 -13.381 35 325 34.675

? (1) e (2) ? e

47.696

19.400

-5.832

-41.000 -40.104 -58.265

77.968

? (1) ? 1550.538, Q ? (2) ? 15448.431. Q
故指数函数模型的拟合效果比二次函数的模拟效果好.

解: 1)用y = c1ec2x 模型; 令 z = lny 则z=bx+a,(a=lnc1,b=c2),列出变换后数据表并画 出x与z 的散点图
x z 21 23 25 27 29 32 35 1.946 2.398 3.045 3.178 4.19 4.745 5.784
z 7 6 5 4 3 2 1 0 0 10 20 30 40

z

x和z之间的关系可以用线性回归模型来拟合 z = ax+b+e

注:应用统计方法解决实际问题需要注意的问题: 对于同样的数据,有不同的统计方法进行分析, 我们要用最有效的方法分析数据。——可以利用直观(散点
图和残差图)、相关指数来确定哪一个模型的拟合效果更好。
如本例中现在有三个不同的回归模型可供选择来拟合红铃虫的产卵数与温度 数据,他们分别是:

y ? ax ? b ? e, y ? c1e
c2 x ? e

,

y ? ?x ? ? ? e.
2

z ? c2 x ? b ? e y ?? t ?? ?e

我们可以利用直观(散点图和残差图)、相关指数来确定哪一个模型的拟 合效果更好。

小结:
1.对于给定的样本点

( x1 , y1 ),( x2 , y2 ),...,( xn , yn ), (1) (2) y ? f ( x , a ) 和 y ? g ( x, b), 两个含有未知参数的模型:

其中a和b都是未知参数。用残差法对拟合效果比较的步骤为:
(1) ? ?) y ? f ( x, a (1)分别建立对应于两个模型的回归方程

? 与y

(2)

?), ? g ( x, b

其中

? 分别是参数a和b的估计值; ?和b a

(2)分别计算两个回归方程的残差平方和 (3)对两个回归方程的残差平方和比大小,残差平方和越

小的拟合效果越好,残差平方和越大的拟合效果越差。

注:当回归方程不是形如y=bx+a时,我们称之为非线性回归方程.

小结:
2.在散点图中,若样本点没有分布在某个带状区域内,则两个变量不呈现线
性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系.所 以需要设非线性回归方程,进而通过一系列转化,将其转化为线性回归模型 区解决。用线性回归模型解决非线性相关问题思路:

(1)对数型非线性模型通过两边取对数可以转化为线性模型。 (2)二次函数型非线性模型通过两边设元法可以转化为线性模型。

如本例中,根据已有的函数知识,可以发现样本点分布在某一条 指数函数曲线y ? c e c2 x 的周围,其中c1和c2是待定参数. 1 令z=lny,则变换后样本点应该分布在直线z=bx+a(a=lnc1,b=c2) 的周围. 进而利用线性回归模型建立了y和x之间的非线性回归方程.

例1

在一段时间内,某中商品的价格x元和需求量Y件之 间的一组数据为:

价格x

14

16

18

20

22

需求量Y

12
5

10

7
5

5
5

3

求出Y对的回归直线方程,并说明拟合效果的好坏。

解: x ? 18, y ? 7.4,
5 i i

2 2 x ? 1660, y ?i ? i ? 327, ? xi yi ? 620, i ?1 i ?1 i ?1

?? ?b

? x y ? 5x y
i ?1 5

?x
i ?1

2 i

? 5x

2

620 ? 5 ?18 ? 7.4 ? ? ?1.15. 2 1660 ? 5 ?18

? ? 7.4 ? 1.15 ?18 ? 28.1. ?a

? ? ?1.15x ? 28.1. ?回归直线方程为:y

例1

在一段时间内,某中商品的价格x元和需求量Y件之 间的一组数据为:

价格x

14

16

18

20

22

需求量Y

12

10

7

5

3

求出Y对的回归直线方程,并说明拟合效果的好坏。 解:列出残差表为

?i yi ? y
yi ? y
5 i ?1

0 4.6
5

0.3 2.6
5 i ?1

-0.4 -0.4

-0.1 -2.4

0.2 -4.4

?i ) 2 ? 0.3, ? ? ( yi ? y

2 ( y ? y ) ? 53.2, ? i

R2 ? 1 ?

2 ? ( y ? y ) ? i i 2 ( y ? y ) ? i i ?1 i ?1 5

?

0.994

因而,拟合效果较好。

练习

假设关于某设备的使用年限x和所支出的维修费用 y(万 元),有如下的统计资料。
使用年限x 维修费用y 2 2.2 3 3.8 4 5.5 5 6.5 6 7.0

若由资料知,y对x呈线性相关关系。试求: (1)线性回归方程

? ?a ? ? bx ? y

的回归系数

?; ?、b a

(2)求残差平方和;
(3)求相关系数

R;

2

(4)估计使用年限为10年时,维修费用是多少?

解: (1)由已知数据制成表格。

i
xi yi xi yi
xi2

1 2 2.2 4.4 4

2 3 3.8 11.4 9
5

3 4 5.5 22.0 16
5

4 5 6.5 32.5 25

5 6 7.0 42.0 36

合计 20 25 112.3 90

2 x x ? 4; y ? 5; ? i ? 90; ? xi yi ? 112.3. i ?1 i ?1

? ? 1.23, a 所以有 b ? ? 0.08.

? ? 1.23x ? 0.08. ?y

回 归 分 析 基 本 思 想 及 其 初 步 应 用

基本思想

回归分析

相关性方法分析 实际应用 回归优劣分析

总偏差平方和 残差平方和 回归平方和

一.什么是回归分析?(内容)
1. 2. 3. 从一组样本数据出发,确定变量之间的数学关系式 对这些关系式的可信程度进行各种统计检验,并从影响某一特定变 量的诸多变量中找出哪些变量的影响显著,哪些不显著 利用所求的关系式,根据一个或几个变量的取值来预测或控制另一 个特定变量的取值,并给出这种预测或控制的精确程度

二.回归分析与相关分析的区别
1. 2. 相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称 为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变 化 相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变 量 相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不 仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测 和控制

3.

什么是回归分析:
“回归”一词是由英国生物学家F.Galton在研究人体身高的遗传问题时首先提出的。 根据遗传学的观点,子辈的身高受父辈影响,以X记父辈身高,Y记子辈身高。 虽然子辈身高一般受父辈影响,但同样身高的父亲,其子身高并不一致,因此, X和Y之间存在一种相关关系。 一般而言,父辈身高者,其子辈身高也高,依此推论,祖祖辈辈遗传下来,身 高必然向两极分化,而事实上并非如此,显然有一种力量将身高拉向中心,即子辈 的身高有向中心回归的特点。“回归”一词即源于此。

虽然这种向中心回归的现象只是特定领域里的结论,并不具有普遍性,但从它 所描述的关于X为自变量,Y为不确定的因变量这种变量间的关系看,和我们现在的 回归含义是相同的。
不过,现代回归分析虽然沿用了“回归”一词,但内容已有很大变化,它是一种应用 于许多领域的广泛的分析研究方法,在经济理论研究和实证研究中也发挥着重要作用。

回归分析的内容与步骤:
回归分析通过一个变量或一些变量的变化解释另一变量的变化。
其主要内容和步骤是,
1.首先根据理论和对问题的分析判断,将变量分为自变量和因变量; 2.其次,设法找出合适的数学方程式(即回归模型)描述变量间的关系;
3.由于涉及到的变量具有不确定性,接着还要对回归模型进行统计检验; 4.统计检验通过后,最后是利用回归模型,根据自变量去估计、预测因变量。


...3教案 3.1回归分析的基本思想及其初步应用

2014年人教A版选修2-3教案 3.1回归分析的基本思想及其初步应用_数学_高中教育_...第三章、统计案例 3.1 回归分析的基本思想及其初步应用(共计 4 课时) 授课...

...数学选修2-3 3.1回归分析的基本思想及其初步应用

2016新课标创新人教A版数学选修2-3 3.1回归分析的基本思想及其初步应用_高三数学_数学_高中教育_教育专区。2016新课标创新人教A版数学选修2-3 3.1回归分析的基本...

...练习:3.1 回归分析的基本思想及其初步应用

2016-2017学年高中数学人教A版选修2-3练习:3.1 回归分析的基本思想及其初步应用_数学_高中教育_教育专区。学业分层测评 (建议用时:45 分钟) [学业达标] 一、...

...课时训练:3.1 回归分析的基本思想及其初步应用

高中数学人教A版选修2-3 课时训练:3.1 回归分析的基本思想及其初步应用_数学_高中教育_教育专区。高中数学人教A版选修2-3 课时训练 ...

...A教案导学案3.1.1回归分析的基本思想及其初步应用

高中数学选修2-3人教A教案导学案3.1.1回归分析的基本思想及其初步应用_数学_高中教育_教育专区。3. 1.1 回归分析的基本思想及其初步应用 【教学目标】1.了解回归...

...3导学案:3.1回归分析的基本思想及其初步应用

2015-2016学年高二人教A版数学选修2-3导学案:3.1回归分析的基本思想及其初步应用_高二数学_数学_高中教育_教育专区。31 回归分析的基本思想及其初步应用 3.1.1 ...

...选修2-3-教案:回归分析的基本思想及其初步应用知识...

人教A版高中数学-选修2-3-教案:回归分析的基本思想及其初步应用知识梳理_数学...4761 99941 3.1 文档数 浏览总量 总评分 相关文档推荐 暂无相关推荐文档 ©...

...年高中数学 3.1 回归分析的基本思想及其初步应用课...

2013-2014学年高中数学 3.1 回归分析的基本思想及其初步应用课后知能检测 新人教A版选修2-3_数学_高中教育_教育专区。【课堂新坐标】 (教师用书)2013-2014 学年...

...3教学设计:3.1回归分析的基本思想及其初步应用

高中数学(人教版)选修2-3教学设计:3.1回归分析的基本思想及其初步应用_数学_高中教育_教育专区。高中数学(人教版)选修2-3教学设计 ...

...学年高中数学 3.1回归分析的基本思想及其初步应用课...

2015-2016学年高中数学 3.1回归分析的基本思想及其初步应用课时作业 新人教A版选修2-3_数学_高中教育_教育专区。2015-2016 学年高中数学 3.1 回归分析的基本思想...