第八讲 MINITAB在次数资料测验中的应用
董占山
(中国农科院棉花所,河南安阳,455112)
本讲首先介绍几个与次数资料测验有关的MINITAB命令,然后介绍用MINITAB对次数资料进行适合性测验、齐性测验、独立性测验的具体方法。
一、命令介绍
(一)卡平方测验命令
用法:CHISQUARE C,...,C
功能:用 测验给定 表中的次数数据是否相互独立。
说明:在CHISQUARE命令中最多可以有七列数据。
(二)统计分布命令
1 概率密度函数PDF
用法:PDF E [E]
子命令:BETA,EXPONENTIAL,LOGNORMAL,F,NORMAL,BINOMIAL,GAMMA,POISSON,CAUCHY,INTEGERS,T,CHISQUARE,LAPLACE,UNIFORM,DISCRETE,LOGISTIC,WEIBULL。
功能:给出特定观测值(第一个E)的各种分布的概率密度函数值(第二个E,可以省略;若省略,结果将显示在屏幕上)。分布类型由子命令给出。
2 累积分布函数命令CDF
用法:CDF E [E]
子命令:与PDF相同。
功能:计算给定观测值(第一个E)的累积分布函数值(第二个E)。
说明:事实上,我们经常使用的不是某一给定值的累积分布函数值,而是这个取值的显著性概率值,那么它与累积分布函数之间有何关系呢?下面给出常用概率分布中二者之间的关系:
(1)正态分布:两尾测验的概率 ;一尾测验的概率 。
(2)t分布:两尾测验的概率 ;一尾测验的概率 。
(3) 分布: 。
(4)F分布: 。
根据上述公式,当用CDF命令计算出某一观察值的累积分布函数值F(x)时,根据实际情况,可以方便地计算出一尾或两尾显著性概率值。
3 逆累积分布函数命令INVCDF
用法:INVCDF E [E]
子命令:与PDF相同。
功能:计算某一统计分布的特定概率值(第一个E)的观察值(第二个E,即一般统计学书籍上给出的各种统计分布的临界值表上的数据)。
二、次数资料的适合性测验
适合性测验(test of goodness of fit)是测验观测的实际次数和根据某种理论或需要预期的理论次数是否相符。所作的假设是H0:相符;HA:不相符。下面分两种情况,以实例介绍用MINITAB进行分析的方法。
(一)K=2时的适合性测验
〖例1〗以红花豌豆和白花豌豆杂交,在F2得929个植株,其中红花705株(O1),白花224株(O2),问此结果是否符合遗传学上红:白=3:1的理论预期?
1 MINITAB程序
# Example 8-1
SET C1
705 224
END
SET C2
3 1
END
LET C3=SUM(C1)*C2/SUM(C2) # THEORITICAL VALUE
LET C4=ABS(C1-C3)-0.5
LET C5=C4**2/C3
LET K1=SUM(C5) # CHISQUARE VALUE
PRINT K1
LET K2=N(C1) - 1
CDF K1 K3;
CHIS K2.
LET K3=1-K3
PRINT K3 # P VALUE
# END
2 MINITAB计算结果
K1 0.344815
K3 0.5571
结果表明:实得 值为0.3448,P{ >0.3448,df=1}=0.5571>0.05,因此,推断样本结果符合理论比率3:1。
(二)K≥3时的适合性测验
〖例2〗为了研究两对相对性状的遗传规律,孟得尔以豌豆为材料,选用一个亲本为黄色子叶、圆粒的豌豆与另一亲本为绿色子叶、皱粒的豌豆杂交,杂交F2代得结果于表8-1。试测验F2的四种表现型是否符合9:3:3:1的分离比例。
表8-1 F2代豌豆四种表现型的株数
表现型 |
株数 |
黄色圆粒 |
315 |
黄色皱粒 |
106 |
绿色圆粒 |
101 |
绿色皱粒 |
32 |
1 MINITAB程序
# Example 8-2
SET C1
315 108 101 32
END
SET C2
9 3 3 1
END
LET C3=SUM(C1)*C2/SUM(C2) # THEORITICAL VALUE
LET C4=ABS(C1-C3)
LET C5=C4**2/C3
LET K1=SUM(C5) # CHISQUARE VALUE
PRINT K1
LET K2=N(C1) - 1
CDF K1 K3;
CHIS K2.
LET K3=1-K3
PRINT K3
# END
2 MINITAB计算结果
K1 0.470024
K3 0.9254
结果表明:实得 值为0.47,P{ >0.47,df=3}=0.9254,因此,应当接受样本结果符合理论比率9:3:3:1。
三、次数资料的齐性测验
齐性测验(test of homogeneity)是测验两个或两个以上样本的观察次数比率是否来自具有某一共同的理论比率的总体。来自同一理论比率总体的样本称为齐性样本。所作的假设为H0:各样本为齐性;HA:各样本非齐性。
〖例3〗根据遗传学原理,玉米的白化苗系由一对隐性基因控制,若某玉米植株为白化杂合体,则在自交一代出现绿苗:白苗的理论期望是3:1。现观察四个玉米自交穗行,得绿苗和白苗的植株数于表8-2。问这些样本是齐性的吗?
表8-2
四个玉米自交穗行的绿苗数、白苗数
品系 |
绿苗数(O1) |
白苗数(O2) |
野鸡红A |
38 |
10 |
野鸡红B |
26 |
10 |
六月仙 |
36 |
11 |
铁岭黄 |
34 |
9 |
1 MINITAB程序
# EXAMPLE 8-3
SET C1 # O1
38 26 36 34
END
SET C2 # O2
10 10 11 9
END
LET C3=(C1-3*C2)**2/3/(C1+C2) # CHISQUARES OF EACH EXAMPLE
SUM C1 K1
SUM C2 K2
LET K3 = (K1-3*K2)**2/3/(K1+K2) # CHISQUARE OF TOTAL NUMBER
LET K4=SUM(C3)-K3 # CHIS OF SAMPLES FOR TEST OF HOMOGENEITY
PRINT K4
CDF K4 K5;
CHIS 3.
LET K5=1-K5 # THE PROBABILITY OF CHISQUARE K4
PRINT K5
# END
2 MINITAB计算结果
K4 0.660788
K5 0.882386
结果表明:当 =0.6608时,P{ >0.6608,df=3}=0.882>0.05,可以推断上述4个样本是齐性的,也就是说4个玉米自交系的绿苗和白苗的比率都符合3:1的理论比率。
四、次数资料的独立性检验
独立性测验(test of independence)是测验两个因素的列联次数是否彼此独立,还是相互关联。所谓独立,是指两个因素没有相关,或者说任一行(列)的次数比率都是齐性的;所谓关联,是指两个因素存在相互作用,或者说各行(列)的次数比率是非齐性的。所作的假设为H0:独立;HA:关联。
(一) 表的独立性测验
〖例4〗调查棉花种子经过1%呋喃丹+0.5%多菌灵处理(作种衣)与未经过种子处理的棉花苗期发病株数,列于表8-3,试分析种子发病与否与苗期发病株数多少是否有关。
表8-3 棉花苗期发病株数与未发病株数表
| |
种子处理 |
种子未处理 |
发病株数 |
106 |
195 |
未发病株数 |
94 |
105 |
1 MINITAB程序
# Example 8-4
SET C1
106 94
END
SET C2
195 105
END
CHIS C1 C2
CDF 7.212 K1;
CHIS 1.
LET K1=1-K1
PRINT K1
# END
2 MINITAB计算结果
EXPECTED COUNTS ARE PRINTED BELOW OBSERVED COUNTS
C1 C2 TOTAL
1 106 195 301
120.40 180.60
2 94 105 199
79.60 119.40
TOTAL 200 300 500
CHISQ = 1.722 + 1.148 +2.605 + 1.737 = 7.212
DF = 1
K1 0.0072
结果表明:由于P{ >7.212,df=1}=0.0072<0.01,所以可以推断种子处理与否与苗期发病株数多少是显著相关的,也就是说种子处理能够显著降低苗期发病株数。
(二) 表的独立性测验
〖例5〗测定不同密度下玉米每株穗数的分布,得结果于表8-4,试测验穗数分布是否和密度大小有关。
表8-4 不同密度下玉米每株穗数的分布
密度(千株/亩) |
空杆株 |
一穗株 |
双穗和三穗株 |
2 |
12 |
224 |
76 |
4 |
60 |
548 |
39 |
6 |
246 |
659 |
28 |
8 |
416 |
765 |
47 |
1 MINITAB程序
# Example 8-5
SET C1
12 60 246 416
END
SET C2
224 548 659 765
END
SET C3
76 39 28 47
END
CHIS C1-C3
CDF 392.633 K1;
CHIS 6.
LET K1=1-K1
PRINT K1
#END
2 MINITAB计算结果
EXPECTED COUNTS ARE PRINTED BELOW OBSERVED COUNTS
C1 C2 C3 TOTAL
1 12 224 76 312
73.40 219.60 19.00
2 60 548 39 647
152.21 455.39 39.40
3 246 659 28 933
219.49 656.69 56.82
4 416 765 47 1228
288.89 864.32 74.78
TOTAL 734 2196 190 3120
CHISQ = 51.362 + 0.088 +171.000 +
55.862 + 18.834 + 0.004 +
3.201 + 0.008 + 14.616 +
55.922 + 11.414 + 10.321 = 392.633
DF = 6
结果表明:由于P{ >392.633,df=6}=0.0<0.01,可以推断穗数分布与密度大小之间极显著相关。
©董占山Zhanshan Dong
|