(共91张PPT)
4.3.2
第四章
<<<
独立性检验
1.了解2×2列联表、随机变量χ2的意义.
2.理解独立性检验中P(χ2≥k)的具体含义.
3.掌握独立性检验的方法和步骤,并能解决实际问题.
学习目标
有关医学研究表明,心脏病、癌症、脑血管病、慢性阻塞性肺病等多种疾病都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手.为此,世界卫生组织规定每年5月31日为世界无烟日.那么这些疾病与吸烟有怎样的关系呢?
导 语
一、列联表
二、独立性检验
课时对点练
三、独立性检验的综合应用
随堂演练
内容索引
列联表
一
1.2×2列联表:如果随机事件A与B的样本数据如表形式:
A 总计
B a b a+b
c d c+d
总计 a+c b+d a+b+c+d
在这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为2×2列联表.
2.2×2列联表中随机事件的概率:
如上表,记n=a+b+c+d,则
(1)事件A发生的概率可估计为P(A)= ;
(2)事件B发生的概率可估计为P(B)= ;
(3)事件AB发生的概率可估计为P(AB)= .
“一本书,一碗面,一条河,一座桥”曾是兰州的城市名片,而现在“兰州马拉松”又成为了兰州的另一张名片,随着全民运动健康意识的提高,马拉松运动不仅在兰州,而且在全国各大城市逐渐兴起,参与马拉松训练与比赛的人口逐年增加.为此,某市对人们参加马拉松运动的情况进行了统计调查.其中一项调查是调查人员从参与马拉松运动的人中随机抽取200人,对其每周参与马拉松长跑训练的天数进行统计,得到如下统计表:
例 1
平均每周进行长 跑训练的天数 不大于 2天 3天 或4天 不少于
5天
人数 30 130 40
若某人平均每周进行长跑训练天数不少于5天,则称其为“热烈参与者”,否则称其为“非热烈参与者”.
(1)经调查,该市约有2万人参与马拉松运动,试估计其中“热烈参与者”的人数;
以200人中“热烈参与者”的频率作为概率,
可得该市“热烈参与者”的人数约为20 000×=4 000.
(2)根据表中的数据,填写下列2×2列联表.
热烈参与者 非热烈参与者 总计
男 140
女 55
总计
由题意可得2×2列联表如下:
热烈参与者 非热烈参与者 总计
男 35 105 140
女 5 55 60
总计 40 160 200
(1)作2×2列联表时,注意应该是4行4列,计算时要准确无误.
(2)作2×2列联表时,关键是对涉及的变量分清类别.
反
思
感
悟
列2×2列联表的注意点
在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人的饮食以蔬菜为主,另外33人则以肉类为主.
(1)请根据以上数据作出饮食习惯与年龄的列联表;
跟踪训练 1
饮食习惯与年龄的2×2列联表如下:
年龄在六十 岁以上 年龄在六十 岁以下 总计
饮食以蔬菜为主 43 21 64
饮食以肉类为主 27 33 60
总计 70 54 124
(2)求年龄在六十岁以上且饮食以肉类为主的人群的概率.
由列联表得,年龄在六十岁以上且饮食以肉类为主的人群的概率为.
二
独立性检验
1.定义:在2×2列联表中,定义随机变量
χ2=,任意给定一个α(称为显著性水平),可以找到满
足条件P(χ2≥k)=α的数k(称为显著性水平α对应的分位数),
(1)若χ2≥k成立,就称在犯错误的概率 的前提下,可以认为A与B不独立(也称为A与B有关),或说有 的把握认为A与B有关;
(2)若χ2
不超过α
1-α
2.统计学中,常用的显著性水平α以及对应的分位数k如下表所示.
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
给出下列实际问题:
①一种药物对某种病的治愈率;②两种药物治疗同一种病是否有区别;③吸烟者得肺病的概率;④吸烟是否与性别有关系;⑤网吧与青少年的犯罪是否有关系.其中用独立性检验可以解决的问题有
A.①②③ B.②④⑤
C.②③④⑤ D.①②③④⑤
例 2
√
独立性检验是判断两个分类变量是否有关系的方法,而①③都是概率问题,不能用独立性检验解决.
反
思
感
悟
独立性检验是对两个分类变量的相关性的检验,具有一定的随机性,独立性检验确认两个变量的相关程度.
在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是
A.若χ2的值为6.635,则在犯错误的概率不超过0.01的前提下认为吸烟与
患肺癌有关系,那么在100个吸烟的人中必有99人患肺癌
B.若由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟
与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌
C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患
肺癌有关系,是指有1%的可能性使得判断出现错误
D.以上三种说法都不正确
跟踪训练 2
√
若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1% 的可能性使得判断出现错误,并不是说某人吸烟,那么他有99%的可能患有肺癌,更不是在100个吸烟的人中必有99人患有肺癌.
独立性检验的综合应用
三
某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间(单位:时)的样本数据.
(1)应收集多少位女生的样本数据?
例 3
由分层抽样可得300×=90,所以应收集90位女生的样本数据.
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图).其中样本数据的分组区间为[0,2),[2,4),[4,6),[6,8),[8,10),[10,12].估计该校学生每周平均体育运动时间不低于4小时的概率;
附:
α=P(χ2≥k) 0.1 0.05 0.01 0.005
k 2.706 3.841 6.635 7.879
χ2=.
由频率分布直方图得学生每周平均体育运动时间不低于4小时的频率为1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间不低于4小时的概率的估计值为0.75.
(3)在样本数据中,有60位女生的每周平均体育运动时间不低于4小时,请作出每周平均体育运动时间与性别的列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
附:
α=P(χ2≥k) 0.1 0.05 0.01 0.005
k 2.706 3.841 6.635 7.879
χ2=.
由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间不低于4小时,75人的每周平均体育运动时间低于4小时.样本数据中有210份是关于男生的,90份是关于女生的,可得每周平均体育运动时间与性别的列联表如下:
男生 女生 总计
每周平均体育运动时间低于4小时 45 30 75
每周平均体育运动时间不低于4小时 165 60 225
总计 210 90 300
结合列联表可得
χ2=≈4.762>3.841.
所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
反
思
感
悟
(1)χ2计算公式较复杂,一是公式要清楚;二是代入数值时不能张冠李戴;三是计算时要细心.
(2)判断时把计算结果与临界值比较,其值越大,有关的可信度越高.
独立性检验的应用需要注意的问题
某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
(1)根据以上数据建立一个2×2列联表;
跟踪训练 3
2×2列联表如表所示.
赞同 不赞同 总计
老教师 10 10 20
青年教师 24 6 30
总计 34 16 50
(2)判断是否有99%的把握认为对新课程教学模式的赞同情况与教师年龄有关系.
附:
α=P(χ2≥k) 0.1 0.05 0.01 0.005
k 2.706 3.841 6.635 7.879
由公式得χ2=≈4.963<6.635,所以没有99%的把握认为
对新课程教学模式的赞同情况与教师年龄有关.
1.知识清单:
(1)列联表.
(2)χ2公式及计算.
(3)独立性检验的理解及应用.
2.方法归纳:公式法.
3.常见误区:对独立性检验的原理不理解,导致不会用χ2分析问题.
随堂演练
四
1.若由一个2×2列联表中的数据计算得χ2=4.013,则有 的把握认为两个变量有关系
∵由2×2列联表中的数据计算得χ2=4.013,且4.013>3.841,
∴有95%的把握认为这两个变量有关系.
1
2
3
4
A.95% B.97.5% C.99% D.99.9%
√
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
2.为了调查中学生近视情况,某校150名男生中有80名近视,140名女生中有70名近视,在检验这些中学生眼睛近视是否与性别有关时,用什么方法最有说服力
A.平均数 B.方差
C.回归分析 D.独立性检验
√
1
2
3
4
分析已知条件,得如下2×2列联表.
1
2
3
4
男生 女生 总计
近视 80 70 150
不近视 70 70 140
总计 150 140 290
根据列联表利用公式可得χ2的值,
再与临界值比较,检验这些中学生眼睛近视是否与性别有关,
故利用独立性检验的方法最有说服力.
3.在独立性检验中,假设变量X与变量Y没有关系,则在上述假设成立的情况下,估算概率P(χ2≥6.635)≈0.01表示的意义是
A.有1%的把握认为变量X与变量Y有关系
B.有99.9%的把握认为变量X与变量Y没有关系
C.有99%的把握认为变量X与变量Y没有关系
D.有99%的把握认为变量X与变量Y有关系
1
2
3
4
√
若估算概率P(χ2≥6.635)≈0.01,则犯错误的概率不超过1%,即有99%的把握认为变量X与变量Y有关系.
4.为研究某新药的疗效,给100名患者服用此药,跟踪调查后得下表中的数据:
1
2
3
4
无效 有效 总计
男性患者 15 35 50
女性患者 6 44 50
总计 21 79 100
则统计量χ2≈ (小数点后保留3位有效数字),从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为 .
4.882
5%
由公式计算得统计量χ2≈4.882,
∵χ2>3.841,
∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性判断出错.
1
2
3
4
课时对点练
五
1.下面是一个2×2列联表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
基础巩固
则表中a,b处的值分别为
A.74,38 B.52,10 C.52,8 D.8,52
√
Y 总计
X a 11 63
b 15 23
总计 60 26 86
∵a+11=63,b+15=23,∴a=52,b=8.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
2.随机调查某校110名学生是否喜欢跳舞,由公式χ2=
(其中n=a+b+c+d)计算出χ2的值,并由此得出结论:有99%的把握认为学生是否喜欢跳舞与性别有关,则χ2可以为
因为有99%的把握认为学生是否喜欢跳舞与性别有关,所以χ2≥6.635.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
A.3.565 B.4.204 C.5.233 D.6.842
√
α=P(χ2≥k) 0.1 0.05 0.01 0.005
k 2.706 3.841 6.635 7.879
3.(多选)下列说法正确的是
A.事件A与B独立,即两个事件互不影响
B.事件A与B关系越密切,则χ2就越大
C.χ2的大小是判定事件A与B是否相关的唯一根据
D.若判定两事件A与B相关,则A发生B一定发生
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
√
由事件的独立性知,A选项正确;
由独立性检验的意义知,B选项正确;
χ2的大小是判定事件A与B是否相关的一种方法,不是唯一依据,C选项不正确;
若事件A与B相关,则A发生B可能发生,也可能不发生,D选项不正确.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
4.有两个分类变量X与Y的一组数据,由其列联表计算得χ2≈4.523,则认为“X与Y有关系”犯错误的概率不超过
A.95% B.90% C.5% D.10%
由题意知χ2≈4.523,又因为查表可得P(χ2≥3.841)=0.05,而χ2≈4.523>
3.841.
所以判定“X与Y有关系”犯错误的可能性不超过0.05,即认为“X与Y有关系”犯错误的概率不超过5%.
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
5.某厂家为了解顾客对改进后产品的满意度,随机调查了相同数量的男、
女顾客,经统计有的男顾客“不满意”,有的女顾客“不满意”,若有
99%的把握认为对产品是否满意与性别有关,则调查的总人数的最小值为
参考公式:χ2=,其中n=a+b+c+d.
附表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
A.150 B.144 C.180 D.168
√
依题意,设男、女顾客的人数各为12x.
建立2×2列联表如表所示:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
满意 不满意 总计
男生 10x 2x 12x
女生 8x 4x 12x
总计 18x 6x 24x
χ2==,
由题意可知≥6.635,
所以24x≥179.145.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
6.(多选)根据下面的列联表得到如下四个判断:
嗜酒 不嗜酒 总计
患肝病 700 60 760
未患肝病 200 32 232
总计 900 92 992
其中正确的是
A.有95%的把握认为“患肝病与嗜酒有关”
B.有99%的把握认为“患肝病与嗜酒有关”
C.在犯错误的概率不超过0.01的前提下认为“患肝病与嗜酒有关”
D.在犯错误的概率不超过0.01的前提下认为“患肝病与嗜酒无关”
√
√
由列联表中数据可求得χ2=≈7.349>6.635,
所以在犯错误的概率不超过0.01的前提下,认为“患肝病与嗜酒有关系”,
即有99%的把握认为“患肝病与嗜酒有关系”.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
7.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算χ2=7.63,根据这一数据分析,有 的把握说明打鼾与患心脏病是 的.
(填“有关”或“无关”)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
99%
有关
∵χ2=7.63,∴χ2>6.635,
因此,有99%的把握说明打鼾与患心脏病是有关的.
8.某高校《统计初步》课程的教师随机调查了一些学生,具体数据如下表所示,为了判断选修统计专业是否与性别有关系,根据表中数据,得到χ2=≈4.844,因为4.844>3.841.所以选修统计专业与性别有关系,那么这种判断犯错误的概率不超过 .
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
未选修统计专业 选修统计专业 总计
男 13 10 23
女 7 20 27
总计 20 30 50
5%
由题意知χ2≈4.844,又P(χ2≥3.841)=0.05,由于4.844>3.841,
所以判定选修统计专业与性别有关系犯错误的概率不超过5%.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
未选修统计专业 选修统计专业 总计
男 13 10 23
女 7 20 27
总计 20 30 50
9.(2024·全国甲卷)某工厂进行生产线智能化升级改造.升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1)填写如下列联表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
优级品 非优级品
甲车间
乙车间
能否有95%的把握认为甲、乙两车间产品的优级品率存在差异 能否有99%的把握认为甲、乙两车间产品的优级品率存在差异
附:χ2=.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
α=P(χ2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
根据题意可得列联表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
优级品 非优级品
甲车间 26 24
乙车间 70 30
可得χ2===4.687 5,
因为3.841<4.687 5<6.635,
所以有95%的把握认为甲、乙两车间产品的优级品率存在差异,没有99%的把握认为甲、乙两车间产品的优级品率存在差异.
(2)已知升级改造前该工厂产品的优级品率p=0.5.设为升级改造后抽取的n件产品的优级品率.如果>p+1.65,则认为该工厂产品的优级品率提高了.根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了 (≈12.247)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
附:χ2=.
α=P(χ2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
由题意可知,生产线智能化升级改造后,该工厂产品的优级品的频
率为=0.64,
用频率估计概率可得=0.64,
又因为升级改造前该工厂产品的优级品率p=0.5,
则p+1.65=0.5+1.65
≈0.5+1.65×≈0.567,
可知>p+1.65,
所以可以认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
10.为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
性别 打篮球 总计
喜爱 不喜爱
男生 6
女生 10
总计 48
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为.
(1)请将上面的2×2列联表补充完整(不用写计算过程);
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
列联表补充如下.
性别 打篮球 总计
喜爱 不喜爱
男生 22 6 28
女生 10 10 20
总计 32 16 48
(2)能否有95%的把握认为喜爱打篮球与性别有关?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
由χ2=≈4.286>3.841,所以有95%的把握认为喜爱打篮球与
性别有关.
(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X,求X的分布列与均值.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
喜爱打篮球的女生人数X的可能取值为0,1,2.
其概率分别为P(X=0)==,
P(X=1)==,P(X=2)==,
故X的分布列为
X的均值为E(X)=0++=1.
X 0 1 2
P
11.下列关于回归分析与独立性检验的说法正确的是
A.回归分析和独立性检验没有什么区别
B.回归分析是对两个变量准确关系的分析,而独立性检验是分析两个变
量之间的不确定性关系
C.回归分析研究两个变量之间的相关关系,独立性检验是对两个变量是
否具有某种关系的一种检验
D.独立性检验可以100%确定两个变量之间是否具有某种关系
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
综合运用
回归分析是对两个变量之间的相关关系的一种分析,而相关关系是一种不确定关系,通过回归分析可以确定两个变量之间是否具有相关关系.
而独立性检验是对两个变量之间是否具有某种关系的分析,并且可以分析这两个变量在多大程度上具有这种关系,但不能100%肯定这种关系.故ABD错误,C正确.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
12.(多选)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,随机观察了他所在地区的100天的日落情况和后半夜天气,得到如下2×2列联表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
后半夜下雨 后半夜未下雨 总计
出现“日落云里走” 25 5 30
未出现“日落云里走” 25 45 70
总计 50 50 100
并计算得到χ2≈19.05,下列小波对该地区天气的判断中正确的是
A.后半夜下雨的概率约为
B.未出现“日落云里走”时,后半夜下雨的概率约为
C.在犯错误的概率不超过0.1%的前提下,可以认为“日落云里走”与
“后半夜下雨”有关
D.根据α=0.001的独立性检验,若出现“日落云里走”,则后半夜有
99.9%的可能会下雨
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
√
由题意,把频率看作概率,可得后半夜下雨的概率约为=,故A判断正确;
未出现“日落云里走”时,后半夜下雨的概率约为=,故B判断错误;
由χ2≈19.05>10.828,所以在犯错误的概率不超过0.1%的前提下,认为“日落云里走”与“后半夜下雨”有关,故C判断正确,D判断错误.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
13.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出500件,测量其内径尺寸,得结果如下表:
甲厂:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
分组 [29.86, 29.90) [29.90, 29.94) [29.94, 29.98) [29.98, 30.02) [30.02, 30.06) [30.06, 30.10) [30.10,
30.14)
频数 12 63 86 182 92 61 4
乙厂:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
分组 [29.86, 29.90) [29.90, 29.94) [29.94, 29.98) [29.98, 30.02) [30.02, 30.06) [30.06, 30.10) [30.10,
30.14)
频数 29 71 85 159 76 62 18
(1)两个分厂生产的零件的优质品率分别为 ;
72%,64%
甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率
估计为=72%;
乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率
估计为=64%.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
(2)有 的把握认为“两个分厂生产的零件的质量有差异”.
99%
根据所得数据制成如下列联表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
甲厂 乙厂 总计
优质品 360 320 680
非优质品 140 180 320
总计 500 500 1 000
χ2=≈7.353>6.635,
所以有99%的把握认为“两个分厂生产的零件的质量有差异”.
14.世界杯期间,某电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
年龄 西班牙队 总计
不喜欢 喜欢
高于40岁 p q 50
不高于40岁 15 35 50
总计 a b 100
若工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为,则有 的把握认为年龄与是否喜欢西班牙队有关.
附:χ2=.
临界值表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
95%
设“从所有人中任意抽取一人,取到喜欢西班牙队的人”为事件A,
由已知得P(A)==,
所以q=25,p=25,a=40,b=60.
χ2==≈4.167>3.841.
故有95%的把握认为年龄与是否喜欢西班牙队有关.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
拓广探究
15.针对时下的“短视频热”,某高校团委对学生喜欢短视频和性别是否有关联进行了一次调查,其中被调查的男生、女生人数均为5m(m∈N+)人,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.若在犯错误的概率不超过5%的前提下,认为喜欢短视频和性别有关,则m的最小值为
附:χ2=,其中n=a+b+c+d.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
附表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
A.7 B.8
C.9 D.10
√
根据题意列出2×2列联表如表所示:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
男生 女生 总计
喜欢短视频 4m 3m 7m
不喜欢短视频 m 2m 3m
总计 5m 5m 10m
χ2==,
由于在犯错误的概率不超过5%的前提下,认为喜欢短视频和性别有关,
则χ2≥3.841,
即≥3.841,
得m≥8.066 1,
∵m∈N+,∴m的最小值为9.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
16.“中国式过马路”存在很大的交通安全隐患.某调查机构为了解路人对“中国式过马路”的态度是否与性别有关,从马路旁随机抽取30名路人进行了问卷调查,得到了如下列联表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
已知在这30人中随机抽取1人抽到反感“中国式过马路”的路人的概率是.
男性 女性 总计
反感 10
不反感 8
总计 30
(1)请将上面的列联表补充完整(直接写结果,不需要写求解过程),并据此资料分析,是否有90%的把握认为反感“中国式过马路”与性别有关?
附:χ2=.
临界值表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
列联表补充如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
男性 女性 总计
反感 10 6 16
不反感 6 8 14
总计 16 14 30
由已知数据得χ2=
≈1.158<2.706.
所以没有90%的把握认为反感“中国式过马路”与性别有关.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
(2)若从这30人中的女性路人中随机抽取2人参加一活动,记反感“中国式过马路”的人数为X,求X的分布列和均值.
附:χ2=.
临界值表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
X的可能取值为0,1,2,P(X=0)==,
P(X=1)==,P(X=2)==.
所以X的分布列为
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
X 0 1 2
P
X的均值为E(X)=0×+1×+2×=.4.3.2 独立性检验
[学习目标] 1.了解2×2列联表、随机变量χ2的意义.2.理解独立性检验中P(χ2≥k)的具体含义.3.掌握独立性检验的方法和步骤,并能解决实际问题.
一、列联表
知识梳理
1.2×2列联表:如果随机事件A与B的样本数据如表形式:
A 总计
B a b a+b
c d c+d
总计 a+c b+d a+b+c+d
在这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为2×2列联表.
2.2×2列联表中随机事件的概率:
如上表,记n=a+b+c+d,则
(1)事件A发生的概率可估计为P(A)= ;
(2)事件B发生的概率可估计为P(B)= ;
(3)事件AB发生的概率可估计为P(AB)= .
例1 “一本书,一碗面,一条河,一座桥”曾是兰州的城市名片,而现在“兰州马拉松”又成为了兰州的另一张名片,随着全民运动健康意识的提高,马拉松运动不仅在兰州,而且在全国各大城市逐渐兴起,参与马拉松训练与比赛的人口逐年增加.为此,某市对人们参加马拉松运动的情况进行了统计调查.其中一项调查是调查人员从参与马拉松运动的人中随机抽取200人,对其每周参与马拉松长跑训练的天数进行统计,得到如下统计表:
平均每周进行长 跑训练的天数 不大于 2天 3天 或4天 不少于 5天
人数 30 130 40
若某人平均每周进行长跑训练天数不少于5天,则称其为“热烈参与者”,否则称其为“非热烈参与者”.
(1)经调查,该市约有2万人参与马拉松运动,试估计其中“热烈参与者”的人数;
(2)根据表中的数据,填写下列2×2列联表.
热烈参与者 非热烈参与者 总计
男 140
女 55
总计
反思感悟 列2×2列联表的注意点
(1)作2×2列联表时,注意应该是4行4列,计算时要准确无误.
(2)作2×2列联表时,关键是对涉及的变量分清类别.
跟踪训练1 在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人的饮食以蔬菜为主,另外33人则以肉类为主.
(1)请根据以上数据作出饮食习惯与年龄的列联表;
(2)求年龄在六十岁以上且饮食以肉类为主的人群的概率.
二、独立性检验
知识梳理
1.定义:在2×2列联表中,定义随机变量
χ2=,任意给定一个α(称为显著性水平),可以找到满足条件P(χ2≥k)=α的数k(称为显著性水平α对应的分位数),
(1)若χ2≥k成立,就称在犯错误的概率 的前提下,可以认为A与B不独立(也称为A与B有关),或说有 的把握认为A与B有关;
(2)若χ2
2.统计学中,常用的显著性水平α以及对应的分位数k如下表所示.
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
例2 给出下列实际问题:
①一种药物对某种病的治愈率;②两种药物治疗同一种病是否有区别;③吸烟者得肺病的概率;④吸烟是否与性别有关系;⑤网吧与青少年的犯罪是否有关系.其中用独立性检验可以解决的问题有( )
A.①②③ B.②④⑤
C.②③④⑤ D.①②③④⑤
反思感悟 独立性检验是对两个分类变量的相关性的检验,具有一定的随机性,独立性检验确认两个变量的相关程度.
跟踪训练2 在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( )
A.若χ2的值为6.635,则在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患肺癌
B.若由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌
C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误
D.以上三种说法都不正确
三、独立性检验的综合应用
例3 某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间(单位:时)的样本数据.
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图).其中样本数据的分组区间为[0,2),[2,4),[4,6),[6,8),[8,10),[10,12].估计该校学生每周平均体育运动时间不低于4小时的概率;
(3)在样本数据中,有60位女生的每周平均体育运动时间不低于4小时,请作出每周平均体育运动时间与性别的列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
附:
α=P(χ2≥k) 0.1 0.05 0.01 0.005
k 2.706 3.841 6.635 7.879
χ2=.
反思感悟 独立性检验的应用需要注意的问题
(1)χ2计算公式较复杂,一是公式要清楚;二是代入数值时不能张冠李戴;三是计算时要细心.
(2)判断时把计算结果与临界值比较,其值越大,有关的可信度越高.
跟踪训练3 某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
(1)根据以上数据建立一个2×2列联表;
(2)判断是否有99%的把握认为对新课程教学模式的赞同情况与教师年龄有关系.
附:
α=P(χ2≥k) 0.1 0.05 0.01 0.005
k 2.706 3.841 6.635 7.879
1.知识清单:
(1)列联表.
(2)χ2公式及计算.
(3)独立性检验的理解及应用.
2.方法归纳:公式法.
3.常见误区:对独立性检验的原理不理解,导致不会用χ2分析问题.
1.若由一个2×2列联表中的数据计算得χ2=4.013,则有 的把握认为两个变量有关系( )
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
A.95% B.97.5%
C.99% D.99.9%
2.为了调查中学生近视情况,某校150名男生中有80名近视,140名女生中有70名近视,在检验这些中学生眼睛近视是否与性别有关时,用什么方法最有说服力( )
A.平均数 B.方差
C.回归分析 D.独立性检验
3.在独立性检验中,假设变量X与变量Y没有关系,则在上述假设成立的情况下,估算概率P(χ2≥6.635)≈0.01表示的意义是( )
A.有1%的把握认为变量X与变量Y有关系
B.有99.9%的把握认为变量X与变量Y没有关系
C.有99%的把握认为变量X与变量Y没有关系
D.有99%的把握认为变量X与变量Y有关系
4.为研究某新药的疗效,给100名患者服用此药,跟踪调查后得下表中的数据:
无效 有效 总计
男性患者 15 35 50
女性患者 6 44 50
总计 21 79 100
则统计量χ2≈ (小数点后保留3位有效数字),从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为 .
答案精析
知识梳理
2.(1) (2) (3)
例1 解 (1)以200人中“热烈参与者”的频率作为概率,
可得该市“热烈参与者”的人数约为20 000×=4 000.
(2)由题意可得2×2列联表如下:
热烈 参与者 非热烈 参与者 总计
男 35 105 140
女 5 55 60
总计 40 160 200
跟踪训练1 解 (1)饮食习惯与年龄的2×2列联表如下:
年龄在 六十岁 以上 年龄在 六十岁 以下 总计
饮食以 蔬菜为主 43 21 64
饮食以 肉类为主 27 33 60
总计 70 54 124
(2)由列联表得,年龄在六十岁以上且饮食以肉类为主的人群的概率为.
知识梳理
1.(1)不超过α 1-α
例2 B [独立性检验是判断两个分类变量是否有关系的方法,而①③都是概率问题,不能用独立性检验解决.]
跟踪训练2 C [若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1% 的可能性使得判断出现错误,并不是说某人吸烟,那么他有99%的可能患有肺癌,更不是在100个吸烟的人中必有99人患有肺癌.]
例3 解 (1)由分层抽样可得300×=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得学生每周平均体育运动时间不低于4小时的频率为1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间不低于4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间不低于4小时,75人的每周平均体育运动时间低于4小时.样本数据中有210份是关于男生的,90份是关于女生的,可得每周平均体育运动时间与性别的列联表如下:
男生 女生 总计
每周平均 体育运动 时间低于 4小时 45 30 75
每周平均 体育运动 时间不低 于4小时 165 60 225
总计 210 90 300
结合列联表可得
χ2=
≈4.762>3.841.
所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
跟踪训练3 解 (1)2×2列联表如表所示.
赞同 不赞同 总计
老教师 10 10 20
青年教师 24 6 30
总计 34 16 50
(2)由公式得
χ2=≈4.963<6.635,所以没有99%的把握认为对新课程教学模式的赞同情况与教师年龄有关.
随堂演练
1.A 2.D 3.D 4.4.882 5%作业30 独立性检验
单选题每小题5分,共30分;多选题每小题6分,共18分
1.下面是一个2×2列联表:
Y 总计
X a 11 63
b 15 23
总计 60 26 86
则表中a,b处的值分别为( )
A.74,38 B.52,10
C.52,8 D.8,52
2.随机调查某校110名学生是否喜欢跳舞,由公式χ2=(其中n=a+b+c+d)计算出χ2的值,并由此得出结论:有99%的把握认为学生是否喜欢跳舞与性别有关,则χ2可以为( )
α=P(χ2≥k) 0.1 0.05 0.01 0.005
k 2.706 3.841 6.635 7.879
A.3.565 B.4.204
C.5.233 D.6.842
3.(多选)下列说法正确的是( )
A.事件A与B独立,即两个事件互不影响
B.事件A与B关系越密切,则χ2就越大
C.χ2的大小是判定事件A与B是否相关的唯一根据
D.若判定两事件A与B相关,则A发生B一定发生
4.有两个分类变量X与Y的一组数据,由其列联表计算得χ2≈4.523,则认为“X与Y有关系”犯错误的概率不超过( )
A.95% B.90%
C.5% D.10%
5.某厂家为了解顾客对改进后产品的满意度,随机调查了相同数量的男、女顾客,经统计有的男顾客“不满意”,有的女顾客“不满意”,若有99%的把握认为对产品是否满意与性别有关,则调查的总人数的最小值为 ( )
参考公式:χ2=,其中n=a+b+c+d.
附表:
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
A.150 B.144
C.180 D.168
6.(多选)根据下面的列联表得到如下四个判断:
嗜酒 不嗜酒 总计
患肝病 700 60 760
未患肝病 200 32 232
总计 900 92 992
其中正确的是( )
A.有95%的把握认为“患肝病与嗜酒有关”
B.有99%的把握认为“患肝病与嗜酒有关”
C.在犯错误的概率不超过0.01的前提下认为“患肝病与嗜酒有关”
D.在犯错误的概率不超过0.01的前提下认为“患肝病与嗜酒无关”
7.(5分)在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算χ2=7.63,根据这一数据分析,有 的把握说明打鼾与患心脏病是 的.(填“有关”或“无关”)
8.(5分)某高校《统计初步》课程的教师随机调查了一些学生,具体数据如下表所示,为了判断选修统计专业是否与性别有关系,根据表中数据,得到χ2=≈4.844,因为4.844>3.841.所以选修统计专业与性别有关系,那么这种判断犯错误的概率不超过 .
未选修统计专业 选修统计专业 总计
男 13 10 23
女 7 20 27
总计 20 30 50
9.(10分)(2024·全国甲卷)某工厂进行生产线智能化升级改造.升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1)填写如下列联表:
优级品 非优级品
甲车间
乙车间
能否有95%的把握认为甲、乙两车间产品的优级品率存在差异 能否有99%的把握认为甲、乙两车间产品的优级品率存在差异 (5分)
(2)已知升级改造前该工厂产品的优级品率p=0.5.设为升级改造后抽取的n件产品的优级品率.如果>p+1.65,则认为该工厂产品的优级品率提高了.根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了 (≈12.247)(5分)
附:χ2=.
α=P(χ2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
10.(10分)为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:
性别 打篮球 总计
喜爱 不喜爱
男生 6
女生 10
总计 48
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为.
(1)请将上面的2×2列联表补充完整(不用写计算过程);(3分)
(2)能否有95%的把握认为喜爱打篮球与性别有关?(3分)
(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X,求X的分布列与均值.(4分)
11.下列关于回归分析与独立性检验的说法正确的是( )
A.回归分析和独立性检验没有什么区别
B.回归分析是对两个变量准确关系的分析,而独立性检验是分析两个变量之间的不确定性关系
C.回归分析研究两个变量之间的相关关系,独立性检验是对两个变量是否具有某种关系的一种检验
D.独立性检验可以100%确定两个变量之间是否具有某种关系
12.(多选)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,随机观察了他所在地区的100天的日落情况和后半夜天气,得到如下2×2列联表:
后半夜 下雨 后半夜 未下雨 总计
出现“日落云里走” 25 5 30
未出现“日落云里走” 25 45 70
总计 50 50 100
并计算得到χ2≈19.05,下列小波对该地区天气的判断中正确的是( )
A.后半夜下雨的概率约为
B.未出现“日落云里走”时,后半夜下雨的概率约为
C.在犯错误的概率不超过0.1%的前提下,可以认为“日落云里走”与“后半夜下雨”有关
D.根据α=0.001的独立性检验,若出现“日落云里走”,则后半夜有99.9%的可能会下雨
13.(5分)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出500件,测量其内径尺寸,得结果如下表:
甲厂:
分组 [29.86, 29.90) [29.90, 29.94) [29.94, 29.98) [29.98, 30.02) [30.02, 30.06) [30.06, 30.10) [30.10, 30.14)
频数 12 63 86 182 92 61 4
乙厂:
分组 [29.86, 29.90) [29.90, 29.94) [29.94, 29.98) [29.98, 30.02) [30.02, 30.06) [30.06, 30.10) [30.10, 30.14)
频数 29 71 85 159 76 62 18
(1)两个分厂生产的零件的优质品率分别为 ;
(2)有 的把握认为“两个分厂生产的零件的质量有差异”.
14.(5分)世界杯期间,某电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:
年龄 西班牙队 总计
不喜欢 喜欢
高于40岁 p q 50
不高于40岁 15 35 50
总计 a b 100
若工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为,则有 的把握认为年龄与是否喜欢西班牙队有关.
附:χ2=.
临界值表:
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
15.针对时下的“短视频热”,某高校团委对学生喜欢短视频和性别是否有关联进行了一次调查,其中被调查的男生、女生人数均为5m(m∈N+)人,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.若在犯错误的概率不超过5%的前提下,认为喜欢短视频和性别有关,则m的最小值为( )
附:χ2=,其中n=a+b+c+d.
附表:
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
A.7 B.8
C.9 D.10
16.(12分)“中国式过马路”存在很大的交通安全隐患.某调查机构为了解路人对“中国式过马路”的态度是否与性别有关,从马路旁随机抽取30名路人进行了问卷调查,得到了如下列联表:
男性 女性 总计
反感 10
不反感 8
总计 30
已知在这30人中随机抽取1人抽到反感“中国式过马路”的路人的概率是.
(1)请将上面的列联表补充完整(直接写结果,不需要写求解过程),并据此资料分析,是否有90%的把握认为反感“中国式过马路”与性别有关?(6分)
(2)若从这30人中的女性路人中随机抽取2人参加一活动,记反感“中国式过马路”的人数为X,求X的分布列和均值.(6分)
附:χ2=.
临界值表:
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
答案精析
1.C 2.D 3.AB 4.C 5.C 6.BC
7.99% 有关
解析 ∵χ2=7.63,∴χ2>6.635,因此,有99%的把握说明打鼾与患心脏病是有关的.
8.5%
解析 由题意知χ2≈4.844,又P(χ2≥3.841)=0.05,由于4.844>3.841,所以判定选修统计专业与性别有关系犯错误的概率不超过5%.
9.解 (1)根据题意可得列联表:
优级品 非优级品
甲车间 26 24
乙车间 70 30
可得χ2===4.687 5,
因为3.841<4.687 5<6.635,
所以有95%的把握认为甲、乙两车间产品的优级品率存在差异,没有99%的把握认为甲、乙两车间产品的优级品率存在差异.
(2)由题意可知,生产线智能化升级改造后,该工厂产品的优级品的频率为=0.64,
用频率估计概率可得=0.64,
又因为升级改造前该工厂产品的优级品率p=0.5,
则p+1.65
=0.5+1.65
≈0.5+1.65×≈0.567,
可知>p+1.65,
所以可以认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
10.解 (1)列联表补充如下.
性别 打篮球 总计
喜爱 不喜爱
男生 22 6 28
女生 10 10 20
总计 32 16 48
(2)由χ2=≈4.286>3.841,所以有95%的把握认为喜爱打篮球与性别有关.
(3)喜爱打篮球的女生人数X的可能取值为0,1,2.
其概率分别为P(X=0)==,
P(X=1)==,
P(X=2)==,
故X的分布列为
X 0 1 2
P
X的均值为E(X)=0++=1.
11.C [回归分析是对两个变量之间的相关关系的一种分析,而相关关系是一种不确定关系,通过回归分析可以确定两个变量之间是否具有相关关系.
而独立性检验是对两个变量之间是否具有某种关系的分析,并且可以分析这两个变量在多大程度上具有这种关系,但不能100%肯定这种关系.故ABD错误,C正确.]
12.AC [由题意,把频率看作概率,可得后半夜下雨的概率约为=,故A判断正确;未出现“日落云里走”时,后半夜下雨的概率约为=,故B判断错误;由χ2≈19.05>10.828,所以在犯错误的概率不超过0.1%的前提下,认为“日落云里走”与“后半夜下雨”有关,故C判断正确,D判断错误.]
13.(1)72%,64% (2)99%
解析 (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为=72%;
乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为=64%.
(2)根据所得数据制成如下列联表:
甲厂 乙厂 总计
优质品 360 320 680
非优质品 140 180 320
总计 500 500 1 000
χ2=≈7.353>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.
14.95%
解析 设“从所有人中任意抽取一人,取到喜欢西班牙队的人”为事件A,由已知得P(A)==,
所以q=25,p=25,a=40,b=60.
χ2=
=≈4.167>3.841.
故有95%的把握认为年龄与是否喜欢西班牙队有关.
15.C [根据题意列出2×2列联表如表所示:
男生 女生 总计
喜欢短视频 4m 3m 7m
不喜欢短视频 m 2m 3m
总计 5m 5m 10m
χ2==,
由于在犯错误的概率不超过5%的前提下,认为喜欢短视频和性别有关,
则χ2≥3.841,
即≥3.841,
得m≥8.066 1,
∵m∈N+,∴m的最小值为9.]
16.解 (1)列联表补充如下:
男性 女性 总计
反感 10 6 16
不反感 6 8 14
总计 16 14 30
由已知数据得
χ2=
≈1.158<2.706.
所以没有90%的把握认为反感“中国式过马路”与性别有关.
(2)X的可能取值为0,1,2,
P(X=0)==,
P(X=1)==,
P(X=2)==.
所以X的分布列为
X 0 1 2
P
X的均值为E(X)=0×+1×+2×=.