统计与统计案例
第四节 列联表与独立性检验
1.某机构为调查网游爱好者是否有性别差异,通过调研数据统计得知在500名男生中有200名网游爱好者,在400名女生中有50名网游爱好者.若要确定爱好网游是否与性别有关时,用下列最适合的统计方法是( )
A.均值 B.方差
C.独立性检验 D.回归分析
2.为了解某大学的学生喜欢体育锻炼是否与性别有关,某机构用简单随机抽样方法在校园内调查了120名学生,得到如下2×2列联表:
单位:名
体育锻炼 性别 合计
男 女
喜欢 a b 73
不喜欢 c 25
合计 74
则a-b-c等于( )
A.7 B.8
C.9 D.10
3.根据分类变量X与Y的抽样数据,计算得到χ2=7.505,依据α=0.01的独立性检验(x0.01=6.635),结论为( )
A.变量X与Y不独立
B.变量X与Y不独立,这个结论犯错误的概率超过0.01
C.变量X与Y独立
D.变量X与Y独立,这个结论犯错误的概率不超过0.01
4.观察下列各图,其中两个分类变量X,Y之间关系最强的是( )
5.已知两个分类变量X,Y的可能取值分别为{x1,x2}和{y1,y2},通过随机调查得到样本数据,再整理成如下的2×2列联表:
X Y
y1 y2
x1 10 m
x2 n 30
若样本容量为75,且m<n,则当判断X与Y有关系的把握最小时,a的值为( )
A.5 B.10
C.15 D.17
6.(多选题)(数学与文化)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了某地区100天的日落和夜晚天气,得到如下2×2列联表,并计算得到χ2≈19.05,则下列小波对该地区天气的判断正确的是( )
日落云里走 夜晚天气
下雨 未下雨
出现 25 5
未出现 25 45
A.夜晚下雨的概率约为
B.未出现“日落云里走”,夜晚下雨的概率约为
C.依据α=0.005的独立性检验,认为“日落云里走”是否出现与夜晚天气有关
D.依据α=0.005的独立性检验,若出现“日落云里走”,则认为夜晚一定会下雨
高考训练
7.(多选题)有甲、乙两个班级共计105人进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表.
分类 优秀 非优秀 合计
甲班 10 b
乙班 c 30
已知从105人中随机抽取1人,成绩优秀的概率为,则下列说法中正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为20,b的值为45
C.根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”
D.根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系”
8.有两个分类变量X和Y,根据其中一组观测数据得到如下的2×2列联表:
X Y 合计
y1 y2
x1 a 15-a 15
x2 20-a 30+a 50
合计 20 45 65
其中a,15-a均为大于5的整数,则a=________时,在犯错误的概率不超过0.01的前提下认为“X和Y之间有关系”.
9.(能力创新)为了解不同年龄段居民的主要阅读方式,某校兴趣小组在全市随机调查了200名居民,经统计这200人中通过电子阅读与纸质阅读的人数之比为3∶1,将这200人按年龄分组,其中统计通过电子阅读的居民得到的频率分布直方图如图所示.
(1)求a的值及通过电子阅读的居民的平均年龄;(同一组中数据用该组区间的中点值作代表)
(2)把年龄在[15,45)的居民称为青年组,年龄在[45,65]的居民称为中老年组,若选出的200人中通过纸质阅读的中老年有30人,请完成下面2×2列联表,依据α=0.025的独立性检验,能否认为阅读方式与年龄有关联?
单位:人
年龄分组 阅读方式 合计
电子阅读 纸质阅读
青年
中老年
合计
α 0.15 0.1 0.05 0.025 0.01 0.005 0.001
xα 2.072 2.706 3.841 5.024 6.635 7.879 10.828
答案解析
1、C 解析:由题意可知,“爱好网游”与“性别”是两类变量,其是否有关,应用独立性检验判断.
2、C 解析:根据题意,可得c=120-73-25=22,a=74-22=52,b=73-52=21,
补充完整2×2列联表为:
单位:名
体育锻炼 性别 合计
男 女
喜欢 52 21 73
不喜欢 22 25 47
合计 74 46 120
所以a-b-c=52-21-22=9.
3、A 解析:依据α=0.01的独立性检验(x0.01=6.635),χ2=7.505>6.635=x0.01,
所以变量X与Y不独立,这个结论犯错误的概率不超过0.01,故A正确.
4、D 解析:观察等高堆积条形图易知D选项的两个分类变量之间关系最强.
5、C 解析:在两个分类变量的列联表中,当|ad-bc|的值越小时,认为两个分类变量有关的可能性越小.
令|10×30-mn|=0,得mn=10×30=300.
又因为样本容量为75,所以m+n+40=75,则n=35-m,
所以mn=m(35-m)=300,化简得m2-35m+300=0,解得m1=15,m2=20.
又因为m<n,所以m=15.
6、ABC 解析:对于A,根据列联表可知,100天中有50天夜晚下雨,50天夜晚未下雨,
因此夜晚下雨的概率约为,A正确;
对于B,未出现“日落云里走”,夜晚下雨的概率约为,B正确;
对于C,χ2≈19.05>7.879=x0.005,
因此依据α=0.005的独立性检验,认为“日落云里走”是否出现与夜晚天气有关,C正确;
对于D,依据α=0.005的独立性检验,可判断“日落云里走,雨在半夜后”的说法犯错误的概率不超过0.005,但不代表出现“日落云里走”就一定会下雨,D错误.
7、BC 解析:由题意,从105人中随机抽取1人,成绩优秀的概率为,
所以成绩优秀的人数为105×=30,非优秀的人数为105-30=75,
所以c=30-10=20,b=75-30=45,
则χ2=≈6.109>3.841.
若按95%的可靠性要求,能认为“成绩与班级有关系”.
8、9 解析:由题意可知χ2≥6.635,则≥6.635.
又由a>5且15-a>5,a∈N,得5<a<10.
综上得a=9.
9、解:(1)由题图可得,(0.01+0.015+a+0.03+0.01)×10=1,解得a=0.035.
各组的频率依次为0.1,0.15,0.35,0.3,0.1,
所以通过电子阅读的居民的平均年龄为20×0.1+30×0.15+40×0.35+50×0.3+60×0.1=41.5(岁).
所以a的值为0.035,通过电子阅读的居民的平均年龄为41.5岁.
(2)因为200人中通过电子阅读与纸质阅读的人数之比为3∶1,
所以通过电子阅读的有150人,通过纸质阅读的有50人.
因为年龄在[15,45)的居民称为青年组,年龄在[45,65]的居民称为中老年组,
所以电子阅读的青年有150×(0.1+0.15+0.35)=90(人),中老年有150×(0.3+0.1)=60(人).
补全列联表如下:
单位:人
年龄分组 阅读方式 合计
电子阅读 纸质阅读
青年 90 20 110
中老年 60 30 90
合计 150 50 200
零假设为H0:阅读方式与年龄无关.
根据表中数据,计算得χ2=≈6.061>5.024.
所以依据α=0.025的独立性检验,我们推断H0不成立,即认为阅读方式与年龄有关联.此推断犯错误的概率不大于0.025.