第八章成对数据的统计分析综合复习训练(含解析)2023-2024高中数学人教A版(2019)选择性必修第三册

第八章成对数据的统计分析 综合复习训练
学校:___________姓名:___________班级:___________考号:___________
一、单选题
1.如图,由观测数据 的散点图可知, 与 的关系可以用模型 拟合,设 ,利用最小二乘法求得 关于 的回归方程 . 已知 , ,则 ( )
A. B. C.1 D.
2.2024海峓两岸各民族欢度“三月三”暨福籽同心爱中华福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中为第次入口人流量数据(单位:百人),由此得到关于的回归方程.已知,根据回归方程(参考数据:),可顶测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.4 D.12.0
3.给定两个随机变量和的5组数据如下表所示,利用最小二乘法得到关于的线性回归方程为,则表中值为( )
1 2 3 4 5
2 4 7 8
A.3 B.4 C.5 D.6
4.随着“一带一路”经贸合作持续深化,西安某地对外贸易近几年持续繁荣,2023年6月18日,该地很多商场都在搞“”促销活动.市物价局派人对某商品同一天的销售量及其价格进行调查,得到该商品的售价(单位:元)和销售量(单位:百件)之间的一组数据:
20 25 30 35 40
5 7 8 9 11
用最小二乘法求得与之间的经验回归方程是,当售价为45元时,预测该商品的销售量件数大约为( )(单位:百件)
A.11.2 B.11.75 C.12 D.12.2
5.为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其经验回归方程为.已知,,,该班某学生的脚长为24,据此估计其身高为( )
A.162 B.166 C.170 D.174
6.已知回归直线的倾斜角为,样本点的中心为,则回归直线方程为( )
A. B.
C. D.
7.地球生命来自外星吗?一篇发布在《生物学快讯》上的文章《基因库的增长是生命起源和演化的时钟》可能给出了一种答案.该论文的作者根据生物功能性基因组里的碱基排列数的大小定义了基因库的复杂度y(单位:1),通过研究各个年代的古代生物化石里基因库的复杂度,提出了一个有趣的观点:生物基因库的复杂度近似是随时间呈指数增长的,只要知道生物基因库的复杂度就可以推测该生物体出现的年代.如图是该论文作者根据生物化石(原核生物,真核生物,蠕虫,鱼类,哺乳动物)中的基因复杂度的常用对数与时间(单位:十亿年)的散点图及回归拟合情况(其中回归方程为:,相关指数).根据题干与图中的信息,下列说法错误的是( )
A.根据信息生物基因库的复杂度近似是随时间呈指数增长的情况,不同于作者采取取常用对数的做法,我们也可采用函数模型来拟合
B.根据回归方程可以得到,每过10亿年,生物基因库的复杂度一定增加到原来的倍
C.虽然拟合相关指数为0.97,但是样本点只有5个,不能很好地阐释其统计规律,所以增加可靠的样本点可以更好地完善回归方程
D.根据物理界主流观点:地球的形成始于45亿年前,及拟合信息:地球在诞生之初时生物的复杂度大约为,可以推断地球生命可能并非诞生于地球
8.已知变量与的数据如下表所示,若关于的经验回归方程是,则表中( )
1 2 3 4 5
10 11 13 15
A.11 B.12 C.12.5 D.13
二、多选题
9.下列说法正确的是( )
A.某校高一年级共有男女学生500人,现按性别采用分层抽样的方法抽取容量为50人的样本,若样本中男生有30人,则该校高一年级女生人数是200
B.数据1,3, 4,5,7,9,11,16的第75百分位数为10
C.线性回归方程中,若线性相关系数越大,则两个变量的线性相关性越强
D.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验,可判断与有关联,此推断犯错误的概率不大于0.05
10.已知之间的回归直线方程为,且变量的数据如表所示,则下列说法正确的是( )
6 8 10 12
6 3 2
A.变量之间呈负相关关系 B.的值等于5
C.变量之间的相关系数 D.该回归直线必过点
11.为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了10组数据,绘制散点图如图所示,并进行线性回归分析,若去掉点后,下列说法正确的是( )
A.相关系数变小 B.经验回归方程斜率变小
C.残差平方和变小 D.决定系数变小
12.下列结论正确的是( )
A.若随机变量X,Y满足,则
B.若随机变量,且,则
C.若线性相关系数的绝对值越接近1,则两个变量的线性相关程度越强
D.按从小到大排序的两组数据:甲组:27,30,37,m,40,50;乙组:24,n,33,44,48,52,若这两组数据的第30百分位数、第50百分位数都分别对应相等,则
三、填空题
13.ChatGPT爆火以来,各种人工智能平台如雨后春笋般层出不穷.某人工智能服务商提供了两种会员服务套餐,购买会员服务的既有个人用户也有公司用户.后台随机调取名会员的基本信息,统计发现购买B套餐的用户数占总用户数的,购买B套餐的用户中公司用户数是个人用户数的倍,购买套餐的用户中公司用户数是个人用户数的一半.根据独立性检验,有的把握认为购买的套餐类型与用户类型有关系,则的最小值为 .
附:.
0.050 0.010 0.005 0.001
3.841 6.635 7.879 10.828
14.某市一水果店为了了解柑橘的月销售量(单位:千克)与月平均气温(单位:)之间的关系,随机统计了4个月的柑橘的月销售量与当月的平均气温,其数据如下表:
月平均气温x/ 18 12 8 2
月销售量千克 26 45 62 77
由表中数据得到关于的线性回归方程为,气象部门预测2024年4月该市的平均气温为,据此估计该水果店2024年4月柑橘的销售量为 千克.
15.某公司为了解用电量(单位:)与气温(单位:)之间的关系,随机统计了天的用电量与当天气温,并制作了如下对照表:
气温
用电量
由表中数据可得回归方程中.试预测当气温为时,用电量约为 .
16.以曲线拟合一组数据时,经代换后的线性回归方程为,则 , .
四、解答题
17.今年五一节期间,聊城百货大楼有限公司搞促销活动,下表是该公司5月1号至10号(日期简记为1,2,3,……,10)连续10天的销售情况:
日期 1 2 3 4 5 6 7 8 9 10
销售额(万元) 19 19.3 19.6 20 21.2 22.4 23.8 24.6 25 25.4
由上述数据,用最小二乘法得到销售额和日期的线性回归方程为,日期的方差约为3.02,销售额的方差约为2.59.
(1)根据线性回归方程,分析销售额随日期变化趋势的特征,并计算第4天的残差;
(2)计算相关系数,并分析销售额和日期的相关程度(精确到0.001);
(3)该公司为了促销,拟打算对电视机实行分期付款方式销售,假设顾客购买一台电视机选择分期付款的期数及相应的概率和公司获得的利润(单位:元)情况如下表:
2 4 6
400 600 800
已知成等比数列.
设该公司销售两台电视机所获得的利润为(单位:元),当的概率取得最大值时,求利润的分布列和数学期望.
参考公式:相关系数.回归方程中斜率和截距的最小二乘法估计公式分别为:.相关数据.
18.某游戏公司设计了一款益脑游戏,在内测时收集了玩家对每一关的平均过关时间,如下表:
关卡 1 2 3 4 5 6
平均过关时间(单位:秒) 50 78 124 121 137 352
计算得到一些统计量的值为:,,其中.
(1)若用模型拟合与的关系,根据提供的数据,求出与的回归方程;
(2)制定游戏规则如下:玩家在每关的平均过关时间内通过,可获得3分并进入下一关,否则获得分且该轮游戏结束.甲通过练习,前3关都能在平均时间内过关,后面3关能在平均时间内通过的概率均为,若甲玩一轮此款益脑游戏,求“甲获得的积分”的分布列和数学期望.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘法估计分别为,.
19.随着生活水平的不断提高,老百姓对身体健康越来越重视,特别认识到“肥胖是祸不是福”.某校生物学社团在对人体的脂肪含量和年龄之间的相关关系研究中,利用简单随机抽样的方法得到40组样本数据,其中表示年龄,表示脂肪含量,并计算得到,作出散点图,发现脂肪含量与年龄具有线性相关关系,并得到其线性回归方程为.
(1)请求出的值,并估计35岁的小赵的脂肪含量约为多少?
(2)小赵将自己实际的脂肪含量与(1)中脂肪含量的估计值进行比较,发现自己的脂肪含量严重超标,于是他打算进行科学健身来降低自己的脂肪含量,来到健身器材销售商场,看中了甲、乙两款健身器材,并通过售货员得到这两款健身器材的使用年限(整年),如下表所示:
甲款使用年限统计表
使用年限 5年 6年 7年 8年 合计
台数 10 40 30 20 100
乙款使用年限统计表
使用年限 5年 6年 7年 8年 合计
台数 30 40 20 10 100
如果小赵以使用年限的频率估计概率,请根据以上数据估计,小赵应选择购买哪一款健身器材,才能使用更长久?
20.在推动电子制造业高质量发展的大环境下,某企业统筹各类资源,进行了积极的改革探索.下表是该企业每月生产的一种核心产品的产量(件)与相应的生产总成本(万元)的四组对照数据.
5 7 9 11
200 298 431 609
企业研究人员建立了与的两种回归模型,利用计算机算得近似结果如下:
经验回归方程①:;经验回归方程②:.
其中经验回归方程①的残差图如图所示(残差观测值预测值):
(1)在下表中填写经验回归方程②的残差,根据残差分析,判断哪一个经验回归方程更适宜作为关于的回归方程,并说明理由;
5 7 9 11
200 298 431 609
(2)从该企业在过去几年生产的该产品中随机抽取100件,优等品有60件,合格品有40件.每件优等品利润为20万元,每件合格品利润为15万元.若视频率为概率,该企业某月计划生产12件该产品,记优等品件数为,总利润为.
(ⅰ)求与的关系式,并求和;
(ⅱ)记该月的成本利润率,在(1)中选择的经验回归方程下,求的估计值.(结果保留2位小数)
附:成本利润率.
21.近年来,景德镇市积极探索传统文化与现代生活的连接点,活化利用陶溪川等工业遗产,创新场景和内容,打造了创意集、陶然集、春秋大集“三大集市”IP,让传统文化绽放当代生命力.为了了解游客喜欢景德镇是否与年龄有关,随机选取了来景旅游的老年人和年轻人各50人进行调查,调查结果如表所示:
喜欢景德镇 不喜欢景德镇 合计
年轻人 30 20 50
老年人 15 35 50
合计 45 55 100
(1)判断是否有的把握认为游客喜欢景德镇与年龄有关?
(2)2024年春节期间,景德镇某旅行社推出了A、B两条旅游路线.现有甲、乙、丙共3名游客,他们都决定在A、B路线中选择其中一条路线旅游,他们之间选择哪条旅游路线相互独立.其中甲选择A路线的概率为,而乙、丙选择A路线的概率均为,且在三人中有且仅有1人选择A路线的条件下该人为甲的概率为.设表示这3位游客中选择A路线的人数,求的分布列与数学期望.
附:
0.100 0.050 0.010
2.706 3.841 6.635
试卷第1页,共3页
试卷第1页,共3页
参考答案:
1.C
【分析】利用已知数据可求得样本中心点,再利用回归方程必过样本中心点,即可求出.
【详解】由可得:,
由可得:,
由回归方程 必过样本中心点,即过点,
所以,解得,
故选:C.
2.B
【分析】首先利用换元法将回归方程转化为线性回归方程,再代入样本点中心,求,再根据方程进行预测.
【详解】设,,则
所以,
,且
则,得,
所以,
下午4点对应的,此时预测游客的人流量.
故选:B
3.B
【分析】求变量的平均值,结合回归方程的性质可得.
【详解】由已知,,
因为点在回归直线上,
所以,所以,
故选:B.
4.D
【分析】求出,,根据回归直线方程必过样本中心点求出,即可得到回归直线方程,最后代入计算可得.
【详解】因为,,
所以回归直线过点,故,解得,
所以,将代入中,得,
即当售价为45元时,该商品的销售量件数大约为百件.
故选:D.
5.B
【分析】根据样本中心落在回归方程上,由已知条件求得,进而求得回归方程,令,则可以估计该学生的身高.
【详解】根据题意,得,,
,由在上,得,即,故,
令,得,即该学生身高约为166 cm.
故选:B.
6.B
【分析】求出回归直线的斜率可排除A,C;再将代入可判断B,D.
【详解】因为回归直线的倾斜角为,
所以,故A,C不正确;
又因为样本点的中心为,
将代入和可知,B正确,D错误.
故选:B.
7.B
【分析】利用指数式与对数式互化判断A;利用回归方程的意义判断B;利用相关指数的意义判断C;求出地球在诞生之初时生物的复杂度,结合描述判断D.
【详解】对于A,由,得,
令,满足,A正确;
对于B,观察散点图,所给5个点不全在回归直线上,回归拟合是近似的,
不能说每过10亿年,生物基因库的复杂度一定增加到原来的倍,B错误;
对于C,数据越多,拟合的准确性越高,因此增加可靠的样本点可以更好地完善回归方程,C正确;
对于D,当时,,根据回归方程可知,
当时,,即地球在诞生之初时生物的复杂度大约为,
可以推断地球生命可能并非诞生于地球,D正确.
故选:B
8.A
【分析】利用样本中心点求解即可.
【详解】,
因为经验回归方程经过样本中心,
所以,
解得.
故选:A.
9.ABD
【分析】利用分层抽样计算判断A;求出第75百分位数判断B;利用线性相关系数的意义判断C;利用独立性检验的思想判断D.
【详解】对于A,该校高一年级女生人数是,A正确;
对于B,由,得第75百分位数为,B正确;
对于C,线性回归方程中,线性相关系数绝对值越大,两个变量的线性相关性越强,C错误;
对于D,由,可判断与有关联,此推断犯错误的概率不大于0.05,D正确.
故选:ABD
10.ABD
【分析】对于A,由正负可进行判断,根据回归方程过样本中心点可判断BD,根据相关系数公式计算即可判断C.
【详解】因为,所以,变量之间呈负相关关系,故A对;
由题意,,
所以样本中心为,代入回归方程得,样本中心为,故B、D对;
由题相关系数,
故C错.
故选:ABD.
11.BC
【分析】由图可知:点较其他的点偏离直线最大,所以去掉点后,回归效果更好.结合相关系数、决定系数、残差平方和以及相关性逐项分析判断.
【详解】由图可知:较其他的点偏离直线最大,所以去掉点后,回归效果更好.
对于A,相关系数越接近于1,线性相关性越强,因为散点图是递增的趋势,
所以去掉点后,相关系数变大,故A错误;
对于B,去掉点后,经验回归方程斜率变小,故B正确;
对于C,残差平方和变大,拟合效果越差,所以去掉点后,
残差平方和变小,故C正确;
对于D,决定系数越接近于1,拟合效果越好,所以去掉点后,
决定系数变大,故D错误;
故选:BC.
12.BCD
【分析】利用方差的性质判断A;利用正态分布的对称性求出概率判断B;利用线性相关系数的性质判断C;利用第p百分位数计算判断D.
【详解】对于A,,A错误;
对于B,,B正确;
对于C,线性相关系数的绝对值越接近1,则两个变量的线性相关程度越强,C正确;
对于D,由,依题意,,且,
解得,因此,D正确.
故选:BCD
13.170
【分析】由题意可得用户类型与购买的套餐类型列联表,由公式求得,只需,计算即可得出结果.
【详解】由题意可得用户类型与购买的套餐类型列联表如下:
总计
个人用户
公司用户
总计

解得,又因为必须是10的倍数,所以的最小值为170.
故答案为:170
14.72
【分析】求出样本中心,求出,求出线性回归方程即可求解.
【详解】由题表得,,
所以回归直线过点,
得,解得,则线性回归方程为,
所以当时,,
故估计该水果店2024年4月柑橘的销售量为千克.
故答案为:.
15.
【分析】根据样本中心在回归直线上可得回归直线方程,进而可得估计值.
【详解】,,
样本点的中心为,
代入,

则线性回归方程为,
取,得,
故答案为:.
16. 3
【分析】利用对数的运算法则结合回归方程求解即可.
【详解】因为,所以=,
令,则,
又因为,所以,则.
故答案为:.
17.(1)日期每增加一天,销售额约增加万元,第4天的残差为
(2),销售额和日期的相关程度较强
(3)分布列见解析,1200
【分析】(1)根据线性回归方程特点分析,再将代入回归方程计算,利用残差定义求解即可;
(2)由相关系数的公式结合题中的数据计算,然后根据相关系数与1比较即可判断;
(3)先根据等比中项性质得,,由题意可得的可能取值有,计算其对应的概率,利用基本不等式求得的概率取得最大值时,从而列出分布列,求出期望即可.
【详解】(1)根据线性回归方程,日期每增加一天,销售额约增加万元,
把代入回归直线方程,得,
因为,所以第4天的残差为;
(2)由得,
比较接近于1,故销售额和日期的相关程度较强.
(3)由成等比数列,得,且,
设其公比为,则,所以,
由题意可得的值分别为,
则,,,
,,
又,取得最大值的条件即,
此时,
故分布列为:
800 1000 1200 1400 1600
期望.
18.(1)
(2)分布列见解析;
【分析】(1)对两边取对数可得,即,再根据最小二乘法求出,即可得解;
(2)依题意的所有可能取值为8,11,14,18,求出所对应的概率,即可得到分布列,从而求出数学期望;
【详解】(1)因为两边取对数可得,即,
令,所以,由,
,.
所以,
又,即,
所以,所以.
所以关于的经验回归方程为.
(2)由题知,甲获得的积分的所有可能取值为8,11,14,18,
所以,,
,,
所以的分布列为
8 11 14 18
所以.
19.(1)的值为,估计35岁的小赵的脂肪含量约为19.317
(2)应购买甲款健身器材
【分析】(1)根据线性回归直线方程经过样本中心求出,进而得到线性回归直线方程,再进行预测即可;
(2)分别列出甲,乙两款健身器材使用年限的分布列,求出期望,再比较即可.
【详解】(1)因线性回归直线方程经过样本中心,
所以将代入,
得到.
于是,
当时,.
所以的值为,估计35岁的小赵的脂肪含量约为19.317.
(2)以频率估计概率,设甲款健身器材使用年限为(单位:年),则的分布列为
5 6 7 8
0.1 0.4 0.3 0.2
于是.
设乙款健身器材使用年限为(单位:年),则的分布列为
5 6 7 8
0.3 0.4 0.2 0.1
于是.
因,所以小赵应购买甲款健身器材才能使用更长久.
20.(1)残差数据表见解析,经验回归方程①更适宜作为关于的回归方程
(2)(ⅰ),,;(ⅱ)
【分析】(1)先列出经验回归方程的残差数据表以及经验回归方程的残差图,对比回归方程进行选择,并给出理由即可;
(2)对于(ⅰ),先求出优等品的概率,分析得出,进而得出求与的关系式,并解出和即可;对于(ⅱ),由(ⅰ)知总利润为万元,总成本估计值(万元),再求出的估计值即可.
【详解】(1)经验回归方程②的残差数据如下表:
5 7 9 11
200 298 431 609
20 21
经验回归方程②的残差图如图所示:
经验回归方程①更适宜作为关于的回归方程.
(以下理由或其他合理的理由,说出一条即可得分):
理由1:经验回归方程①这4个样本点的残差的绝对值都比经验回归方程②的小.
理由2:经验回归方程①这4个样本的残差点落在的带状区域比经验回归方程②的带状区域更窄.
理由3:经验回归方程①这4个样本的残差点比经验回归方程②的残差点更贴近轴.
(2)(ⅰ)由题意知,每件产品为优等品的概率,
则,因此,
由, 则;
(ⅱ)由(ⅰ)知总利润为万元,总成本估计值(万元),
则.
21.(1)有的把握认为游客喜欢景德镇与年龄有关;
(2)分布列见解析,
【分析】(1)根据公式求得卡方,从而即可求解;
(2)根据贝叶斯公式结合题意可得,根据分布列的求解步骤和期望公式即可求解.
【详解】(1),
有的把握认为游客喜欢景德镇与年龄有关;
(2)根据贝叶斯公式可知三人中有且仅有1人选择路线的条件下该人为甲的概率为

,解得:,
由题意可知,的取值为0,1,2,3.



.
的分布列为
的数学期望是.
答案第1页,共2页
答案第1页,共2页

延伸阅读:

标签:

上一篇:[超级全能生·名校交流]2024届高三第五次联考(4351C)历史XX答案!

下一篇:[超级全能生·名校交流]2024届高三第五次联考(4351C)英语XX试题!