在这篇文章中,精心准备了20个关于数据科学的问题,包括多项选择题、判断题和整数类型问题,以检验对数据科学的理解。让开始吧。
假设想要使用一个自动分类系统来区分COVID-19阴性(阴性类)和COVID-19阳性(阳性类)。评估了两个模式分类系统,获得的数据如下:
1. 两个系统的假阳性(FP)和假阴性(FN)数量如下:
(a) 系统A: FP = 20, FN = 25; 系统B: FP = 15, FN = 30
(b) 系统A: FP = 15, FN = 30; 系统B: FP = 20, FN = 25
(c) 系统A: FP = 15, FN = 25; 系统B: FP = 20, FN = 30
(d) 系统A: FP = 30, FN = 20; 系统B: FP = 15, FN = 25
答案:[ a ]
提示:仔细阅读混淆矩阵并使用基本概念。
2. 系统A的敏感性和特异性分别为:
(a) 敏感性 = 0.75, 特异性 = 0.80
(b) 敏感性 = 0.70, 特异性 = 0.85
(c) 敏感性 = 0.75, 特异性 = 0.85
(d) 敏感性 = 0.70, 特异性 = 0.80
答案:[ a ]
提示:使用公式计算给定混淆矩阵的敏感性和特异性。
3. 应该使用哪个系统来排除COVID-19的存在?
(a) 系统A
(b) 系统B
(c) 可以优先选择任何一个
(d) 无法确定
答案:[ b ]
解释:原因是系统B的特异性高于系统A。
4. 如果N是训练数据集中的行/实例数量,那么K最近邻算法在Big-O表示法中的时间复杂度是多少?
(a) O(1)
(b) O(N)
(c) O(log N)
(d) O(N^2)
答案:[ b ]
解释:K最近邻需要计算点到每个N训练实例的距离。因此,分类运行时间复杂度为O(N)。
5. 一位公司经理想要预测其生产机器故障前的时间。作为机器学习学生,被要求解决这个问题。会如何表述这个问题?
(a) 作为一个分类问题
(b) 作为一个回归问题
(c) 作为一个聚类问题
(d) 作为一个基于关联规则的问题
答案:[ b ]
解释:对于回归问题,目标列是数值型的(连续的)。
6. 关于回归线,以下哪些陈述是正确的?
(a) 回归线总是穿过数据的均值。
(b) 值从它们的回归线的偏差之和总是零。
(c) 值从它们的回归线的平方偏差之和总是最小的。
(d) 如果回归线重合,那么就没有相关性。
答案:[ a, b, c ]
解释:如果回归线重合,它显示了完美的相关性,即r=1。
7. 关于马氏距离,以下哪些选项是不正确的?
(a) 它将列转换为相关变量。
(b) 它改变了特征的值,使得标准差变为零。
(c) 它计算新列的平均值和方差。
(d) 它在计算距离时只包括方差。
答案:[a, b, c, d]
解释:马氏距离在计算距离时考虑了协方差。
8. 选择随机变量X1和X2的正确选项:
(a) 如果Cov(X1, X2)=0,那么随机变量X1和X2是独立的。
(b) 如果随机变量X1和X2是独立的,那么Cov(X1, X2)=0。
(c) 如果Cov(X1, X2)=0并且X1和X2是正态分布的,那么X1和X2是独立的。
(d) 如果Cov(X1, X2)=0,那么Corr(X1, X2)=0。
答案:[b, c, d]
解释:独立性意味着零协方差,但零协方差并不一定意味着独立性。
9. 以下哪些陈述是正确的?
(a) 监督学习不需要目标属性,而无监督学习需要。
(b) 在超市中,将商品分类到过道和货架上可以是无监督学习的应用。
(c) 情感分析可以作为一个分类任务,而不是聚类任务。
(d) 决策树也可以用来执行聚类任务。
答案:[b, d]
解释:无监督学习不需要目标属性,而监督学习需要。
10. 只能用于训练数据线性可分的算法是:
(a) 线性硬间隔SVM
(b) 线性逻辑回归
(c) 线性软间隔SVM
(d) 质心法
答案:[ a ]
解释:硬间隔SVM只能在数据完全线性可分且没有错误(异常值/噪声)时工作。在硬间隔SVM中,有非常严格的约束来正确分类数据点。
11. 关于反向传播算法,以下哪些陈述是正确的?
(a) 它也被称为广义delta规则。
(b) 在反向传播中,输出的错误只向后传播以确定权重更新。
(c) 反向传播学习是基于定义的损失函数表面的梯度下降。
(d) 它是无监督学习人工神经网络的算法。
答案:[ a, b, c ]
解释:反向传播算法用于人工神经网络的监督学习。
12. 整数类型问题:以下关于K均值聚类算法的陈述有多少是不正确的?
(a) 在数据中可能存在异常值时,聚类任务中不应使用“完全链接”距离度量。
(b) K均值聚类算法的两次不同运行总是产生相同的聚类结果。
(c) 将10到20次迭代作为K均值聚类的停止准则总是更好的。
(d) 在K均值聚类中,算法运行期间的质心数量会改变。
(e) 它试图为给定数量的聚类最大化类内方差。
(f) 如果初始均值(初始化)被选为某些样本本身,那么它将收敛到全局最优解。
(g) 它要求特征空间的维度不大于样本数量。
答案:[b, c, d, e, f, g] - 6个
解释:K均值聚类算法的目标是最小化总的类内方差(聚类内)。类内方差是一个简单的理解度量,用于理解紧凑性(紧凑分区)。
13. 关于层次聚类,以下哪些陈述是正确的?
(a) 它是一种合并方法。
(b) 测量两个聚类之间的距离。
(c) 分裂层次聚类采用自下而上的方法。
(d) 它是一种半无监督聚类算法。
答案:[a, b]
解释:分裂层次聚类采用自上而下的方法。
14. 关于贝叶斯分类,以下哪些陈述是正确的?
(a) 贝叶斯分类中的决策边界取决于证据。
(b) 贝叶斯分类中的决策边界取决于先验。
(c) 贝叶斯分类是一种监督机器学习算法。
答案:[b, c]
解释:贝叶斯分类中的决策边界不取决于证据。
15. 整数类型问题:以下关于神经网络的陈述有多少是不正确的?
(a) 在神经网络中,激活函数必须是单调的。
(b) 逻辑函数是单调递增函数。
(c) 非可微函数不能用作激活函数。
(d) 它们只能通过随机梯度下降进行训练。
(e) 优化一个凸目标函数。
(f) 可以使用不同的激活函数。
答案:[a, c, d, e] - 4个
解释:神经网络可以使用不同的激活函数,如sigmoid、tanh和RELU函数。
16. 随着dropout率的增加,神经网络模型的容量,即网络模拟复杂函数的能力:
(a) 增加
(b) 减少
(c) 保持不变
(d) 先减少然后增加
答案:[b]
答案:随着dropout率的增加,神经网络模型的容量减少。
17. 整数类型问题:以下关于支持向量机(SVM)的选项有多少是正确的?
(a) 支持向量在SVM的公式中只有非零拉格朗日乘数。
(b) SVM的线性判别函数关注测试点和支持向量之间的点积。
(c) 在软间隔SVM中,允许模型有一些误分类。
(d) 支持向量是距离决策边界最远的数据点。
(e) 在SVM中,计算f(x)所需的唯一训练点是支持向量。
答案:[a, b, c, d, e] - 5个
解释:支持向量机(SVM)通过选择最大化两个类别之间边界的超平面来进行分类。定义超平面的向量是支持向量,它们具有非零拉格朗日乘数。
18. 真或假:SVM中的线性判别函数(分类器)具有最大边界,因为它对异常值具有鲁棒性并且具有强大的泛化能力。
答案:[真]
解释:支持向量机试图找到“最好”地分隔两类点的线。通过“最好”,指的是给两个类别之间提供最大边界的线。
19. 对于给定的树状图,如果在y轴上画一条水平线为y=0.50,将形成多少个聚类?
(a) 1
(b) 3
(c) 4
(d) 7
答案:[c]
(a) 删除缺失的行或列
(b) 用最频繁的值替换缺失值
(c) 开发一个模型来预测那些缺失值
(d) 以上所有