数据科学概念问答

在这篇文章中,精心准备了20个关于数据科学的问题,包括多项选择题、判断题和整数类型问题,以检验对数据科学的理解。让开始吧。

假设想要使用一个自动分类系统来区分COVID-19阴性(阴性类)和COVID-19阳性(阳性类)。评估了两个模式分类系统,获得的数据如下:

1. 两个系统的假阳性(FP)和假阴性(FN)数量如下:

(a) 系统A: FP = 20, FN = 25; 系统B: FP = 15, FN = 30 (b) 系统A: FP = 15, FN = 30; 系统B: FP = 20, FN = 25 (c) 系统A: FP = 15, FN = 25; 系统B: FP = 20, FN = 30 (d) 系统A: FP = 30, FN = 20; 系统B: FP = 15, FN = 25

答案:[ a ]

提示:仔细阅读混淆矩阵并使用基本概念。

2. 系统A的敏感性和特异性分别为:

(a) 敏感性 = 0.75, 特异性 = 0.80 (b) 敏感性 = 0.70, 特异性 = 0.85 (c) 敏感性 = 0.75, 特异性 = 0.85 (d) 敏感性 = 0.70, 特异性 = 0.80

答案:[ a ]

提示:使用公式计算给定混淆矩阵的敏感性和特异性。

3. 应该使用哪个系统来排除COVID-19的存在?

(a) 系统A (b) 系统B (c) 可以优先选择任何一个 (d) 无法确定

答案:[ b ]

解释:原因是系统B的特异性高于系统A。

4. 如果N是训练数据集中的行/实例数量,那么K最近邻算法在Big-O表示法中的时间复杂度是多少?

(a) O(1) (b) O(N) (c) O(log N) (d) O(N^2)

答案:[ b ]

解释:K最近邻需要计算点到每个N训练实例的距离。因此,分类运行时间复杂度为O(N)。

5. 一位公司经理想要预测其生产机器故障前的时间。作为机器学习学生,被要求解决这个问题。会如何表述这个问题?

(a) 作为一个分类问题 (b) 作为一个回归问题 (c) 作为一个聚类问题 (d) 作为一个基于关联规则的问题

答案:[ b ]

解释:对于回归问题,目标列是数值型的(连续的)。

6. 关于回归线,以下哪些陈述是正确的?

(a) 回归线总是穿过数据的均值。 (b) 值从它们的回归线的偏差之和总是零。 (c) 值从它们的回归线的平方偏差之和总是最小的。 (d) 如果回归线重合,那么就没有相关性。

答案:[ a, b, c ]

解释:如果回归线重合,它显示了完美的相关性,即r=1。

7. 关于马氏距离,以下哪些选项是不正确的?

(a) 它将列转换为相关变量。 (b) 它改变了特征的值,使得标准差变为零。 (c) 它计算新列的平均值和方差。 (d) 它在计算距离时只包括方差。

答案:[a, b, c, d]

解释:马氏距离在计算距离时考虑了协方差。

8. 选择随机变量X1和X2的正确选项:

(a) 如果Cov(X1, X2)=0,那么随机变量X1和X2是独立的。 (b) 如果随机变量X1和X2是独立的,那么Cov(X1, X2)=0。 (c) 如果Cov(X1, X2)=0并且X1和X2是正态分布的,那么X1和X2是独立的。 (d) 如果Cov(X1, X2)=0,那么Corr(X1, X2)=0。

答案:[b, c, d]

解释:独立性意味着零协方差,但零协方差并不一定意味着独立性。

9. 以下哪些陈述是正确的?

(a) 监督学习不需要目标属性,而无监督学习需要。 (b) 在超市中,将商品分类到过道和货架上可以是无监督学习的应用。 (c) 情感分析可以作为一个分类任务,而不是聚类任务。 (d) 决策树也可以用来执行聚类任务。

答案:[b, d]

解释:无监督学习不需要目标属性,而监督学习需要。

10. 只能用于训练数据线性可分的算法是:

(a) 线性硬间隔SVM (b) 线性逻辑回归 (c) 线性软间隔SVM (d) 质心法

答案:[ a ]

解释:硬间隔SVM只能在数据完全线性可分且没有错误(异常值/噪声)时工作。在硬间隔SVM中,有非常严格的约束来正确分类数据点。

11. 关于反向传播算法,以下哪些陈述是正确的?

(a) 它也被称为广义delta规则。 (b) 在反向传播中,输出的错误只向后传播以确定权重更新。 (c) 反向传播学习是基于定义的损失函数表面的梯度下降。 (d) 它是无监督学习人工神经网络的算法。

答案:[ a, b, c ]

解释:反向传播算法用于人工神经网络的监督学习。

12. 整数类型问题:以下关于K均值聚类算法的陈述有多少是不正确的?

(a) 在数据中可能存在异常值时,聚类任务中不应使用“完全链接”距离度量。 (b) K均值聚类算法的两次不同运行总是产生相同的聚类结果。 (c) 将10到20次迭代作为K均值聚类的停止准则总是更好的。 (d) 在K均值聚类中,算法运行期间的质心数量会改变。 (e) 它试图为给定数量的聚类最大化类内方差。 (f) 如果初始均值(初始化)被选为某些样本本身,那么它将收敛到全局最优解。 (g) 它要求特征空间的维度不大于样本数量。

答案:[b, c, d, e, f, g] - 6个

解释:K均值聚类算法的目标是最小化总的类内方差(聚类内)。类内方差是一个简单的理解度量,用于理解紧凑性(紧凑分区)。

13. 关于层次聚类,以下哪些陈述是正确的?

(a) 它是一种合并方法。 (b) 测量两个聚类之间的距离。 (c) 分裂层次聚类采用自下而上的方法。 (d) 它是一种半无监督聚类算法。

答案:[a, b]

解释:分裂层次聚类采用自上而下的方法。

14. 关于贝叶斯分类,以下哪些陈述是正确的?

(a) 贝叶斯分类中的决策边界取决于证据。 (b) 贝叶斯分类中的决策边界取决于先验。 (c) 贝叶斯分类是一种监督机器学习算法。

答案:[b, c]

解释:贝叶斯分类中的决策边界不取决于证据。

15. 整数类型问题:以下关于神经网络的陈述有多少是不正确的?

(a) 在神经网络中,激活函数必须是单调的。 (b) 逻辑函数是单调递增函数。 (c) 非可微函数不能用作激活函数。 (d) 它们只能通过随机梯度下降进行训练。 (e) 优化一个凸目标函数。 (f) 可以使用不同的激活函数。

答案:[a, c, d, e] - 4个

解释:神经网络可以使用不同的激活函数,如sigmoid、tanh和RELU函数。

16. 随着dropout率的增加,神经网络模型的容量,即网络模拟复杂函数的能力:

(a) 增加 (b) 减少 (c) 保持不变 (d) 先减少然后增加

答案:[b]

答案:随着dropout率的增加,神经网络模型的容量减少。

17. 整数类型问题:以下关于支持向量机(SVM)的选项有多少是正确的?

(a) 支持向量在SVM的公式中只有非零拉格朗日乘数。 (b) SVM的线性判别函数关注测试点和支持向量之间的点积。 (c) 在软间隔SVM中,允许模型有一些误分类。 (d) 支持向量是距离决策边界最远的数据点。 (e) 在SVM中,计算f(x)所需的唯一训练点是支持向量。

答案:[a, b, c, d, e] - 5个

解释:支持向量机(SVM)通过选择最大化两个类别之间边界的超平面来进行分类。定义超平面的向量是支持向量,它们具有非零拉格朗日乘数。

18. 真或假:SVM中的线性判别函数(分类器)具有最大边界,因为它对异常值具有鲁棒性并且具有强大的泛化能力。

答案:[真]

解释:支持向量机试图找到“最好”地分隔两类点的线。通过“最好”,指的是给两个类别之间提供最大边界的线。

19. 对于给定的树状图,如果在y轴上画一条水平线为y=0.50,将形成多少个聚类?

(a) 1 (b) 3 (c) 4 (d) 7

答案:[c]

(a) 删除缺失的行或列 (b) 用最频繁的值替换缺失值 (c) 开发一个模型来预测那些缺失值 (d) 以上所有
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485