Unnamed: 0,Question,A,B,C,D,Answer
0,"在二分类问题中，当测试集的正例和负例数量不均衡时，以下评价方案哪个是相对不合理的（假设precision=TP/(TP+FP),recall=TP/(TP+FN)。）",F-值:2recallprecision/(recall+precision),G-mean:sqrt(precision*recall),准确性:(TP+TN)/all,AUC:ROC曲线下面积,C
1,深度学习中遇见过拟合下列哪个处理办法不可取 ,加dropout层,加深层数,数据增强,加正则项,B
2,假设我们有一个数据集，在一个深度为 6 的决策树的帮助下，它可以使用 100% 的精确度被训练。现在考虑一下两点，并基于这两点选择正确的选项。1.深度为 4 时将有高偏差和低方差；2.深度为 4 时将有低偏差和低方差。注意：所有其他超参数是相同的，所有其他因子不受影响。,1 和 2,只有 2,没有一个,只有 1,D
3,下列哪些方法不可以用来对高维数据进行降维,LASSO,Bagging,主成分分析法,聚类分析,B
4,机器学习中L1正则化和L2正则化的区别是 ,使用L1可以得到稀疏、平滑的权值,使用L2可以得到稀疏、平滑的权值,使用L1可以得到稀疏的权值、使用L2可以得到平滑的权值,使用L2可以得到稀疏的权值、使用L1可以得到平滑的权值,C
5,下列关于隐马模型和条件随机场模型的说法中错误的是? ,隐马模型和隐马模型隐可用于命名实体识别、分词和词性标注的任务,隐马模型和隐马模型都是生成模型,隐马模型不是概率无向图模型,特征的选取和优化会严重影响隐马模型的结果,B
6,下面哪个/些超参数的增加可能会造成随机森林数据过拟合,学习速率,树的数量,树的深度,以上都不是,C
7,下面关于迭代二叉树3代算法中说法错误的是,迭代二叉树3代算法是一个二叉树模型,信息增益可以用熵，而不是GINI系数来计算,迭代二叉树3代算法要求特征必须离散化,选取信息增益最大的特征，作为树的根节点,A
8,下面哪个/些选项对 K 折交叉验证的描述是正确的,如果 K=N，那么其称为留一交叉验证，其中 N 为验证集中的样本数量,更大的 K 值相比于小 K 值将对交叉验证结构有更高的信心,以上都是,增大 K 将导致交叉验证结果时需要更多的时间,C
9,已知有m个样本，进行n（n<=m）次采样。bootstrap数据是什么意思？,无放回地从总共N个样本中抽样n个样本,无放回地从总共M个特征中抽样m个特征,有放回地从总共N个样本中抽样n个样本,有放回地从总共M个特征中抽样m个特征,C
10,如果以特征向量的相关系数作为模式相似性测度，则影响聚类算法结果的主要因素有,量纲,已知类别样本质量,以上都不是,分类准则,D
11,模型训练过程中，我们一般将数据分成 ,验证集,测试集,训练集,其他选项均可,D
12,你正在使用带有 L1 正则化的 logistic 回归做二分类，其中 C 是正则化参数，w1 和 w2 是 x1 和 x2 的系数。当你把 C 值从 0 增加至非常大的值时，下面哪个选项是正确的,第一个 w1 成了 0，接着 w2 也成了 0,w1 和 w2 同时成了 0,第一个 w2 成了 0，接着 w1 也成了 0,即使在 C 成为大值之后，w1 和 w2 都不能成 0,D
13,下列方法中，不可以用于特征降维的方法包括,深度学习SparseAutoEncoder,矩阵奇异值分解SVD,线性判别分析,主成分分析,A
14,贝叶斯定理求得是什么概率? ,先验概率,其它选项都不是,条件概率,联合概率,C
15,在机器学习中，解释学习器泛化性能中经常用到偏差-方差分解，下列说法不正确的是 ,方差体现的是学习器预测的稳定性,偏差体现的是学习器预测的准确度,泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的,方差指的是预测的期望值与真实值的偏差,D
16,假如你用logistic Regression 算法去预测电脑销量，当你在新的测试集上验证你的假设时，发现预测值有很大的偏差，并且你的假设在训练集上表现也很差，下面那些步骤你应该避免采纳,尝试着减小正则项 λ,尝试增加交叉特征,增大样本量,尝试更小的测试集或者特征,D
17,以P(w)表示词条w的概率，假设已知P（南京）=0.8，P（市长）=0.6，P（江大桥）=0.4：P（南京市）=0.3，P（长江大桥）=0.5：如果假设前后两个词的出现是独立的，那么分词结果就是,南京_市长_江大桥,南京市_长江_大桥,南京市长_江大桥,南京市_长江大桥,A
