本文通过生成包含异常值的数据集,比较了Huber回归和岭回归在处理异常值时的表现。
本网页介绍了如何使用重叠的图像补丁来重建原始图像,包括重建过程的参数说明和示例代码。
本文介绍了如何使用排列测试来评估交叉验证分数的统计显著性,以及如何解释得到的p值。
本文比较了不同异常检测算法在2D数据集上的表现,包括OneClassSVM、SGDOneClassSVM、EllipticEnvelope、IsolationForest和LocalOutlierFactor等。
本网页展示了如何使用AgglomerativeClustering和scipy中的dendrogram方法绘制层次聚类的树状图。
本页面介绍高斯过程模型,包括分类器、回归器以及多种核函数。
本页面展示了如何使用随机森林算法评估特征在分类任务中的重要性,并比较了基于不纯度减少和排列重要性两种方法。
本文通过生成的回归数据集,展示了Huber回归和岭回归在面对异常值时的不同表现,并分析了Huber回归参数epsilon对模型的影响。
本网页介绍了多种降维技术,包括主成分分析(PCA)、独立成分分析(ICA)、字典学习等,并提供了相应的算法实现方法。
本网页展示了在二维数字数据集上应用不同层次聚类方法的可视化效果,包括ward、average、complete和single等链接策略。
本文介绍了均方误差回归损失的计算方法,包括参数定义、计算公式和示例代码。
本文介绍了如何在不平衡数据集中估计样本权重,以帮助改善分类模型的性能。
本网页介绍约翰逊-林登斯特劳斯引理,并通过随机投影技术展示如何在保持数据对之间距离的同时降低数据集的维度。
本文介绍了如何使用K近邻算法进行数据预处理,并利用缓存技术提高模型训练效率。
本文介绍了互信息这一评估指标,用于衡量两个聚类结果之间的相似度。
本页面介绍了如何使用Python中的机器学习库对图像数据进行聚合和恢复处理。
本文通过合成的分类数据集,展示了特征离散化技术如何通过将特征分解成多个区间,并使用独热编码,来增强线性分类器的性能。同时,对比了在线性可分和非线性可分数据集上,特征离散化对分类器性能的影响。
本文比较了在新闻组数据集上使用L1正则化和L2正则化的对数几率回归模型的性能。
本页面介绍了在线字典学习矩阵分解问题的求解方法,包括算法参数详解和示例代码。
本文介绍了如何使用Python加载SVMLight/LibSVM格式的稀疏数据集,并提供了代码示例。
本文探讨了数据科学中邻近分析技术的应用,包括TSNE、核密度估计、最近邻分类和异常检测等。
本页面介绍了如何使用sklearn库中的函数计算两个样本集之间的L1距离,即曼哈顿距离,并提供了代码示例。
幂变换是一种参数化的数据转换方法,用于将数据转换为更接近正态分布的形式,以解决非恒定方差或需要正态分布的情况。
本页面介绍了单变量线性回归分析的方法,包括F统计量和p值的计算,以及如何使用这些统计量进行特征选择。
本文介绍了如何使用scikit-learn库中的线性回归模型来预测糖尿病数据集的进展情况。
本文介绍了线性判别分析(LDA)和二次判别分析(QDA)在不同数据集上的表现,并通过可视化展示了两种方法的决策边界和协方差椭球。
本文介绍了scikit-learn 1.0版本的新特性、改进和bug修复。
本网页展示了如何使用信息论标准对高斯混合模型(GMM)进行模型选择,包括协方差类型和模型中组件的数量。
本文比较了在鸢尾花数据集上的分类器上嵌套与非嵌套交叉验证策略。嵌套交叉验证通常用于训练需要优化超参数的模型。
本页面介绍了如何构建一个3D图像中像素间的连接图,包括参数说明、代码示例和返回结果的解释。