本文介绍了scikit-learn库的新版本更新,包括bug修复、性能提升和新特性介绍,如元数据路由、HDBSCAN聚类算法、TargetEncoder编码策略等。
本文介绍了数据科学中无监督学习的各种技术,包括降维、聚类、双聚类、信号分解、协方差估计、异常检测和密度估计等。
本页面介绍了均值漂移算法中带宽估计的重要性以及如何使用sklearn库中的estimate_bandwidth函数进行带宽估计。
本文介绍了一种在数据中存在缺失值时计算欧几里得距离的方法,包括算法原理、参数说明、代码示例和应用场景。
本页面介绍了戴维斯-鲍尔丁指数,这是一种用于评估聚类效果的指标,通过计算每个簇与其最相似簇之间的相似度来衡量聚类质量。
本文介绍了Scikit-learn库中使用的各种混合类,包括分类器、回归器、聚类器等,并提供了如何克隆估计器和判断其类型的方法。
本文介绍了如何使用同质性度量来评估聚类标签的质量,确保聚类结果中的数据点仅属于单一类别。
本文介绍了基于Xi方法的OPTICS聚类算法,包括算法参数、执行过程以及代码示例。适用于数据科学和机器学习领域。
本文探讨了K-means聚类算法的不同初始化策略对运行时间和结果质量的影响,并使用真实数据集进行了实验验证。
本文探讨了KMeans和MiniBatchKMeans聚类算法的不同初始化策略对算法收敛性的影响,并提供了代码示例。
本文介绍了孤立森林算法的基本概念,并通过Python代码示例展示了如何在玩具数据集上训练孤立森林模型,并可视化其决策边界。
本页面提供了一个关于如何使用scikit-learn库中的make_blobs函数来生成高斯数据簇的详细指南。
本网页介绍了使用LassoLarsIC估计器在糖尿病数据集上进行模型选择的过程,以及如何利用AIC和BIC标准来选择最佳模型。
本文介绍了如何使用scikit-learn库中的make_pipeline函数来构建一个包含多个步骤的机器学习流水线。
本页面介绍了如何使用特征联合构造器来组合多个变换器,并通过并行处理提高效率。
本网页介绍了数据预处理和特征提取的基本概念、方法和技术,包括标准化、归一化、编码分类特征、缺失值处理、多项式特征生成、无监督降维等。
本文介绍了如何使用AgglomerativeClustering和scipy中的dendrogram方法进行层次聚类分析。
本页面展示了如何使用基于邻居的查询(特别是核密度估计)来处理地理空间数据,使用基于Haversine距离度量的球面坐标。
本网页通过排列测试评分方法,评估交叉验证得分的重要性,并使用Iris数据集进行演示。
本文介绍了如何使用scikit-learn库中的评分器(scorer)来衡量模型性能。
本页面介绍了如何计算距离矩阵,包括输入参数、计算方法以及多线程计算的应用。
本网页介绍了如何使用随机森林分类器处理具有多重共线性特征的数据集,并计算特征的重要性。
本文介绍了偏最小二乘法(PLS)的基本原理、算法实现及其在回归分析中的应用。PLS是一种有效的数据降维技术,特别适用于变量数量多于观测值的情况。
本页面介绍了如何对CSC/CSR格式的稀疏矩阵进行特征缩放,通过乘以特定的缩放因子来实现。
本文介绍了如何使用OneClassSVM模型来预测南美两种哺乳动物的地理分布,并展示了模型的ROC曲线下面积。
本文介绍了机器学习库scikit-learn的最新版本中新增的一些关键特性和改进,包括固定阈值分类器、阈值优化分类器、PCA性能提升等。
本页面介绍了如何在CSR或CSC矩阵上沿指定轴增量计算均值和方差。
本网页探讨了梯度提升技术在不同集成学习模型中的应用,包括随机森林、直方图梯度提升树和AdaBoost等,以及它们在特征重要性、模型比较、早期停止等方面的应用。
本文通过模拟数据对比了独立成分分析(ICA)和主成分分析(PCA)在二维点云上的应用效果。
本文介绍了随机梯度下降(SGD)的早期停止策略,这是一种在训练过程中,通过监控验证集的预测分数来提前结束训练,以防止过拟合并提高模型泛化能力的方法。