Scikit-learn 全局配置指南

在使用scikit-learn进行机器学习任务时,合理配置全局参数可以显著提升性能和效率。以下是一些关键的全局配置选项,它们可以帮助优化机器学习流程。

首先,assume_finite参数允许跳过数据的有限性验证,这可以节省时间,但可能会导致潜在的崩溃。默认情况下,这个验证是开启的,以避免错误。

其次,working_memory参数允许限制临时数组的大小,以MiB为单位。这通常可以在并行化操作中节省计算时间和内存。默认情况下,这个值被设置为1024MiB。

print_changed_only参数决定了在打印估计器时是否只打印被设置为非默认值的参数。这使得输出更加简洁,尤其是在Jupyter笔记本中。

在Jupyter环境中,display参数允许选择以文本或图表的形式展示估计器。默认情况下,它被设置为'diagram',即以图表形式展示。

pairwise_dist_chunk_size参数用于加速成对距离的计算,它定义了每个块中的行向量数量。这个参数主要用于内部测试和基准测试,普通用户通常不需要调整它。

enable_cython_pairwise_dist参数允许在可能的情况下使用加速的成对距离计算后端。这个功能默认是开启的,同样主要用于内部测试和基准测试。

array_api_dispatch参数允许在输入遵循Array API标准时使用Array API分发。这个功能默认是关闭的,更多细节可以在用户指南中找到。

transform_output参数允许配置transform和fit_transform的输出格式。可以选择默认的变换器输出格式,或者指定输出为Pandas DataFrame或Polars格式。

enable_metadata_routing参数用于启用元数据路由。这个功能默认是关闭的,更多信息可以参考元数据路由用户指南。

最后,skip_parameter_validation参数允许跳过估计器fit方法中的超参数类型和值的验证。这可以在某些情况下节省时间,但也可能导致底层崩溃和异常,伴随着令人困惑的错误消息。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485