在使用scikit-learn进行机器学习任务时,合理配置全局参数可以显著提升性能和效率。以下是一些关键的全局配置选项,它们可以帮助优化机器学习流程。
首先,assume_finite
参数允许跳过数据的有限性验证,这可以节省时间,但可能会导致潜在的崩溃。默认情况下,这个验证是开启的,以避免错误。
其次,working_memory
参数允许限制临时数组的大小,以MiB为单位。这通常可以在并行化操作中节省计算时间和内存。默认情况下,这个值被设置为1024MiB。
print_changed_only
参数决定了在打印估计器时是否只打印被设置为非默认值的参数。这使得输出更加简洁,尤其是在Jupyter笔记本中。
在Jupyter环境中,display
参数允许选择以文本或图表的形式展示估计器。默认情况下,它被设置为'diagram',即以图表形式展示。
pairwise_dist_chunk_size
参数用于加速成对距离的计算,它定义了每个块中的行向量数量。这个参数主要用于内部测试和基准测试,普通用户通常不需要调整它。
enable_cython_pairwise_dist
参数允许在可能的情况下使用加速的成对距离计算后端。这个功能默认是开启的,同样主要用于内部测试和基准测试。
array_api_dispatch
参数允许在输入遵循Array API标准时使用Array API分发。这个功能默认是关闭的,更多细节可以在用户指南中找到。
transform_output
参数允许配置transform和fit_transform的输出格式。可以选择默认的变换器输出格式,或者指定输出为Pandas DataFrame或Polars格式。
enable_metadata_routing
参数用于启用元数据路由。这个功能默认是关闭的,更多信息可以参考元数据路由用户指南。
最后,skip_parameter_validation
参数允许跳过估计器fit方法中的超参数类型和值的验证。这可以在某些情况下节省时间,但也可能导致底层崩溃和异常,伴随着令人困惑的错误消息。