Scikit-learn 全局配置指南

在使用scikit-learn进行机器学习任务时，合理配置全局参数可以显著提升性能和效率。以下是一些关键的全局配置选项，它们可以帮助优化机器学习流程。

首先，assume_finite参数允许跳过数据的有限性验证，这可以节省时间，但可能会导致潜在的崩溃。默认情况下，这个验证是开启的，以避免错误。

其次，working_memory参数允许限制临时数组的大小，以MiB为单位。这通常可以在并行化操作中节省计算时间和内存。默认情况下，这个值被设置为1024MiB。

print_changed_only参数决定了在打印估计器时是否只打印被设置为非默认值的参数。这使得输出更加简洁，尤其是在Jupyter笔记本中。

在Jupyter环境中，display参数允许选择以文本或图表的形式展示估计器。默认情况下，它被设置为'diagram'，即以图表形式展示。

pairwise_dist_chunk_size参数用于加速成对距离的计算，它定义了每个块中的行向量数量。这个参数主要用于内部测试和基准测试，普通用户通常不需要调整它。

enable_cython_pairwise_dist参数允许在可能的情况下使用加速的成对距离计算后端。这个功能默认是开启的，同样主要用于内部测试和基准测试。

array_api_dispatch参数允许在输入遵循Array API标准时使用Array API分发。这个功能默认是关闭的，更多细节可以在用户指南中找到。

transform_output参数允许配置transform和fit_transform的输出格式。可以选择默认的变换器输出格式，或者指定输出为Pandas DataFrame或Polars格式。

enable_metadata_routing参数用于启用元数据路由。这个功能默认是关闭的，更多信息可以参考元数据路由用户指南。

最后，skip_parameter_validation参数允许跳过估计器fit方法中的超参数类型和值的验证。这可以在某些情况下节省时间，但也可能导致底层崩溃和异常，伴随着令人困惑的错误消息。