Scikit-Learn中的fit()、transform()和fit_transform()方法详解

在机器学习项目中，数据预处理和模型训练是两个至关重要的步骤。Scikit-Learn库提供了多种方法来处理这些任务，其中fit()、transform()和fit_transform()是最常用的几种。本文将详细探讨这些方法的区别和应用场景，帮助读者更有效地使用Scikit-Learn进行数据分析和模型构建。

数据科学项目生命周期

在深入讨论Scikit-Learn中的fit()、transform()和fit_transform()方法之前，先来回顾一下数据科学项目的生命周期。这有助于更好地理解这些方法在项目中的使用场景和重要性。数据科学项目通常包括以下几个阶段：

探索性数据分析（EDA）：使用pandas、numpy、matplotlib等工具对数据集进行分析，并处理缺失值。EDA帮助总结数据的主要特征。

特征工程：根据领域知识从原始数据中提取特征的过程。

特征选择：从数据框中选择对估计器影响较大的特征。

模型创建：使用合适的算法（如回归器或分类器）创建机器学习模型。

部署：将机器学习模型部署到网络上。

如果关注前三个步骤，它们更多地涉及到数据预处理；而模型创建则更多地涉及到模型训练。这两个步骤是部署任何机器学习应用时最重要的。

Scikit-Learn中的Transformer

Scikit-Learn库中有一个对象，通常称为Transformer，它用于执行数据预处理和特征转换。在模型训练中，有线性回归、逻辑回归、knn等学习算法。以StandardScaler为例，它帮助进行特征转换，将特征的均值转换为0，标准差转换为1。PCA、Imputer、MinMaxScaler等都是Transformer的例子。这些技术都是在输入数据上进行预处理，改变训练数据集的格式，以便用于模型训练。

假设有f1、f2、f3和f4四个特征，其中f1、f2和f3是独立特征，f4是依赖特征。应用标准化过程，将特征F转换为F'。在这个阶段，对一个输入特征F进行三个不同的操作：fit()、transform()和fit_transform()。下面将讨论这些操作的不同之处。

fit()与fit_transform()的区别

方法：目的、语法和示例。

fit()：学习并估计转换的参数。

estimator.fit(X) estimator.fit(train_data)

transform()：将学习到的转换应用到新数据。

transformed_data = estimator.transform(X) transformed_data = estimator.transform(test_data)

fit_transform()：学习参数并将转换应用到新数据。

transformed_data = estimator.fit_transform(X) transformed_data = estimator.fit_transform(data)

注意：在语法中，estimator指的是Scikit-Learn中使用的具体估计器或转换器对象，X代表输入数据。

例如，假设有用于训练的train_data和用于测试的test_data数据集。可以使用fit()从训练数据中学习参数（estimator.fit(train_data)），然后使用transform()将学习到的转换应用到测试数据（transformed_data = estimator.transform(test_data)）。或者，可以使用fit_transform()一步完成这两个步骤（transformed_data = estimator.fit_transform(data)）。

在fit()方法中，使用所需的公式对输入数据的特征值进行计算，并将这些计算拟合到转换器上。要应用fit()方法，需要在转换器对象前使用fit()。假设初始化了StandardScaler对象O并执行.fit()。它接受特征F并计算特征F的均值（μ）和标准差（σ）。这就是fit方法中发生的事情。

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 分割训练和测试数据
xtrain, xtest, ytrain, ytest = train_test_split(
    x, y,
    test_size=0.3,
    random_state=42
)
# 创建对象
stand = StandardScaler()
# 拟合数据
Fit = stand.fit(xtrain)

在transform()方法中，对数据进行转换，将在fit()中计算的计算应用于特征F的每个数据点。需要在拟合对象前使用.transform()，因为要转换拟合的计算。在上面的例子中，创建了fit方法的对象，然后将其放在.transform前面，transform方法使用这些计算来转换数据点的规模，得到的输出始终以稀疏矩阵或数组的形式出现。

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 分割训练和测试数据
xtrain, xtest, ytrain, ytest = train_test_split(
    x, y,
    test_size=0.3,
    random_state=42
)
# 创建对象
stand = StandardScaler()
# 拟合数据
Fit = stand.fit(xtrain)
# 转换数据
x_scaled = Fit.transform(xtrain)

如所见，transform的输出是以数组的形式，其中数据点的范围在0到1之间。

注意：这只在想要对输入数据进行某种转换时执行。

fit_transform() Sklearn方法是fit方法和transform方法的组合。这种方法同时对输入数据执行fit和transform操作，并转换数据点。如果分别使用fit和transform，会降低模型的效率。相反，fit_transform()用于同时完成这两项工作。

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
# 分割训练和测试数据
xtrain, xtest, ytrain, ytest = train_test_split(
    x, y,
    test_size=0.3,
    random_state=42
)
stand = StandardScaler()
Fit_Transform = stand.fit_transform(xtrain)
Fit_Transform

这种方法的输出与分别应用fit()和transform()方法后获得的输出相同。

希望喜欢这篇文章，并理解了fit transform以及fit_transform和transform之间的区别，以及fit和fit_transform之间的主要区别。

fit()方法有助于将训练数据集拟合到估计器（机器学习算法）中。

transform()有助于将数据转换为更适合模型的形式。

fit_transform()方法结合了fit()和transform()的功能。

Q1. 可以在不使用fit()的情况下使用transform()吗？

A. 是的，transform()方法可以在不使用fit()方法的情况下使用。这在要使用与训练数据相同的缩放或编码来转换新数据时非常有用。

Q2. fit_transform()在Scikit-Learn中的目的是什么？

A. fit_transform()方法用于将数据拟合到模型中，并将其转换为更适合模型的形式，一步完成。这节省了分别调用fit()和transform()的时间和努力。

Q3. 使用Scikit-Learn中的fit()、transform()和fit_transform()方法有什么限制吗？

A. 这些方法的主要限制是它们可能不适用于某些类型的数据，例如包含空值或异常值的数据，可能需要执行额外的预处理步骤。

Q4. fit和transform在标签编码器中的区别是什么？

Streamlit入门与应用

本文介绍了Streamlit这个Python库，它使得数据科学家和研究人员能够快速构建数据应用。文章涵盖了Streamlit的介绍、安装、基础应用开发以及一些高级特性。

数据科学中的降维技术

本文介绍了数据科学中的降维技术，包括主成分分析（PCA）的概念、应用和Python代码实现。

Scikit-Learn中的fit()、transform()和fit_transform()方法详解

数据科学项目生命周期

Scikit-Learn中的Transformer

fit()与fit_transform()的区别

Streamlit入门与应用

数据科学中的降维技术

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379

Scikit-Learn中的fit()、transform()和fit_transform()方法详解

数据科学项目生命周期

Scikit-Learn中的Transformer

fit()与fit_transform()的区别

Streamlit入门与应用

数据科学中的降维技术

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：15216758379

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379