在这个教程中,将探讨如何使用主成分分析(PCA)和支持向量机(SVM)来处理人脸数据集。使用的是预处理过的“野外标记人脸”(Labeled Faces in the Wild,简称LFW)数据集的一个子集。这个数据集包含了大量的人脸图像,用于训练和测试分类模型。
首先,需要下载并加载数据集。使用scikit-learn库中的fetch_lfw_people函数来获取数据。这个函数允许设置每个人脸的最小图像数量,并可以调整图像的大小。在示例中,要求每个人至少有70张图像,并将图像大小调整为原来的0.4倍。
lfw_people = fetch_lfw_people(min_faces_per_person=70, resize=0.4)
接下来,对图像数据进行分析,以确定它们的形状。这对于后续的绘图和模型训练非常重要。使用images属性来获取图像数据,并使用shape属性来获取数据的形状。还将数据和标签分别存储在X和y变量中,以便后续使用。
n_samples, h, w = lfw_people.images.shape
X = lfw_people.data
n_features = X.shape[1]
y = lfw_people.target
target_names = lfw_people.target_names
n_classes = target_names.shape[0]
在准备数据之后,将数据集分为训练集和测试集。使用train_test_split函数来实现这一点,并将25%的数据保留为测试集。此外,还使用StandardScaler对数据进行标准化处理,以确保模型训练的公平性。
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
接下来,使用PCA进行特征提取和降维。设置主成分的数量为150,并使用PCA类来拟合训练数据。这个过程将帮助提取最重要的特征,即所谓的“特征脸”。
n_components = 150
pca = PCA(n_components=n_components, svd_solver='randomized', whiten=True).fit(X_train)
eigenfaces = pca.components_.reshape((n_components, h, w))
在特征提取之后,将数据投影到特征脸的正交基上。这将为SVM分类器提供输入数据。
X_train_pca = pca.transform(X_train)
X_test_pca = pca.transform(X_test)
现在,开始训练SVM分类器。使用RandomizedSearchCV来搜索最佳的参数组合。在示例中,调整了C和gamma参数。
param_grid = {
"C": loguniform(1e3, 1e5),
"gamma": loguniform(1e-4, 1e-1),
}
clf = RandomizedSearchCV(SVC(kernel="rbf", class_weight="balanced"), param_grid, n_iter=10)
clf.fit(X_train_pca, y_train)
在模型训练完成后,在测试集上进行预测,并使用classification_report来评估模型的性能。此外,还使用ConfusionMatrixDisplay来可视化分类结果。
y_pred = clf.predict(X_test_pca)
print(classification_report(y_test, y_pred, target_names=target_names))
ConfusionMatrixDisplay.from_estimator(clf, X_test_pca, y_test, display_labels=target_names, xticks_rotation="vertical")
plt.tight_layout()
plt.show()
最后,使用matplotlib来定性评估预测结果。定义了一个名为plot_gallery的辅助函数,用于绘制肖像画廊。还绘制了测试集的部分预测结果和最重要的特征脸。
def plot_gallery(images, titles, h, w, n_row=3, n_col=4):
# Helper function to plot a gallery of portraits
plt.figure(figsize=(1.8 * n_col, 2.4 * n_row))
plt.subplots_adjust(bottom=0, left=0.01, right=0.99, top=0.90, hspace=0.35)
for i in range(n_row * n_col):
plt.subplot(n_row, n_col, i + 1)
plt.imshow(images[i].reshape((h, w)), cmap=plt.cm.gray)
plt.title(titles[i], size=12)
plt.xticks(())
plt.yticks(())
prediction_titles = [title(y_pred, y_test, target_names, i) for i in range(y_pred.shape[0])]
plot_gallery(X_test, prediction_titles, h, w)
eigenface_titles = ["eigenface %d" % i for i in range(eigenfaces.shape[0])]
plot_gallery(eigenfaces, eigenface_titles, h, w)
plt.show()
虽然使用PCA和SVM可以解决人脸检测问题,但卷积神经网络(CNN)在这类问题上的表现可能更好。然而,CNN超出了scikit-learn库的范围。感兴趣的读者可以尝试使用PyTorch或TensorFlow来实现这些模型。