随着数据源的增加,数据变得越来越复杂。数据科学家的任务是从这些数据中提取可操作的洞察,但随着数据维度的增加,这项任务变得越来越困难。人类感知世界的方式是三维的,因此从成千上万甚至数百万的变量中识别模式是一项严重依赖机器的任务。
即使对于机器来说,处理如此复杂的数据也是一个挑战。这时,降维技术就显得尤为重要。如果还没有听说过这个术语,可以查看AV的文章。降维技术的核心思想是减少数据集中的维度数量,使其更易于处理。实现这一目标的方法有很多,其中最常见的一种叫做主成分分析(PCA)。
Hypertools库正是围绕PCA和数据可视化设计的。这是一个Python库,用于实现基于降维的数据集(或一系列数据集)的可视化探索,这些数据集具有高维度。Hypertools的工作原理是,输入一个高维数据集,通过一个函数命令,Hypertools就减少了数据的维度,并以图表的形式可视化它。这个库是基于一些流行的Python库开发的,比如scikit-learn、seaborn和matplotlib。
开发者提到,Hypertools为数据科学家提供了以下几个主要功能:在2D/3D中绘制高维数据集的函数、静态和动态图表、简单的API用于自定义图表样式、包括超对齐、k均值聚类、归一化等在内的强大数据操作工具、支持Numpy数组列表、Pandas数据框、文本或(混合)列表、将主题模型和其他文本向量化方法应用于文本数据。
要安装Hypertools的最新稳定版本,可以使用以下pip命令:
pip install hypertools
可以在这里查看Hypertools的GitHub仓库,也可以阅读他们的研究论文。此外,不要错过下面的短视频,它将向介绍这个库。
个人非常喜欢这个库!任何处理过具有许多变量的数据集的人都知道这是多么令人头疼的事情。虽然执行PCA被认为是必要的,但Hypertools使得数据科学家处理成千上万甚至数百万的变量变得更加容易。
是一个数据可视化的坚定支持者,所以这个库很快就成为了最喜欢的库之一。它允许从所有角度查看维度,在超空间中,这真是太棒了。难怪这个库很快就获得了近1000个星标,并在数据科学社区中变得流行起来。
尝试这个库,并告诉它对来说效果如何。
在这里订阅AVBytes,定期获取数据科学、机器学习和人工智能的最新更新!
降维技术是数据科学中的一个重要概念,它涉及到减少数据集中的变量数量,同时尽可能保留原始数据的重要信息。这样做的好处是,可以简化数据,使其更易于分析和可视化,同时减少计算资源的需求。
主成分分析(PCA)是降维技术中的一种,它通过正交变换将一组可能相关的变量转换为一组线性不相关的变量,称为主成分。这些主成分按照方差的大小排序,第一个主成分具有最大的方差,每个后续的主成分在与前面的主成分正交的同时,具有最大的方差。
在Hypertools库中,PCA被用作核心算法之一,以帮助数据科学家更有效地处理和分析高维数据集。通过使用Hypertools,用户可以轻松地将高维数据投影到低维空间,并以直观的方式进行可视化。