数据可视化与Plotly图表库应用

在当今的商业智能领域,数据可视化扮演着至关重要的角色。它不仅帮助技术人员理解数据,还能让非技术背景的人士洞察数据背后的故事。为了创建出色的图表,市面上有许多库可供选择。本文将介绍Plotly库,它因其交互性、简单性、美观性、能够创建仪表板以及与Python脚本的兼容性而受到青睐。

Plotly库的优势

Plotly库提供了丰富的图表类型,包括柱状图、折线图、散点图等,并且支持交互操作,使得用户可以更直观地探索数据。此外,Plotly的API简洁明了,易于上手,即使是初学者也能快速掌握。

数据集介绍

本文的数据集来源于Kaggle,包含了大量文章信息。首先使用Pandas库读取数据,并进行初步的探索。

df = pd.read_csv("/kaggle/input/geeksforgeeks-articles/articles.csv")

通过查看数据的前几行,可以对数据集有一个大致的了解。

df.head()

数据预处理

在进行数据分析之前,需要对数据进行清洗和预处理。这包括添加新的列(如日期、月份和年份),以及删除无用列(如链接列)。

df["year"] = df["last_updated"].str.split(",", expand=True).get(1) df["date_month"] = df["last_updated"].str.split(",", expand=True).get(0) df["month"] = df["date_month"].str.split(" ", expand=True).get(1) df["date"] = df["date_month"].str.split(" ", expand=True).get(0) df.drop(["link"], axis=1, inplace=True)

接下来,检查数据的形状,以确保数据的行和列数量符合预期。

df.shape

检查空值

在进行任何分析之前,检查数据中的空值是非常重要的。可以通过以下代码来查看数据中的空值。

null_index = df.isnull().sum().index null_values = df.isnull().sum().values

通过可视化空值,可以更直观地了解数据的完整性。

# 绘制空值图

数据类型转换

为了进行计算和分析,需要确保数据类型的正确性。例如,年份和日期应该是整数类型。

df["year"] = df["year"].astype(int) df["date"] = df["date"].astype(int)

接下来,将通过Plotly库来创建图表,并对数据进行深入分析。

# 检查数据集中最受欢迎的 df.author_id.value_counts()[:10]

通过柱状图,可以直观地看到不同文章数量。

fig = px.histogram(x=author_name, y=author_count) fig.update_layout(xaxis_title="名称", yaxis_title="文章数量", title="每位文章总数")
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485