自动化数据分析与Langchain框架

在当今数据驱动的世界中,决策过程往往依赖于对大量数据的分析。然而,手动分析这些数据既耗时又令人畏惧。这就是自动化发挥作用的地方。借助Langchain和Gen AI等框架,可以自动化数据分析并节省宝贵的时间。

目录

  • 引言
  • 什么是Langchain?
  • Langchain中的代理类型
  • 使用Langchain进行数据分析
  • 创建Langchain代理
  • 查询代理
  • 结论
  • 常见问题解答

本文将深入探讨如何使用Langchain构建自己的代理并自动化数据分析。还将向展示如何逐步创建一个内置的pandas代理的Langchain代理。

什么是Langchain?

Langchain是一个用于构建大型语言模型(LLMs)应用程序的框架,如chatGPT。它提供了一种更好的管理内存、提示和创建链(一系列动作)的方式。此外,Langchain还为开发人员提供了创建代理的功能。代理是一个基于条件执行一系列动作的实体。

Langchain中的代理类型

Langchain中有两类代理:

  • 动作代理:动作代理决定采取的行动并逐一执行这些行动。
  • 计划并执行代理:计划并执行代理首先决定要采取的行动计划,然后逐一执行这些行动。

然而,这两个类别之间没有明确的区分,因为这一概念仍在发展中。

使用Langchain进行数据分析

要使用Langchain进行数据分析,首先需要安装Langchain和openai库。可以通过下载所需的库,然后将它们导入到项目中来实现这一点。

# 安装langchain和openai库 !pip install langchain openai # 导入库 import os import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from langchain.agents import create_pandas_dataframe_agent from langchain.llms import OpenAI # 设置api密钥 os.environ['OPENAI_API_KEY']="YOUR API KEY"

可以从OpenAI平台获取OpenAI API密钥。

创建Langchain代理

要创建一个Langchain代理,将使用内置的pandas代理。将使用心脏病风险数据集进行此演示。此数据在线可用,并可以直接读取到pandas数据框中。以下是如何操作的:

# 导入数据 df = pd.read_csv('http://www-stat.stanford.edu/~tibs/ElemStatLearn/datasets/SAheart.data') # 初始化代理 agent = create_pandas_dataframe_agent(OpenAI(temperature=0), df, verbose=True) openai = OpenAI(temperature=0.0) Openai.model_name # 这将打印正在使用的模型, # 默认情况下它使用‘text-davinci-003’

温度参数用于调整模型的创造力。当它设置为0时,模型最不可能产生幻觉。保持verbose=True。它将在执行过程中打印所有中间步骤。

查询代理

  • 基本EDA
  • 单变量分析
  • 假设检验
  • 双变量分析
# 让检查数据的形状。 agent("数据集的形状是什么?") # 识别缺失值 agent("每列有多少缺失值?") # 让看看数据是什么样子 agent("以表格形式显示5条记录。")
Q1. Langchain的用途是什么?
LangChain的目的是简化使用广泛的语言模型(LLMs)如OpenAI或Hugging Face的应用程序的开发过程。它通过提供一个用户友好的开源框架来实现这一点,该框架简化了构建过程,使开发更加直接。
Q2. Langchain有多好?
从广义上讲,Langchain通过为已经强大的LLMs增加内存和上下文,带来了激动人心的功能。此外,这使能够人为地引入“推理”并以更高的精度处理更复杂的任务。
Q3. Langchain是免费的吗?
大多数可用的Langchain教程主要关注使用OpenAI。虽然OpenAI API对于实验来说是实惠的,但它并不免费提供。
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485