三步掌握智能数据分析:小白的终极入门指南

【免费下载链接】pandas-ai 该项目扩展了Pandas库的功能,添加了一些面向机器学习和人工智能的数据处理方法,方便AI工程师利用Pandas进行更高效的数据准备和分析。 【免费下载链接】pandas-ai 项目地址: https://gitcode.com/GitHub_Trending/pa/pandas-ai

PandasAI是一个强大的开源项目,它扩展了Pandas库的功能,添加了面向机器学习和人工智能的数据处理方法,让AI工程师能够利用Pandas进行更高效的数据准备和分析。本指南将通过三个简单步骤,帮助你快速上手这款智能数据分析工具。

第一步:快速安装PandasAI 🚀

安装PandasAI非常简单,你可以选择使用poetry或pip两种方式:

# 使用poetry(推荐)
poetry add pandasai

# 使用pip
pip install pandasai

在安装前,建议使用你喜欢的环境管理器(如Poetry、Pipenv、Conda等)创建一个虚拟环境。

如果你需要使用特定功能,还可以安装可选依赖:

pip install pandasai[extra-dependency-name]

其中extra-dependency-name可以替换为google-aiexcelplotly等,具体可参考docs/v2/library.mdx中的详细说明。

第二步:探索核心功能 🔍

PandasAI提供了三个核心类来满足不同的数据分析需求:

SmartDataframe:单数据框智能分析

SmartDataframe是PandasAI的主要类,用于与单个数据框交互。下面是一个简单示例:

import pandas as pd
from pandasai import SmartDataframe

# 示例数据框
sales_by_country = pd.DataFrame({
    "country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", "Canada", "Australia", "Japan", "China"],
    "sales": [5000, 3200, 2900, 4100, 2300, 2100, 2500, 2600, 4500, 7000]
})

df = SmartDataframe(sales_by_country)
df.chat('Which are the top 5 countries by sales?')
# 输出: China, United States, Japan, Germany, Australia

你还可以为数据框提供名称和描述,帮助AI更好地理解数据:

df = SmartDataframe(df, name="销售数据", description="包含不同国家的销售业绩数据")

PandasAI智能数据分析界面 PandasAI的智能数据分析界面,左侧显示数据表格,右侧为AI聊天窗口

SmartDatalake:多数据框联合分析

当需要处理多个数据框时,可以使用SmartDatalake

from pandasai import SmartDatalake

# 员工数据
employees_df = pd.DataFrame({
    'EmployeeID': [1, 2, 3, 4, 5],
    'Name': ['John', 'Emma', 'Liam', 'Olivia', 'William'],
    'Department': ['HR', 'Sales', 'IT', 'Marketing', 'Finance']
})

# 薪资数据
salaries_df = pd.DataFrame({
    'EmployeeID': [1, 2, 3, 4, 5],
    'Salary': [5000, 6000, 4500, 7000, 5500]
})

lake = SmartDatalake([employees_df, salaries_df])
lake.chat("Who gets paid the most?")
# 输出: Olivia gets paid the most

Agent:多轮对话分析

Agent类支持多轮对话,能够跟踪对话状态:

from pandasai import Agent

agent = Agent(sales_by_country)
agent.chat('Which are the top 5 countries by sales?')
# 输出: China, United States, Japan, Germany, Australia

agent.chat('And which one has the most deals?')
# 输出: United States has the most deals

第三步:个性化配置与高级功能 ⚙️

PandasAI提供了丰富的配置选项,可以通过config对象或pandasai.json文件进行设置:

from pandasai import SmartDataframe
from pandasai.llm import OpenAI

# 自定义配置
config = {
    "llm": OpenAI(api_token="YOUR_API_KEY"),
    "save_charts": True,
    "save_charts_path": "my_charts/",
    "verbose": True
}

df = SmartDataframe(sales_by_country, config=config)

主要配置选项包括:

  • llm:设置使用的语言模型
  • save_logs:是否保存日志
  • verbose:是否显示详细输出
  • save_charts:是否保存生成的图表
  • security:安全级别设置("none"、"standard"或"advanced")

PandasAI安全设置界面 PandasAI的安全设置界面,可配置数据访问权限

开始你的智能数据分析之旅 🌟

通过以上三个简单步骤,你已经掌握了PandasAI的基本使用方法。现在,你可以开始使用这个强大的工具来简化你的数据分析工作流程了。无论是简单的数据查询还是复杂的多表分析,PandasAI都能帮你轻松完成。

想要了解更多示例和高级功能,可以查看项目中的examples/目录,里面包含了各种使用场景的详细演示。

祝你在智能数据分析的道路上越走越远!

【免费下载链接】pandas-ai 该项目扩展了Pandas库的功能,添加了一些面向机器学习和人工智能的数据处理方法,方便AI工程师利用Pandas进行更高效的数据准备和分析。 【免费下载链接】pandas-ai 项目地址: https://gitcode.com/GitHub_Trending/pa/pandas-ai

Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐