Awesome Public Datasets:数据人必备的全球公开数据集宝藏库

在数据驱动的时代,高质量公开数据集是科研、机器学习、数据分析、项目实战的核心燃料。但找数据难、找靠谱数据更难——分散、杂乱、质量参差不齐,是大多数数据爱好者的痛点。而 Awesome Public Datasets(APD) 就是解决这个问题的终极神器。
在这里插入图片描述

一、项目是什么?

Awesome Public Datasets 是由上海交通大学 OMNILab 孵化、现归属白玉兰开源 AI 社区维护的全球顶级开源数据集索引项目
它是一个主题中心化、人工精选、持续更新的高质量公共数据清单,收录全球权威机构(NASA、WHO、世界银行、Kaggle 等)的公开数据,帮你一站式解决“数据从哪找、好不好用”的核心问题。

项目核心定位:

  • 面向研究者、开发者、数据分析师、学生
  • 免费为主,标注许可与使用限制
  • 社区驱动,自动化+人工双维护,保证时效性

二、核心优势:为什么首选它?

  1. 领域全覆盖
    覆盖35+ 细分领域,从农业、生物、气候,到计算机视觉、NLP、金融、医疗、时序、交通、政府数据,几乎满足所有方向需求。

  2. 质量有保障
    所有数据集经过筛选验证,标注状态标识

  • ✅ OK:稳定可用、维护正常
  • ⚠️ FIXME:待修复/需注意
    从源头避开无效、失效、低质数据。
  1. 信息超完整
    每条数据附:来源、简介、规模、格式、许可、直达链接,不用反复跳转查证。

  2. 纯粹的导航站
    不存储数据,只做高质量链接聚合,轻量、快速、无广告。

三、热门领域与精选数据集(速查版)

1. 机器学习/竞赛入门

  • Kaggle 竞赛数据:实战必用,覆盖分类、回归、CV、NLP
  • DrivenData:公益向数据竞赛
  • KDD Cup:顶会经典数据集

2. 计算机视觉(CV)

  • ImageNet:图像分类里程碑
  • COCO:目标检测/分割通用
  • Open Images:谷歌大规模图像库

3. 自然语言处理(NLP)

  • SQuAD:阅读理解标准集
  • GLUE/SuperGLUE:语言理解基准
  • 多语言平行语料库

4. 时间序列(时序预测)

  • 气象/气候时序
  • 电力负荷、交通流量
  • 金融行情与交易时序

5. 金融经济

  • 世界银行开放数据
  • 各国央行、证券交易所公开数据
  • 加密货币历史行情

6. 医疗健康

  • MIMIC-III:重症监护临床数据
  • CheXpert:医学X光影像
  • 全球疫情、传染病统计

7. 地理空间(GIS)

  • NASA 地球观测
  • OpenStreetMap 开放地图
  • 全球气候、地形、遥感数据

8. 政府/公共事业

  • 各国政府开放数据门户
  • 交通、教育、能源、人口普查

四、高效使用 4 个技巧

  1. 按主题直达
    打开 GitHub 目录,直接点击领域英文(如 TimeSeries、Healthcare)快速定位。

  2. 先看许可再用
    注意标注:Commercial Use / Non-Commercial,避免版权风险。

  3. 配合工具提速
    搭配 Hugging Face Datasets、Pandas、BigQuery Public Datasets,一键加载与分析。

  4. 参与社区共建
    提交 PR 新增数据集,让清单更全。

五、总结

Awesome Public Datasets 不是一个简单的链接列表,而是数据科学领域的“维基百科”
无论你是做课程作业、毕设、科研论文、AI 模型训练,还是做数据可视化、行业分析,它都能帮你快速找到权威、免费、好用的数据,把时间花在分析与建模,而不是找数据。

官方 GitHub 地址
https://github.com/awesomedata/awesome-public-datasets

快去收藏,你的下一个项目灵感,可能就从这里开始!

高频公开数据集速查表(可直接复制)

1. 机器学习 / 通用竞赛

名称 简介 链接
Kaggle Datasets 分类、回归、CV、NLP 等竞赛&实战数据集 https://www.kaggle.com/datasets
UCI ML Repository 经典机器学习小数据集,适合教学&入门 https://archive.ics.uci.edu/ml/index.php
Hugging Face Datasets NLP/CV/时序一键加载数据集 https://huggingface.co/datasets

2. 计算机视觉 CV

名称 简介 链接
COCO 目标检测、分割、姿态估计 https://cocodataset.org
Open Images 谷歌大规模标注图像库 https://storage.googleapis.com/openimages/web/index.html
ImageNet 图像分类基准数据集 https://www.image-net.org

3. 自然语言处理 NLP

名称 简介 链接
SQuAD 机器阅读理解标准数据集 https://rajpurkar.github.io/SQuAD-explorer
GLUE / SuperGLUE 语言理解评测基准 https://gluebenchmark.com
Common Crawl 海量互联网网页文本 https://commoncrawl.org

4. 时间序列(时序预测)

名称 简介 链接
Electricity Load 电力负荷时序数据 https://archive.ics.uci.edu/ml/datasets/ElectricityLoadDiagrams20112014
Weather Time Series 气象温度/湿度/风速时序 https://www.ncdc.noaa.gov
Traffic Flow 城市交通流量时序 https://data.gov

5. 金融经济

名称 简介 链接
World Bank Open Data 全球各国经济、人口、发展指标 https://data.worldbank.org
Yahoo Finance 股票、指数、加密货币历史行情 https://finance.yahoo.com
FRED 美国宏观经济数据 https://fred.stlouisfed.org

6. 医疗健康

名称 简介 链接
MIMIC-III 重症监护临床数据 https://mimic.mit.edu
CheXpert 胸部X光医学影像 https://stanfordmlgroup.github.io/competitions/chexpert

7. 地理 / 遥感 / 空间数据

名称 简介 链接
OpenStreetMap 全球开源地图数据 https://www.openstreetmap.org
NASA Earthdata 遥感、气候、地形数据 https://earthdata.nasa.gov

8. 政府 & 公共开放数据

名称 简介 链接
Data.gov (US) 美国政府开放数据 https://data.gov
国家数据网 (CN) 中国官方统计&行业数据 https://www.stats.gov.cn
Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐