Awesome Public Datasets:数据人必备的全球公开数据集宝藏库
在数据驱动的时代,高质量公开数据集是科研、机器学习、数据分析、项目实战的核心燃料。但找数据难、找靠谱数据更难 —— 分散、杂乱、质量参差不齐,是大多数数据爱好者的痛点。而 Awesome Public Datasets(APD) 就是解决这个问题的终极神器。
Awesome Public Datasets:数据人必备的全球公开数据集宝藏库
在数据驱动的时代,高质量公开数据集是科研、机器学习、数据分析、项目实战的核心燃料。但找数据难、找靠谱数据更难——分散、杂乱、质量参差不齐,是大多数数据爱好者的痛点。而 Awesome Public Datasets(APD) 就是解决这个问题的终极神器。
一、项目是什么?
Awesome Public Datasets 是由上海交通大学 OMNILab 孵化、现归属白玉兰开源 AI 社区维护的全球顶级开源数据集索引项目。
它是一个主题中心化、人工精选、持续更新的高质量公共数据清单,收录全球权威机构(NASA、WHO、世界银行、Kaggle 等)的公开数据,帮你一站式解决“数据从哪找、好不好用”的核心问题。
项目核心定位:
- 面向研究者、开发者、数据分析师、学生
- 免费为主,标注许可与使用限制
- 社区驱动,自动化+人工双维护,保证时效性
二、核心优势:为什么首选它?
-
领域全覆盖
覆盖35+ 细分领域,从农业、生物、气候,到计算机视觉、NLP、金融、医疗、时序、交通、政府数据,几乎满足所有方向需求。 -
质量有保障
所有数据集经过筛选验证,标注状态标识:
- ✅ OK:稳定可用、维护正常
- ⚠️ FIXME:待修复/需注意
从源头避开无效、失效、低质数据。
-
信息超完整
每条数据附:来源、简介、规模、格式、许可、直达链接,不用反复跳转查证。 -
纯粹的导航站
不存储数据,只做高质量链接聚合,轻量、快速、无广告。
三、热门领域与精选数据集(速查版)
1. 机器学习/竞赛入门
- Kaggle 竞赛数据:实战必用,覆盖分类、回归、CV、NLP
- DrivenData:公益向数据竞赛
- KDD Cup:顶会经典数据集
2. 计算机视觉(CV)
- ImageNet:图像分类里程碑
- COCO:目标检测/分割通用
- Open Images:谷歌大规模图像库
3. 自然语言处理(NLP)
- SQuAD:阅读理解标准集
- GLUE/SuperGLUE:语言理解基准
- 多语言平行语料库
4. 时间序列(时序预测)
- 气象/气候时序
- 电力负荷、交通流量
- 金融行情与交易时序
5. 金融经济
- 世界银行开放数据
- 各国央行、证券交易所公开数据
- 加密货币历史行情
6. 医疗健康
- MIMIC-III:重症监护临床数据
- CheXpert:医学X光影像
- 全球疫情、传染病统计
7. 地理空间(GIS)
- NASA 地球观测
- OpenStreetMap 开放地图
- 全球气候、地形、遥感数据
8. 政府/公共事业
- 各国政府开放数据门户
- 交通、教育、能源、人口普查
四、高效使用 4 个技巧
-
按主题直达
打开 GitHub 目录,直接点击领域英文(如 TimeSeries、Healthcare)快速定位。 -
先看许可再用
注意标注:Commercial Use / Non-Commercial,避免版权风险。 -
配合工具提速
搭配 Hugging Face Datasets、Pandas、BigQuery Public Datasets,一键加载与分析。 -
参与社区共建
提交 PR 新增数据集,让清单更全。
五、总结
Awesome Public Datasets 不是一个简单的链接列表,而是数据科学领域的“维基百科”。
无论你是做课程作业、毕设、科研论文、AI 模型训练,还是做数据可视化、行业分析,它都能帮你快速找到权威、免费、好用的数据,把时间花在分析与建模,而不是找数据。
官方 GitHub 地址:
https://github.com/awesomedata/awesome-public-datasets
快去收藏,你的下一个项目灵感,可能就从这里开始!
高频公开数据集速查表(可直接复制)
1. 机器学习 / 通用竞赛
| 名称 | 简介 | 链接 |
|---|---|---|
| Kaggle Datasets | 分类、回归、CV、NLP 等竞赛&实战数据集 | https://www.kaggle.com/datasets |
| UCI ML Repository | 经典机器学习小数据集,适合教学&入门 | https://archive.ics.uci.edu/ml/index.php |
| Hugging Face Datasets | NLP/CV/时序一键加载数据集 | https://huggingface.co/datasets |
2. 计算机视觉 CV
| 名称 | 简介 | 链接 |
|---|---|---|
| COCO | 目标检测、分割、姿态估计 | https://cocodataset.org |
| Open Images | 谷歌大规模标注图像库 | https://storage.googleapis.com/openimages/web/index.html |
| ImageNet | 图像分类基准数据集 | https://www.image-net.org |
3. 自然语言处理 NLP
| 名称 | 简介 | 链接 |
|---|---|---|
| SQuAD | 机器阅读理解标准数据集 | https://rajpurkar.github.io/SQuAD-explorer |
| GLUE / SuperGLUE | 语言理解评测基准 | https://gluebenchmark.com |
| Common Crawl | 海量互联网网页文本 | https://commoncrawl.org |
4. 时间序列(时序预测)
| 名称 | 简介 | 链接 |
|---|---|---|
| Electricity Load | 电力负荷时序数据 | https://archive.ics.uci.edu/ml/datasets/ElectricityLoadDiagrams20112014 |
| Weather Time Series | 气象温度/湿度/风速时序 | https://www.ncdc.noaa.gov |
| Traffic Flow | 城市交通流量时序 | https://data.gov |
5. 金融经济
| 名称 | 简介 | 链接 |
|---|---|---|
| World Bank Open Data | 全球各国经济、人口、发展指标 | https://data.worldbank.org |
| Yahoo Finance | 股票、指数、加密货币历史行情 | https://finance.yahoo.com |
| FRED | 美国宏观经济数据 | https://fred.stlouisfed.org |
6. 医疗健康
| 名称 | 简介 | 链接 |
|---|---|---|
| MIMIC-III | 重症监护临床数据 | https://mimic.mit.edu |
| CheXpert | 胸部X光医学影像 | https://stanfordmlgroup.github.io/competitions/chexpert |
7. 地理 / 遥感 / 空间数据
| 名称 | 简介 | 链接 |
|---|---|---|
| OpenStreetMap | 全球开源地图数据 | https://www.openstreetmap.org |
| NASA Earthdata | 遥感、气候、地形数据 | https://earthdata.nasa.gov |
8. 政府 & 公共开放数据
| 名称 | 简介 | 链接 |
|---|---|---|
| Data.gov (US) | 美国政府开放数据 | https://data.gov |
| 国家数据网 (CN) | 中国官方统计&行业数据 | https://www.stats.gov.cn |
更多推荐


所有评论(0)