exercises-dataset：433 个健身动作的高质量结构化数据集

最近在 GitHub Trending 上看到一个有意思的项目：hasaneyldrm/exercises-dataset。它做的事情看着特别朴素——把 433 个健身动作整理成一份机器可读的数据集。但正是这种"把脏活做成产品"的项目，让人想推荐一下。

背景

健身领域的内容创作者、健身 App 开发者、AI 教练项目，几乎每天都在跟同一组问题死磕：

动作叫什么，标准英文名是什么
目标肌群到底怎么标
用什么器械
标准动作要领分几步
配套的示意图和演示视频从哪儿找
name：动作名称
category：分类（杠铃/哑铃/自重/绳索/机械/有氧等）
primary_muscle / secondary_muscles：主目标肌群 + 协同肌群
equipment：所需器械
instructions：动作要点列表
thumbnail：缩略图链接
animation_url：演示视频 URL（通常指向 YouTube 短演示）
独立开发者做健身小工具、训练追踪 App：开局就有 433 条标准化数据可用
AI 项目做 RAG 检索、动作问答、姿态识别标签体系：直接当结构化语料
内容创作者做视频脚本、动作卡片：instructions 字段已经按步骤整理好
教育产品做健身教学课件：可商用、可自由修改
仓库：https://github.com/hasaneyldrm/exercises-dataset
Reddit 原始 wiki：https://www.reddit.com/r/Fitness/wiki/
类似数据集参考：ExRx、Wger Exercise Database（如果要做更专业的医学标签，可以两个交叉补充）

过去大家的做法是：从 YouTube 截图、从 Reddit 帖子扒、按教练口述手抄。每个团队都在重复同一份劳动。exercises-dataset 的价值就是把这部分工作一次性做完，免费开源，让所有需要它的人直接拿来用。

数据集来源是 Reddit 的 r/Fitness wiki，那些板块的内容本来就是社区共建的，质量不低。

这个数据集能做什么

打开 README，能看到它覆盖 433 个动作。每条记录包含：

动作叫什么，标准英文名是什么
目标肌群到底怎么标
用什么器械
标准动作要领分几步
配套的示意图和演示视频从哪儿找
name：动作名称
category：分类（杠铃/哑铃/自重/绳索/机械/有氧等）
primary_muscle / secondary_muscles：主目标肌群 + 协同肌群
equipment：所需器械
instructions：动作要点列表
thumbnail：缩略图链接
animation_url：演示视频 URL（通常指向 YouTube 短演示）
独立开发者做健身小工具、训练追踪 App：开局就有 433 条标准化数据可用
AI 项目做 RAG 检索、动作问答、姿态识别标签体系：直接当结构化语料
内容创作者做视频脚本、动作卡片：instructions 字段已经按步骤整理好
教育产品做健身教学课件：可商用、可自由修改
仓库：https://github.com/hasaneyldrm/exercises-dataset
Reddit 原始 wiki：https://www.reddit.com/r/Fitness/wiki/
类似数据集参考：ExRx、Wger Exercise Database（如果要做更专业的医学标签，可以两个交叉补充）

更关键的是数据格式非常干净。仓库根目录下就有汇总文件（具体 JSON / CSV 看 release），每条记录字段一致，可以直接：

import json
with open("exercises.json") as f:
    data = json.load(f)
squat = next(e for e in data if e["name"] == "Barbell Squat")
print(squat["primary_muscle"])  # quadriceps

为什么值得用

第一，一致性。人力整理的数据集最怕字段命名忽大忽小、缩进忽有忽无。这个项目字段稳定，配上重命名脚本后能直接进数据库。

第二，示范素材配套。每个动作带缩略图和动画链接，意味着做 App 时 UI 直接就有了占位素材，不用自己录。

第三，许可证宽松。基于 Reddit 内容，仓库按合理方式开源，可以商用。

第四，AI 训练友好。LLM fine-tune、RAG 检索、向量索引都能直接吃这套结构。如果你做 AI 健身教练，这个数据集能省下相当多的清洗工作。

快速上手

数据集本身就是静态文件，最直接的方式就是拉一份到本地：

git clone https://github.com/hasaneyldrm/exercises-dataset
cd exercises-dataset
ls

如果想自己起一个服务，让前端或者其他系统来查，可以简单用 Python 起一个 FastAPI：

docker run -d --name exercises-api \
  -p 8080:8080 \
  -v $(pwd)/data:/data \
  -e DATA_DIR=/data \
  python:3.11-slim \
  bash -c "pip install fastapi uvicorn && \
           uvicorn main:app --host 0.0.0.0 --port 8080"

更轻量一点的方式是用静态文件托管 + 前端 fetch，433 条记录纯 JSON 也就几百 KB，走 CDN 几乎没成本。

下面这张图是该数据集在前端展示页里的一个示意：

要做 Chrome 插件、Obsidian 健身笔记、Notion 数据库、Fitness Wiki 离线镜像——接的都是同一份 JSON。

适合谁

动作叫什么，标准英文名是什么
目标肌群到底怎么标
用什么器械
标准动作要领分几步
配套的示意图和演示视频从哪儿找
name：动作名称
category：分类（杠铃/哑铃/自重/绳索/机械/有氧等）
primary_muscle / secondary_muscles：主目标肌群 + 协同肌群
equipment：所需器械
instructions：动作要点列表
thumbnail：缩略图链接
animation_url：演示视频 URL（通常指向 YouTube 短演示）
独立开发者做健身小工具、训练追踪 App：开局就有 433 条标准化数据可用
AI 项目做 RAG 检索、动作问答、姿态识别标签体系：直接当结构化语料
内容创作者做视频脚本、动作卡片：instructions 字段已经按步骤整理好
教育产品做健身教学课件：可商用、可自由修改
仓库：https://github.com/hasaneyldrm/exercises-dataset
Reddit 原始 wiki：https://www.reddit.com/r/Fitness/wiki/
类似数据集参考：ExRx、Wger Exercise Database（如果要做更专业的医学标签，可以两个交叉补充）

如果你正在做这些方向，exercises-dataset 会是一个值得 star 的"基础设施型"开源项目。

链接

动作叫什么，标准英文名是什么
目标肌群到底怎么标
用什么器械
标准动作要领分几步
配套的示意图和演示视频从哪儿找
name：动作名称
category：分类（杠铃/哑铃/自重/绳索/机械/有氧等）
primary_muscle / secondary_muscles：主目标肌群 + 协同肌群
equipment：所需器械
instructions：动作要点列表
thumbnail：缩略图链接
animation_url：演示视频 URL（通常指向 YouTube 短演示）
独立开发者做健身小工具、训练追踪 App：开局就有 433 条标准化数据可用
AI 项目做 RAG 检索、动作问答、姿态识别标签体系：直接当结构化语料
内容创作者做视频脚本、动作卡片：instructions 字段已经按步骤整理好
教育产品做健身教学课件：可商用、可自由修改
仓库：https://github.com/hasaneyldrm/exercises-dataset
Reddit 原始 wiki：https://www.reddit.com/r/Fitness/wiki/
类似数据集参考：ExRx、Wger Exercise Database（如果要做更专业的医学标签，可以两个交叉补充）

这种"小而专"的开源数据集项目，往往比大模型更能解决具体问题。强烈建议收藏。

exercises-dataset：433 个健身动作的高质量结构化数据集

背景

这个数据集能做什么

为什么值得用

快速上手

适合谁

链接

切换评论系统

热门文章