最近在 GitHub Trending 上看到一个有意思的项目:hasaneyldrm/exercises-dataset。它做的事情看着特别朴素——把 433 个健身动作整理成一份机器可读的数据集。但正是这种"把脏活做成产品"的项目,让人想推荐一下。
背景
健身领域的内容创作者、健身 App 开发者、AI 教练项目,几乎每天都在跟同一组问题死磕:
动作叫什么,标准英文名是什么
目标肌群到底怎么标
用什么器械
标准动作要领分几步
配套的示意图和演示视频从哪儿找
name:动作名称
category:分类(杠铃/哑铃/自重/绳索/机械/有氧等)
primary_muscle / secondary_muscles:主目标肌群 + 协同肌群
equipment:所需器械
instructions:动作要点列表
thumbnail:缩略图链接
animation_url:演示视频 URL(通常指向 YouTube 短演示)
独立开发者做健身小工具、训练追踪 App:开局就有 433 条标准化数据可用
AI 项目做 RAG 检索、动作问答、姿态识别标签体系:直接当结构化语料
内容创作者做视频脚本、动作卡片:instructions 字段已经按步骤整理好
教育产品做健身教学课件:可商用、可自由修改
Reddit 原始 wiki:https://www.reddit.com/r/Fitness/wiki/
类似数据集参考:ExRx、Wger Exercise Database(如果要做更专业的医学标签,可以两个交叉补充)
过去大家的做法是:从 YouTube 截图、从 Reddit 帖子扒、按教练口述手抄。每个团队都在重复同一份劳动。exercises-dataset 的价值就是把这部分工作一次性做完,免费开源,让所有需要它的人直接拿来用。
数据集来源是 Reddit 的 r/Fitness wiki,那些板块的内容本来就是社区共建的,质量不低。
这个数据集能做什么
打开 README,能看到它覆盖 433 个动作。每条记录包含:
动作叫什么,标准英文名是什么
目标肌群到底怎么标
用什么器械
标准动作要领分几步
配套的示意图和演示视频从哪儿找
name:动作名称
category:分类(杠铃/哑铃/自重/绳索/机械/有氧等)
primary_muscle / secondary_muscles:主目标肌群 + 协同肌群
equipment:所需器械
instructions:动作要点列表
thumbnail:缩略图链接
animation_url:演示视频 URL(通常指向 YouTube 短演示)
独立开发者做健身小工具、训练追踪 App:开局就有 433 条标准化数据可用
AI 项目做 RAG 检索、动作问答、姿态识别标签体系:直接当结构化语料
内容创作者做视频脚本、动作卡片:instructions 字段已经按步骤整理好
教育产品做健身教学课件:可商用、可自由修改
Reddit 原始 wiki:https://www.reddit.com/r/Fitness/wiki/
类似数据集参考:ExRx、Wger Exercise Database(如果要做更专业的医学标签,可以两个交叉补充)
更关键的是数据格式非常干净。仓库根目录下就有汇总文件(具体 JSON / CSV 看 release),每条记录字段一致,可以直接:
import json
with open("exercises.json") as f:
data = json.load(f)
squat = next(e for e in data if e["name"] == "Barbell Squat")
print(squat["primary_muscle"]) # quadriceps为什么值得用
第一,一致性。人力整理的数据集最怕字段命名忽大忽小、缩进忽有忽无。这个项目字段稳定,配上重命名脚本后能直接进数据库。
第二,示范素材配套。每个动作带缩略图和动画链接,意味着做 App 时 UI 直接就有了占位素材,不用自己录。
第三,许可证宽松。基于 Reddit 内容,仓库按合理方式开源,可以商用。
第四,AI 训练友好。LLM fine-tune、RAG 检索、向量索引都能直接吃这套结构。如果你做 AI 健身教练,这个数据集能省下相当多的清洗工作。
快速上手
数据集本身就是静态文件,最直接的方式就是拉一份到本地:
git clone https://github.com/hasaneyldrm/exercises-dataset
cd exercises-dataset
ls如果想自己起一个服务,让前端或者其他系统来查,可以简单用 Python 起一个 FastAPI:
docker run -d --name exercises-api \
-p 8080:8080 \
-v $(pwd)/data:/data \
-e DATA_DIR=/data \
python:3.11-slim \
bash -c "pip install fastapi uvicorn && \
uvicorn main:app --host 0.0.0.0 --port 8080"更轻量一点的方式是用静态文件托管 + 前端 fetch,433 条记录纯 JSON 也就几百 KB,走 CDN 几乎没成本。
下面这张图是该数据集在前端展示页里的一个示意:

要做 Chrome 插件、Obsidian 健身笔记、Notion 数据库、Fitness Wiki 离线镜像——接的都是同一份 JSON。
适合谁
动作叫什么,标准英文名是什么
目标肌群到底怎么标
用什么器械
标准动作要领分几步
配套的示意图和演示视频从哪儿找
name:动作名称
category:分类(杠铃/哑铃/自重/绳索/机械/有氧等)
primary_muscle / secondary_muscles:主目标肌群 + 协同肌群
equipment:所需器械
instructions:动作要点列表
thumbnail:缩略图链接
animation_url:演示视频 URL(通常指向 YouTube 短演示)
独立开发者做健身小工具、训练追踪 App:开局就有 433 条标准化数据可用
AI 项目做 RAG 检索、动作问答、姿态识别标签体系:直接当结构化语料
内容创作者做视频脚本、动作卡片:instructions 字段已经按步骤整理好
教育产品做健身教学课件:可商用、可自由修改
Reddit 原始 wiki:https://www.reddit.com/r/Fitness/wiki/
类似数据集参考:ExRx、Wger Exercise Database(如果要做更专业的医学标签,可以两个交叉补充)
如果你正在做这些方向,exercises-dataset 会是一个值得 star 的"基础设施型"开源项目。
链接
动作叫什么,标准英文名是什么
目标肌群到底怎么标
用什么器械
标准动作要领分几步
配套的示意图和演示视频从哪儿找
name:动作名称
category:分类(杠铃/哑铃/自重/绳索/机械/有氧等)
primary_muscle / secondary_muscles:主目标肌群 + 协同肌群
equipment:所需器械
instructions:动作要点列表
thumbnail:缩略图链接
animation_url:演示视频 URL(通常指向 YouTube 短演示)
独立开发者做健身小工具、训练追踪 App:开局就有 433 条标准化数据可用
AI 项目做 RAG 检索、动作问答、姿态识别标签体系:直接当结构化语料
内容创作者做视频脚本、动作卡片:instructions 字段已经按步骤整理好
教育产品做健身教学课件:可商用、可自由修改
Reddit 原始 wiki:https://www.reddit.com/r/Fitness/wiki/
类似数据集参考:ExRx、Wger Exercise Database(如果要做更专业的医学标签,可以两个交叉补充)
这种"小而专"的开源数据集项目,往往比大模型更能解决具体问题。强烈建议收藏。
默认评论
Halo系统提供的评论