技术与团队介绍

了解系统架构、关键算法与背后团队,全面掌握项目的技术实力与协作流程。

项目总结

项目名称
多模态人体运动质量评估系统 (Multimodal Human Motion Quality Assessment System)
核心问题
家庭健身缺乏专业、零延迟的动作反馈,导致动作不规范、训练效果差且易受伤。
项目目标
打造一个专业、实时、多维度的运动分析与矫正系统,提供“零延迟”警告与“AI驱动”评分报告。
项目阶段
硬件与视觉算法原型已验证,深度学习模型训练与系统集成正在推进。

关键信息

  • 多模态输入:融合 MediaPipe 视觉骨架与 4 通道 IMU 传感。
  • 实时性:零延迟硬件蜂鸣器预警 + WebSocket 快速数据链路。
  • AI 推进:动作质量 LSTM/TCN 评分 + Gemini 系列 LLM 报告生成。
  • 隐私优先:原始视频仅在浏览器处理,服务器仅接收骨架与事件数据。

🏗️ 项目架构与实现

系统采用“终端算力优先 + 轻量后端”的三组件实时通信架构,通过 WebSocket 在硬件、浏览器前端与 Python 服务之间建立低延迟数据总线。

1. 硬件系统 (Hardware System)

  • 核心组件:ESP32 微控制器(集成 Wi-Fi)+ 4 组高精度 IMU(如 MPU6050)。
  • 部署策略:传感器布设在脊柱、双上臂与前大腿,实现躯干与上下肢协同监测。
  • 本地反馈:ESP32 运行 C++ 固件计算关键角度,并通过蜂鸣器即时提示核心塌陷、手肘外展等错误。
  • 数据传输:原始 IMU 与处理后的事件(如 CORE_COLLAPSE_EVENT)均通过 WebSocket 上报。

2. 软件系统 - 前端与视觉

  • 平台:部署于 potatoma.me 的 Web 应用。
  • 技术栈:HTML/CSS/JavaScript + WebRTC(摄像头)+ Canvas 渲染。
  • 核心技术:MediaPipe 在浏览器端完成 33 关节点高保真姿态估计。
  • 隐私设计:原始视频流不出本地,仅将低带宽关节坐标发送至后端。

3. 软件系统 - 后端与算法

  • 技术栈:轻量级 Python 服务 + SQLite 数据库。
  • 实时通信:WebSocket Endpoint 负责汇聚硬件与前端的流式数据。
  • 算法阶段:先以 NumPy 几何规则(calculate_angle)监测,再引入 LSTM/TCN 模型分析节奏、平滑度与连贯性,聚焦“动作质量”。
  • LLM 方案:使用 Gemini 2.5 Pro 等模型把多模态量化结果生成可操作的训练报告。

🧑‍💻 人员分工与贡献

团队由 5 名大数据专业成员组成,贡献度平均分配(各 20%),保障需求、研发与交付的高效闭环。

模块负责人 核心贡献内容
张哲威
项目 Leader & 硬件系统
统筹项目;开发 ESP32 固件;实现硬件-服务器 WebSocket 通信与本地蜂鸣器告警。
马亦麟
前端 & 系统运维
负责 Web 前端、身份认证、管理面板与可视化;集成 MediaPipe 姿态识别;运维服务器与文档。
陈依睿
后端核心评估引擎
构建实时评估引擎;完成几何规则诊断、角度计算、质量评分与多模态融合逻辑。
周琮越
后端 ML 模型
研发 LSTM/TCN 模型;设计错误-分数映射;集成并调试大模型 API。
金慧婷
后端数据工程
负责多源动作数据采集、清洗、预处理;完成时间序列切分、关键帧提取与训练集构建。

✨ 项目创新与优势

  1. 多模态数据融合与实时闭环反馈:融合视觉骨架与 IMU 高频数据,前端/深度学习给出即时分数,硬件蜂鸣器同步输出音频警报,构成完整闭环体验。
  2. 时序深度学习评估:基于 LSTM/TCN 分析动作的平滑度、节奏一致性与控制力,能够捕捉教练级别的细节,用于“动作质量”判定。
  3. 去中心化模型架构:采用动作专用的小型模型集群,易于扩展、训练效率高,并显著提升特定动作的准确度。
  4. LLM 驱动的个性化报告:通过 Gemini 2.5 Pro 等 LLM 将多模态定量数据转译为高亮区域、原因解释与行动计划,提供贴身 AI 教练体验。