编辑
2026-06-03
科研
00

目录

1. 动机:轻量级姿态估计的"不可能三角"
2. 核心贡献
2.1 StarNet Backbone:来自 CVPR 2024 的"星操作"
2.2 Heatmap-Free 检测头:RTMCC (SimCC)
2.3 Coordinate Attention:轻量级空间感知
2.4 遮挡感知训练:CoarseDropout 策略
3. 模型规格与性能
3.1 两种变体
3.2 COCO val2017 主结果
3.3 推理速度(RTX 5090, batch=1, 256×192)
4. 消融实验
4.1 注意力机制对比(COCO-mini, 210 epochs)
4.2 遮挡增强策略对比(COCO-mini, StarNet-S1/Tiny)
5. 技术栈与兼容性
6. 局限与展望
7. 引用

论文StarNet-Pose: Heatmap-Free Lightweight Pose Estimation via Multiplicative Feature Interaction and Occlusion-Aware Training

期刊:Neurocomputing (2026)

作者:Zheng Luo, Guowei Jiang, Runhang Pan, Qi Qi, Xin Xie, Siyuan Chen

仓库https://github.com/lechan775/starnet-pose


1. 动机:轻量级姿态估计的"不可能三角"

人体姿态估计(2D Human Pose Estimation)在移动端部署、AR/VR、运动分析等场景中对精度-速度-参数量三者之间存在持续的张力。以 RTMPose 为代表的轻量级方案在实时性上表现优异,但在 COCO val2017 上的 AP 长期停留在 68-72 AP 区间,与重量级模型(如 ViTPose、HRNet-W48)存在约 5-8 AP 的差距。

问题的核心在于:主流轻量级 backbone(CSPNeXt、MobileNet、Lite-HRNet)采用加法式特征融合(加性残差连接、通道拼接),在高纬度特征空间中表达效率不足。

StarNet-Pose 的核心思路是:将乘法特征交互引入姿态估计 backbone,用更少的参数编码更丰富的特征表征。


2. 核心贡献

2.1 StarNet Backbone:来自 CVPR 2024 的"星操作"

StarNet 由 Xu Ma 等人在 CVPR 2024 提出,其核心模块 StarBlock 将输入特征拆分为两条分支,分别经 Depthwise 7×7 Conv 和 ReLU6 激活后,做逐元素乘法(element-wise product)而非加法融合:

f1 = ReLU6(DWConv7×7(x)) f2 = DWConv7×7(x) g = f1 ⊙ f2 # 逐元素乘法 — 而非加法 out = DWConv2(g) + x # 残差连接

乘法操作将特征空间从线性展开升级为多项式展开,等效于在低维参数空间中隐式构造高维交互项。实验表明,同等参数量下 StarNet 的表征能力显著优于 CSPNeXt 和 Lite-HRNet。

2.2 Heatmap-Free 检测头:RTMCC (SimCC)

StarNet-Pose 延续 RTMPose 的 SimCC 头(简单坐标分类),直接在 backbone 输出的 1D 特征上做关键点坐标分类,全程不生成热力图。相比热力图方案(需上采样至输入分辨率 1/4),SimCC 头将计算量压缩了一个数量级,是达成 300+ FPS 的关键设计选择。

2.3 Coordinate Attention:轻量级空间感知

在 StarNet-Pose-S 中,Stage 3 和 Stage 4 的 StarBlock 内部嵌入了 Coordinate Attention (CA) 模块(Hou et al., CVPR 2021)。CA 将通道注意力分解为高度和宽度方向的两个 1D 池化编码,在几乎不增加参数量(+0.08M)的前提下,弥补了乘法交互对空间位置信息感知的不足。

2.4 遮挡感知训练:CoarseDropout 策略

针对 OCHuman 等重度遮挡场景,系统评估了 CoarseDropout 数据增强策略的影响。核心发现:

  • 固定概率 p=0.6 优于 RTMPose 原生的 1.0→0.5 衰减调度
  • 在 COCO-mini 上,StarNet-S1 + fixed p=0.6 达到 47.48 AP,比 RTMPose-T 基线(42.14 AP)提升 +5.34 AP
  • 无需引入额外模块,仅靠数据增强即可获得显著遮挡鲁棒性提升

3. 模型规格与性能

3.1 两种变体

指标StarNet-Pose-T (Tiny)StarNet-Pose-S (Small)
BackboneStarNet-S1StarNet-S3 + CA
参数量3.504 M6.428 M
计算量0.435 GFLOPs0.765 GFLOPs
检测头RTMCCHead (192-ch)RTMCCHead (256-ch)
输入尺寸256×192256×192

3.2 COCO val2017 主结果

模型BackboneParams↓GFLOPs↓AP↑AP⁵⁰↑AP⁷⁵↑AR↑
RTMPose-tCSPNeXt-t3.340.36068.2088.3075.9073.60
RTMPose-sCSPNeXt-s5.470.68071.6089.2078.9076.80
Lite-HRNet-30Lite-HRNet-301.800.31967.2088.0075.0073.30
LMFormer-LLMFormer-L4.101.40068.9088.3076.4074.70
StarNet-Pose-TStarNet-S13.5040.43572.0091.5179.6275.03
StarNet-Pose-SStarNet-S3+CA6.4280.76572.9991.6480.6976.01

关键比对

  • StarNet-Pose-T vs RTMPose-t:参数接近(3.50M vs 3.34M),AP 提升 +3.80
  • StarNet-Pose-S vs RTMPose-s:参数接近(6.43M vs 5.47M),AP 提升 +1.39
  • StarNet-Pose-T 以 3.5M 参数达到 72.00 AP,此量级此前无模型突破 70 AP

3.3 推理速度(RTX 5090, batch=1, 256×192)

模型Params (M)Latency (ms)↓FPS↑AP↑
Lite-HRNet-181.1018.1455.164.80
RTMPose-t3.343.51285.168.20
StarNet-Pose-T3.5043.19313.872.00
RTMPose-s5.473.71269.671.60
StarNet-Pose-S6.4285.76173.572.99

StarNet-Pose-T 在 RTX 5090 上达到 313.8 FPS,同时 AP 超过 RTMPose-t 3.8 个点。 这是目前同类轻量级姿态估计器中精度-速度综合最优的方案。


4. 消融实验

4.1 注意力机制对比(COCO-mini, 210 epochs)

配置APAP⁵⁰AP⁷⁵AR
StarNet baseline (无注意力)50.6277.9454.0854.42
StarNet + CBAM49.5477.2154.4753.35
StarNet + CA49.6578.1551.2653.46

CA 对高 IoU 阈值下的精度帮助有限(AP⁷⁵ 下降 2.82),但在 AP⁵⁰ 上略有提升。最终选择 CA 作为可选的轻量级空间增强模块。

4.2 遮挡增强策略对比(COCO-mini, StarNet-S1/Tiny)

配置BackboneCoarseDropoutAP
RTMPose-T baselineCSPNeXt-Tiny1.0→0.5 衰减42.14
StarNetCA-S1StarNet-S11.0→0.5 衰减46.86
StarNetCA-S1 + fixedStarNet-S1固定 p=0.647.13
StarNet-S1 + fixedStarNet-S1固定 p=0.647.48

固定概率 CoarseDropout 优于衰减调度,且去掉 CA 反而带来 0.35 AP 增益,表明乘法交互自身已具备足够的表征鲁棒性。


5. 技术栈与兼容性

  • 框架:基于 OpenMMLab MMPose,完整兼容其训练/评估/部署工具链
  • 骨干网络:StarNet-S1/S3(CVPR 2024)
  • 检测头:RTMCCHead / SimCC(Heatmap-Free)
  • 注意力模块:Coordinate Attention(CVPR 2021)
  • 数据增强:CoarseDropout(Albumentations)
  • 许可证:Apache 2.0

6. 局限与展望

  1. 高分辨率输入:当前仅验证 256×192 输入。StarNet 在 384×288 下的 AP 上界尚未探索。
  2. 密集人群:Top-down 范式依赖人体检测器,在遮挡密集场景中检测器失效会级联影响姿态估计。
  3. CA 模块的二重性:CA 在微调阶段对 AP 提升有限(+0.15),其收益可能集中在特定遮挡或小目标场景。
  4. 端侧部署:目前未做 TensorRT/NCNN/MNN 量化部署验证,313.8 FPS 为 PyTorch 直接推理指标,端侧实测算力上限待补充。

后续工作方向包括:高分辨率输入下的 StarNet-Pose 性能上界分析、Bottom-up 范式下的 StarNet 适配、以及端侧量化部署验证。


7. 引用

bibtex
@article{pan2025starnetpose, title = {StarNet-Pose: Heatmap-Free Lightweight Pose Estimation via Multiplicative Feature Interaction and Occlusion-Aware Training}, author = {Zheng Luo and Guowei Jiang and Runhang Pan and Qi Qi and Xin Xie and Siyuan Chen}, journal = {Neurocomputing}, year = {2026}, url = {https://github.com/lechan775/starnet-pose} }

本文基于 StarNet-Pose 仓库 README 与论文内容整理,项目代码以 Apache 2.0 协议开源于 GitHub

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:williams

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!