论文:StarNet-Pose: Heatmap-Free Lightweight Pose Estimation via Multiplicative Feature Interaction and Occlusion-Aware Training
期刊:Neurocomputing (2026)
作者:Zheng Luo, Guowei Jiang, Runhang Pan, Qi Qi, Xin Xie, Siyuan Chen
人体姿态估计(2D Human Pose Estimation)在移动端部署、AR/VR、运动分析等场景中对精度-速度-参数量三者之间存在持续的张力。以 RTMPose 为代表的轻量级方案在实时性上表现优异,但在 COCO val2017 上的 AP 长期停留在 68-72 AP 区间,与重量级模型(如 ViTPose、HRNet-W48)存在约 5-8 AP 的差距。
问题的核心在于:主流轻量级 backbone(CSPNeXt、MobileNet、Lite-HRNet)采用加法式特征融合(加性残差连接、通道拼接),在高纬度特征空间中表达效率不足。
StarNet-Pose 的核心思路是:将乘法特征交互引入姿态估计 backbone,用更少的参数编码更丰富的特征表征。
StarNet 由 Xu Ma 等人在 CVPR 2024 提出,其核心模块 StarBlock 将输入特征拆分为两条分支,分别经 Depthwise 7×7 Conv 和 ReLU6 激活后,做逐元素乘法(element-wise product)而非加法融合:
f1 = ReLU6(DWConv7×7(x)) f2 = DWConv7×7(x) g = f1 ⊙ f2 # 逐元素乘法 — 而非加法 out = DWConv2(g) + x # 残差连接
乘法操作将特征空间从线性展开升级为多项式展开,等效于在低维参数空间中隐式构造高维交互项。实验表明,同等参数量下 StarNet 的表征能力显著优于 CSPNeXt 和 Lite-HRNet。
StarNet-Pose 延续 RTMPose 的 SimCC 头(简单坐标分类),直接在 backbone 输出的 1D 特征上做关键点坐标分类,全程不生成热力图。相比热力图方案(需上采样至输入分辨率 1/4),SimCC 头将计算量压缩了一个数量级,是达成 300+ FPS 的关键设计选择。
在 StarNet-Pose-S 中,Stage 3 和 Stage 4 的 StarBlock 内部嵌入了 Coordinate Attention (CA) 模块(Hou et al., CVPR 2021)。CA 将通道注意力分解为高度和宽度方向的两个 1D 池化编码,在几乎不增加参数量(+0.08M)的前提下,弥补了乘法交互对空间位置信息感知的不足。
针对 OCHuman 等重度遮挡场景,系统评估了 CoarseDropout 数据增强策略的影响。核心发现:
| 指标 | StarNet-Pose-T (Tiny) | StarNet-Pose-S (Small) |
|---|---|---|
| Backbone | StarNet-S1 | StarNet-S3 + CA |
| 参数量 | 3.504 M | 6.428 M |
| 计算量 | 0.435 GFLOPs | 0.765 GFLOPs |
| 检测头 | RTMCCHead (192-ch) | RTMCCHead (256-ch) |
| 输入尺寸 | 256×192 | 256×192 |
| 模型 | Backbone | Params↓ | GFLOPs↓ | AP↑ | AP⁵⁰↑ | AP⁷⁵↑ | AR↑ |
|---|---|---|---|---|---|---|---|
| RTMPose-t | CSPNeXt-t | 3.34 | 0.360 | 68.20 | 88.30 | 75.90 | 73.60 |
| RTMPose-s | CSPNeXt-s | 5.47 | 0.680 | 71.60 | 89.20 | 78.90 | 76.80 |
| Lite-HRNet-30 | Lite-HRNet-30 | 1.80 | 0.319 | 67.20 | 88.00 | 75.00 | 73.30 |
| LMFormer-L | LMFormer-L | 4.10 | 1.400 | 68.90 | 88.30 | 76.40 | 74.70 |
| StarNet-Pose-T | StarNet-S1 | 3.504 | 0.435 | 72.00 | 91.51 | 79.62 | 75.03 |
| StarNet-Pose-S | StarNet-S3+CA | 6.428 | 0.765 | 72.99 | 91.64 | 80.69 | 76.01 |
关键比对:
| 模型 | Params (M) | Latency (ms)↓ | FPS↑ | AP↑ |
|---|---|---|---|---|
| Lite-HRNet-18 | 1.10 | 18.14 | 55.1 | 64.80 |
| RTMPose-t | 3.34 | 3.51 | 285.1 | 68.20 |
| StarNet-Pose-T | 3.504 | 3.19 | 313.8 | 72.00 |
| RTMPose-s | 5.47 | 3.71 | 269.6 | 71.60 |
| StarNet-Pose-S | 6.428 | 5.76 | 173.5 | 72.99 |
StarNet-Pose-T 在 RTX 5090 上达到 313.8 FPS,同时 AP 超过 RTMPose-t 3.8 个点。 这是目前同类轻量级姿态估计器中精度-速度综合最优的方案。
| 配置 | AP | AP⁵⁰ | AP⁷⁵ | AR |
|---|---|---|---|---|
| StarNet baseline (无注意力) | 50.62 | 77.94 | 54.08 | 54.42 |
| StarNet + CBAM | 49.54 | 77.21 | 54.47 | 53.35 |
| StarNet + CA | 49.65 | 78.15 | 51.26 | 53.46 |
CA 对高 IoU 阈值下的精度帮助有限(AP⁷⁵ 下降 2.82),但在 AP⁵⁰ 上略有提升。最终选择 CA 作为可选的轻量级空间增强模块。
| 配置 | Backbone | CoarseDropout | AP |
|---|---|---|---|
| RTMPose-T baseline | CSPNeXt-Tiny | 1.0→0.5 衰减 | 42.14 |
| StarNetCA-S1 | StarNet-S1 | 1.0→0.5 衰减 | 46.86 |
| StarNetCA-S1 + fixed | StarNet-S1 | 固定 p=0.6 | 47.13 |
| StarNet-S1 + fixed | StarNet-S1 | 固定 p=0.6 | 47.48 |
固定概率 CoarseDropout 优于衰减调度,且去掉 CA 反而带来 0.35 AP 增益,表明乘法交互自身已具备足够的表征鲁棒性。
后续工作方向包括:高分辨率输入下的 StarNet-Pose 性能上界分析、Bottom-up 范式下的 StarNet 适配、以及端侧量化部署验证。
bibtex@article{pan2025starnetpose, title = {StarNet-Pose: Heatmap-Free Lightweight Pose Estimation via Multiplicative Feature Interaction and Occlusion-Aware Training}, author = {Zheng Luo and Guowei Jiang and Runhang Pan and Qi Qi and Xin Xie and Siyuan Chen}, journal = {Neurocomputing}, year = {2026}, url = {https://github.com/lechan775/starnet-pose} }
本文基于 StarNet-Pose 仓库 README 与论文内容整理,项目代码以 Apache 2.0 协议开源于 GitHub。


本文作者:williams
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!