StarNet-Pose：乘法特征交互驱动的无热力图轻量级人体姿态估计

论文：StarNet-Pose: Heatmap-Free Lightweight Pose Estimation via Multiplicative Feature Interaction and Occlusion-Aware Training

期刊：Neurocomputing (2026)

作者：Zheng Luo, Guowei Jiang, Runhang Pan, Qi Qi, Xin Xie, Siyuan Chen

仓库：https://github.com/lechan775/starnet-pose

1. 动机：轻量级姿态估计的"不可能三角"

人体姿态估计（2D Human Pose Estimation）在移动端部署、AR/VR、运动分析等场景中对精度-速度-参数量三者之间存在持续的张力。以 RTMPose 为代表的轻量级方案在实时性上表现优异，但在 COCO val2017 上的 AP 长期停留在 68-72 AP 区间，与重量级模型（如 ViTPose、HRNet-W48）存在约 5-8 AP 的差距。

问题的核心在于：主流轻量级 backbone（CSPNeXt、MobileNet、Lite-HRNet）采用加法式特征融合（加性残差连接、通道拼接），在高纬度特征空间中表达效率不足。

StarNet-Pose 的核心思路是：将乘法特征交互引入姿态估计 backbone，用更少的参数编码更丰富的特征表征。

2. 核心贡献

2.1 StarNet Backbone：来自 CVPR 2024 的"星操作"

StarNet 由 Xu Ma 等人在 CVPR 2024 提出，其核心模块 StarBlock 将输入特征拆分为两条分支，分别经 Depthwise 7×7 Conv 和 ReLU6 激活后，做逐元素乘法（element-wise product）而非加法融合：


f1 = ReLU6(DWConv7×7(x))
f2 = DWConv7×7(x)
g  = f1 ⊙ f2        # 逐元素乘法 — 而非加法
out = DWConv2(g) + x  # 残差连接

乘法操作将特征空间从线性展开升级为多项式展开，等效于在低维参数空间中隐式构造高维交互项。实验表明，同等参数量下 StarNet 的表征能力显著优于 CSPNeXt 和 Lite-HRNet。

2.2 Heatmap-Free 检测头：RTMCC (SimCC)

StarNet-Pose 延续 RTMPose 的 SimCC 头（简单坐标分类），直接在 backbone 输出的 1D 特征上做关键点坐标分类，全程不生成热力图。相比热力图方案（需上采样至输入分辨率 1/4），SimCC 头将计算量压缩了一个数量级，是达成 300+ FPS 的关键设计选择。

2.3 Coordinate Attention：轻量级空间感知

在 StarNet-Pose-S 中，Stage 3 和 Stage 4 的 StarBlock 内部嵌入了 Coordinate Attention (CA) 模块（Hou et al., CVPR 2021）。CA 将通道注意力分解为高度和宽度方向的两个 1D 池化编码，在几乎不增加参数量（+0.08M）的前提下，弥补了乘法交互对空间位置信息感知的不足。

2.4 遮挡感知训练：CoarseDropout 策略

针对 OCHuman 等重度遮挡场景，系统评估了 CoarseDropout 数据增强策略的影响。核心发现：

固定概率 p=0.6 优于 RTMPose 原生的 1.0→0.5 衰减调度
在 COCO-mini 上，StarNet-S1 + fixed p=0.6 达到 47.48 AP，比 RTMPose-T 基线（42.14 AP）提升 +5.34 AP
无需引入额外模块，仅靠数据增强即可获得显著遮挡鲁棒性提升

3. 模型规格与性能

3.1 两种变体

指标	StarNet-Pose-T (Tiny)	StarNet-Pose-S (Small)
Backbone	StarNet-S1	StarNet-S3 + CA
参数量	3.504 M	6.428 M
计算量	0.435 GFLOPs	0.765 GFLOPs
检测头	RTMCCHead (192-ch)	RTMCCHead (256-ch)
输入尺寸	256×192	256×192

3.2 COCO val2017 主结果

模型	Backbone	Params↓	GFLOPs↓	AP↑	AP⁵⁰↑	AP⁷⁵↑	AR↑
RTMPose-t	CSPNeXt-t	3.34	0.360	68.20	88.30	75.90	73.60
RTMPose-s	CSPNeXt-s	5.47	0.680	71.60	89.20	78.90	76.80
Lite-HRNet-30	Lite-HRNet-30	1.80	0.319	67.20	88.00	75.00	73.30
LMFormer-L	LMFormer-L	4.10	1.400	68.90	88.30	76.40	74.70
StarNet-Pose-T	StarNet-S1	3.504	0.435	72.00	91.51	79.62	75.03
StarNet-Pose-S	StarNet-S3+CA	6.428	0.765	72.99	91.64	80.69	76.01

关键比对：

StarNet-Pose-T vs RTMPose-t：参数接近（3.50M vs 3.34M），AP 提升 +3.80
StarNet-Pose-S vs RTMPose-s：参数接近（6.43M vs 5.47M），AP 提升 +1.39
StarNet-Pose-T 以 3.5M 参数达到 72.00 AP，此量级此前无模型突破 70 AP

3.3 推理速度（RTX 5090, batch=1, 256×192）

模型	Params (M)	Latency (ms)↓	FPS↑	AP↑
Lite-HRNet-18	1.10	18.14	55.1	64.80
RTMPose-t	3.34	3.51	285.1	68.20
StarNet-Pose-T	3.504	3.19	313.8	72.00
RTMPose-s	5.47	3.71	269.6	71.60
StarNet-Pose-S	6.428	5.76	173.5	72.99

StarNet-Pose-T 在 RTX 5090 上达到 313.8 FPS，同时 AP 超过 RTMPose-t 3.8 个点。 这是目前同类轻量级姿态估计器中精度-速度综合最优的方案。

4. 消融实验

4.1 注意力机制对比（COCO-mini, 210 epochs）

配置	AP	AP⁵⁰	AP⁷⁵	AR
StarNet baseline (无注意力)	50.62	77.94	54.08	54.42
StarNet + CBAM	49.54	77.21	54.47	53.35
StarNet + CA	49.65	78.15	51.26	53.46

CA 对高 IoU 阈值下的精度帮助有限（AP⁷⁵ 下降 2.82），但在 AP⁵⁰ 上略有提升。最终选择 CA 作为可选的轻量级空间增强模块。

4.2 遮挡增强策略对比（COCO-mini, StarNet-S1/Tiny）

配置	Backbone	CoarseDropout	AP
RTMPose-T baseline	CSPNeXt-Tiny	1.0→0.5 衰减	42.14
StarNetCA-S1	StarNet-S1	1.0→0.5 衰减	46.86
StarNetCA-S1 + fixed	StarNet-S1	固定 p=0.6	47.13
StarNet-S1 + fixed	StarNet-S1	固定 p=0.6	47.48

固定概率 CoarseDropout 优于衰减调度，且去掉 CA 反而带来 0.35 AP 增益，表明乘法交互自身已具备足够的表征鲁棒性。

5. 技术栈与兼容性

框架：基于 OpenMMLab MMPose，完整兼容其训练/评估/部署工具链
骨干网络：StarNet-S1/S3（CVPR 2024）
检测头：RTMCCHead / SimCC（Heatmap-Free）
注意力模块：Coordinate Attention（CVPR 2021）
数据增强：CoarseDropout（Albumentations）
许可证：Apache 2.0

6. 局限与展望

高分辨率输入：当前仅验证 256×192 输入。StarNet 在 384×288 下的 AP 上界尚未探索。
密集人群：Top-down 范式依赖人体检测器，在遮挡密集场景中检测器失效会级联影响姿态估计。
CA 模块的二重性：CA 在微调阶段对 AP 提升有限（+0.15），其收益可能集中在特定遮挡或小目标场景。
端侧部署：目前未做 TensorRT/NCNN/MNN 量化部署验证，313.8 FPS 为 PyTorch 直接推理指标，端侧实测算力上限待补充。

后续工作方向包括：高分辨率输入下的 StarNet-Pose 性能上界分析、Bottom-up 范式下的 StarNet 适配、以及端侧量化部署验证。

7. 引用

bibtex
@article{pan2025starnetpose,
  title   = {StarNet-Pose: Heatmap-Free Lightweight Pose Estimation via
             Multiplicative Feature Interaction and Occlusion-Aware Training},
  author  = {Zheng Luo and Guowei Jiang and Runhang Pan and Qi Qi and Xin Xie and Siyuan Chen},
  journal = {Neurocomputing},
  year    = {2026},
  url     = {https://github.com/lechan775/starnet-pose}
}

本文基于 StarNet-Pose 仓库 README 与论文内容整理，项目代码以 Apache 2.0 协议开源于 GitHub。

目录