All Publications

AnchorGen: Multi-View Geometric Anchoring for Keyframe-Aware Embodied Video Generation

Under Review

AnchorGen 是一种关键帧感知的几何锚定视频生成框架，用于提升机器人动作条件视频的三维一致性。方法通过自监督二维-三维对比学习自动发现接触与状态变化等重要关键帧，并以稀疏几何特征作为结构化条件注入多模态扩散模型，在真实机器人数据上显著提升生成质量与空间一致性。

Embodied Motion Imagination: Fixed-View Motion Reconstruction for Moving-Camera 4D Human Capture

Under Review

本文提出 EIHMR 框架，针对移动相机单目视频中相机运动与人体运动耦合导致的全局 3D 人体重建困难问题，通过“固定视角”的局部运动优化与运动感知 SLAM 协同建模，实现相机轨迹与人体姿态的互相强化。方法利用场景深度与运动重投影生成稳定几何特征，显著提升长序列中的轨迹精度与运动一致性，在 EMDB 等数据集上取得更优全局重建效果。

Tail-Aware Post-Training Quantization for 3D Geometry Models

Under Review

[arXiv]

本文提出面向 3D 几何模型的尾部分布感知后训练量化方法 TAPTQ，通过渐进式 coarse-to-fine 校准集构建、三分搜索量化区间优化和 TRE 引导的模块补偿，在提升量化精度的同时显著降低校准开销。

Beyond the Exploration-Exploitation Trade-off: A Hidden State Approach for LLM Reasoning in RLVR

Under Review

[Project] [arXiv] [Code]

本文提出从隐藏状态语义空间重新审视大模型推理中“探索-利用权衡”，指出该权衡源于 token 级度量偏差。作者引入有效秩及其速度、加速度刻画探索与利用动态，并提出 VERL 方法，通过优势函数塑形实现两者协同提升。实验表明该方法在多模型与推理任务上显著提升准确率与泛化能力。

VGGT-DP: Generalizable Robot Control via Vision Foundation Models

Under Review

[arXiv]

VGGT-DP 提出基于视觉几何基础模型和肌觉反馈的机器人控制框架，采用视觉基础模型 VGGT 作为感知编码器，并引入肌觉引导的视觉学习策略以增强空间对齐。通过帧级 token 复用和随机剪枝降低多视输入的推理开销，在 MetaWorld 任务上显著超越 Diffusion Policy 等基线。

SD-GS: Structured Deformable 3D Gaussians for Efficient Dynamic Scene Reconstruction

Under Review

[arXiv]

引入可变形锚点网格，利用局部锚点生成 3D 高斯作为几何骨架，显著降低时空冗余。结合形变感知致密化策略，模型体积平均减少 60%，FPS 提升 100%。

RoboStream: Weaving Spatio-Temporal Reasoning with Memory in Vision-Language Models for Robotics

Under Review

[Project] [arXiv]

RoboStream 提出面向机器人操作的时空推理与记忆增强视觉语言模型框架，引入时空融合 Token 实现持久目标定位，构建因果时空图追踪状态转移，无需训练即可在 RLBench 长时域任务上达到 90.5% 成功率，在真实世界方块操作任务中达到 44.4% 成功率。

Test-Time Distillation for Continual Model Adaptation

CVPR 2026 (CCF-A)

[arXiv]

研究持续测试时自适应（CTTA）中模型在分布变化下性能退化与漂移的问题。通过在测试阶段引入蒸馏机制，并利用冻结的视觉—语言模型提供稳定的教师信号，为目标模型提供外部监督，从而减少自监督误差累积。该方法提升了模型在持续分布变化环境中的稳定性与适应能力。

Neural Collapse in Test-Time Adaptation

CVPR 2026 (CCF-A)

[arXiv]

研究测试时自适应（TTA）中的神经坍塌现象，分析模型在分布变化环境下特征表示与分类边界的变化规律。通过理论与实验分析，揭示神经坍塌对模型稳定性和泛化能力的影响，并探讨其在测试阶段持续适应过程中的作用机制，为提升模型在动态环境中的鲁棒性提供参考。

IGen: Scalable Data Generation for Robot Learning from Open-World Images

CVPR 2026 (CCF-A)

[Project] [arXiv] [Code]

本文提出 IGen，一种面向机器人学习的可扩展数据生成框架，可从开放世界图像中自动生成逼真的视觉观测与可执行动作，从而在无需人工遥操作数据的情况下训练有效的操作策略。

MoETTA: Test-Time Adaptation Under Mixed Distribution Shifts with MoE-LayerNorm

AAAI 2026 (CCF-A)

[arXiv] [Code]

针对真实场景中复杂的混合分布偏移，提出 MoETTA 框架，引入专家混合(MoE)架构为不同域偏移提供结构解耦的多专家系统。在全新构建的 Potpourri 基准上全面超越现有基线。

Discover Your Neighbors: Advanced Stable Test-Time Adaptation in Dynamic World

NIPS 2025 (CCF-A)

[Paper] [Code]

提出 DYN 框架，通过逐层实例统计聚类(LISC)和聚类感知批量归一化(CABN)实现动态测试时适应。作为首个无需反向传播的方法，处理批次内多重分布展现卓越鲁棒性，最高提升 35% 泛化性能。

Understanding Bias Terms in Neural Representation

NeurIPS 2025 (CCF-A)

[Paper] [Code]

本文研究神经表示学习中偏置项的作用机制，分析偏置设计对表示能力、训练稳定性与泛化性能的影响，并为隐式神经表示模型的结构设计提供新的理解。

COSMIC: Clique-Oriented Semantic Multi-space Integration for Robust CLIP Test-Time Adaptation

CVPR 2025 (CCF-A)

[Project] [arXiv] [Code]

针对视觉语言模型在测试时领域适应的性能退化，提出了创新 COSMIC 框架，通过多粒度、跨模态语义缓存和基于图的查询机制，显著增强模型适应能力。跨域测试任务性能提升 15.81%。

Music-Aligned Holistic 3D Dance Generation via Hierarchical Motion Modeling

ICCV 2025 (CCF-A)

[Project] [arXiv] [Code]

本文提出面向音乐驱动全身三维舞蹈生成的 SoulNet 框架，并构建高精度 SoulDance 数据集。方法通过分层残差向量量化建模身体、手部与面部的细粒度运动依赖，结合音乐条件生成模块与跨模态检索先验，实现动作与音乐的时序同步与语义一致。实验表明模型在生成质量、协调性与对齐性能上显著优于现有方法。

Expansive Supervision for Neural Radiance Field

ICME 2025

[Paper] [Code]

本文提出面向 Neural Radiance Field 的扩展监督方法，通过更丰富有效的监督信号提升场景表示质量与重建性能，从而改善新视角合成结果。

EVOS: Efficient Implicit Neural Training via EVOlutionary Selector

CVPR 2025 (CCF-A)

[Project] [arXiv] [Code]

提出动态样本选择框架 EVOS，将样本坐标视为进化个体，通过稀疏适应度评估、间隔采样与缓存机制，大幅降低计算量。结合频率引导交叉和增强无偏变异，克服频谱偏差，训练时间减少 48%-66%。

Enhancing Implicit Neural Representations via Symmetric Power Transformation

AAAI 2025 (CCF-A)

[Project] [arXiv] [Code]

创新性地提出“对称幂变换”，基于“范围定义对称假设”，通过非线性可逆变换重构数据分布，同时完成范围约束与对称化。在零额外成本的前提下，解决了极端偏差放大与边界断裂难题，并在 ImageNet 上斩获最佳 PSNR/SSIM 指标。

SizeGS: Size-aware Compression of 3D Gaussian Splatting via Mixed Integer Programming

ACM MM 2025 (CCF-A) Best Paper Candidate最佳论文候选

[Project] [arXiv] [Code]

基于混合整数规划的尺寸感知压缩框架，旨在通过快速搜索超参数将 3DGS 压缩至预定大小。能在一分钟内搜索到满足尺寸约束的最佳参数，实现 SOTA 级别的离线压缩性能。

SkyML: A MLaaS Federation Design for Multicloud-Based Multimedia Analytics

IEEE Transactions on Multimedia 2025 (CCF-B)

[Paper] [DOI]

本文提出 SkyML 多云机器学习服务联邦框架，通过在用户侧构建 MLaaS broker，根据任务特征动态选择并协同多个云服务，实现多媒体分析任务的性能与成本优化。系统联合建模服务能力、网络延迟与资源价格，提出高效调度与组合策略，在真实工作负载下显著提升任务完成时延与服务质量，为跨云智能分析提供可扩展系统方案。

MesonGS: Post-training Compression of 3D Gaussians via Efficient Attribute Transformation

ECCV 2024 (CCF-B)

[Project] [arXiv] [Code]

一种高效的后训练 3D 高斯压缩编解码器。引入视点相关与无关重要性度量标准，结合属性变换（如RAHT）和块量化策略，在大幅压缩体积的同时保留高质量渲染。

RFQuant: Retraining-free Model Quantization via One-Shot Weight-Coupling Learning

CVPR 2024 (CCF-A)

[Paper] [Supp] [Poster] [Code]

本文提出一种无需重训练的模型量化方法 RFQuant，通过一次性权重耦合学习在保持模型精度的同时显著降低量化成本，为高效部署提供了实用方案。

All Publications全部代表性成果

Preprints预印本

20262026

20252025

20242024