All Publications全部代表性成果

Back to Home返回首页

Preprints预印本

AnchorGen: Multi-View Geometric Anchoring for Keyframe-Aware Embodied Video Generation

AnchorGen: Multi-View Geometric Anchoring for Keyframe-Aware Embodied Video Generation

Under Review

AnchorGen 是一种关键帧感知的几何锚定视频生成框架,用于提升机器人动作条件视频的三维一致性。方法通过自监督二维-三维对比学习自动发现接触与状态变化等重要关键帧,并以稀疏几何特征作为结构化条件注入多模态扩散模型,在真实机器人数据上显著提升生成质量与空间一致性。

Embodied Motion Imagination: Fixed-View Motion Reconstruction for Moving-Camera 4D Human Capture

Embodied Motion Imagination: Fixed-View Motion Reconstruction for Moving-Camera 4D Human Capture

Under Review

本文提出 EIHMR 框架,针对移动相机单目视频中相机运动与人体运动耦合导致的全局 3D 人体重建困难问题,通过“固定视角”的局部运动优化与运动感知 SLAM 协同建模,实现相机轨迹与人体姿态的互相强化。方法利用场景深度与运动重投影生成稳定几何特征,显著提升长序列中的轨迹精度与运动一致性,在 EMDB 等数据集上取得更优全局重建效果。

Tail-Aware Post-Training Quantization for 3D Geometry Models

Tail-Aware Post-Training Quantization for 3D Geometry Models

Under Review

本文提出面向 3D 几何模型的尾部分布感知后训练量化方法 TAPTQ,通过渐进式 coarse-to-fine 校准集构建、三分搜索量化区间优化和 TRE 引导的模块补偿,在提升量化精度的同时显著降低校准开销。

Beyond the Exploration-Exploitation Trade-off: A Hidden State Approach for LLM Reasoning in RLVR

Beyond the Exploration-Exploitation Trade-off: A Hidden State Approach for LLM Reasoning in RLVR

Under Review

本文提出从隐藏状态语义空间重新审视大模型推理中“探索-利用权衡”,指出该权衡源于 token 级度量偏差。作者引入有效秩及其速度、加速度刻画探索与利用动态,并提出 VERL 方法,通过优势函数塑形实现两者协同提升。实验表明该方法在多模型与推理任务上显著提升准确率与泛化能力。

VGGT-DP: Generalizable Robot Control via Vision Foundation Models

VGGT-DP: Generalizable Robot Control via Vision Foundation Models

Under Review

VGGT-DP 提出基于视觉几何基础模型和肌觉反馈的机器人控制框架,采用视觉基础模型 VGGT 作为感知编码器,并引入肌觉引导的视觉学习策略以增强空间对齐。通过帧级 token 复用和随机剪枝降低多视输入的推理开销,在 MetaWorld 任务上显著超越 Diffusion Policy 等基线。

SD-GS: Structured Deformable 3D Gaussians for Efficient Dynamic Scene Reconstruction

SD-GS: Structured Deformable 3D Gaussians for Efficient Dynamic Scene Reconstruction

Under Review

引入可变形锚点网格,利用局部锚点生成 3D 高斯作为几何骨架,显著降低时空冗余。结合形变感知致密化策略,模型体积平均减少 60%,FPS 提升 100%。

20262026

Test-Time Distillation for Continual Model Adaptation

Test-Time Distillation for Continual Model Adaptation

CVPR 2026 (CCF-A)

研究持续测试时自适应(CTTA)中模型在分布变化下性能退化与漂移的问题。通过在测试阶段引入蒸馏机制,并利用冻结的视觉—语言模型提供稳定的教师信号,为目标模型提供外部监督,从而减少自监督误差累积。该方法提升了模型在持续分布变化环境中的稳定性与适应能力。

Neural Collapse in Test-Time Adaptation

Neural Collapse in Test-Time Adaptation

CVPR 2026 (CCF-A)

研究测试时自适应(TTA)中的神经坍塌现象,分析模型在分布变化环境下特征表示与分类边界的变化规律。通过理论与实验分析,揭示神经坍塌对模型稳定性和泛化能力的影响,并探讨其在测试阶段持续适应过程中的作用机制,为提升模型在动态环境中的鲁棒性提供参考。

IGen: Scalable Data Generation for Robot Learning from Open-World Images

CVPR 2026 (CCF-A)

本文提出 IGen,一种面向机器人学习的可扩展数据生成框架,可从开放世界图像中自动生成逼真的视觉观测与可执行动作,从而在无需人工遥操作数据的情况下训练有效的操作策略。

MoETTA: Test-Time Adaptation Under Mixed Distribution Shifts with MoE-LayerNorm

MoETTA: Test-Time Adaptation Under Mixed Distribution Shifts with MoE-LayerNorm

AAAI 2026 (CCF-A)

针对真实场景中复杂的混合分布偏移,提出 MoETTA 框架,引入专家混合(MoE)架构为不同域偏移提供结构解耦的多专家系统。在全新构建的 Potpourri 基准上全面超越现有基线。

20252025

Discover Your Neighbors: Advanced Stable Test-Time Adaptation in Dynamic World

Discover Your Neighbors: Advanced Stable Test-Time Adaptation in Dynamic World

NIPS 2025 (CCF-A)

提出 DYN 框架,通过逐层实例统计聚类(LISC)和聚类感知批量归一化(CABN)实现动态测试时适应。作为首个无需反向传播的方法,处理批次内多重分布展现卓越鲁棒性,最高提升 35% 泛化性能。

Understanding Bias Terms in Neural Representation

Understanding Bias Terms in Neural Representation

NeurIPS 2025 (CCF-A)

本文研究神经表示学习中偏置项的作用机制,分析偏置设计对表示能力、训练稳定性与泛化性能的影响,并为隐式神经表示模型的结构设计提供新的理解。

COSMIC: Clique-Oriented Semantic Multi-space Integration for Robust CLIP Test-Time Adaptation

COSMIC: Clique-Oriented Semantic Multi-space Integration for Robust CLIP Test-Time Adaptation

CVPR 2025 (CCF-A)

针对视觉语言模型在测试时领域适应的性能退化,提出了创新 COSMIC 框架,通过多粒度、跨模态语义缓存和基于图的查询机制,显著增强模型适应能力。跨域测试任务性能提升 15.81%。

Music-Aligned Holistic 3D Dance Generation via Hierarchical Motion Modeling

Music-Aligned Holistic 3D Dance Generation via Hierarchical Motion Modeling

ICCV 2025 (CCF-A)

本文提出面向音乐驱动全身三维舞蹈生成的 SoulNet 框架,并构建高精度 SoulDance 数据集。方法通过分层残差向量量化建模身体、手部与面部的细粒度运动依赖,结合音乐条件生成模块与跨模态检索先验,实现动作与音乐的时序同步与语义一致。实验表明模型在生成质量、协调性与对齐性能上显著优于现有方法。

Expansive Supervision for Neural Radiance Field

Expansive Supervision for Neural Radiance Field

ICME 2025

本文提出面向 Neural Radiance Field 的扩展监督方法,通过更丰富有效的监督信号提升场景表示质量与重建性能,从而改善新视角合成结果。

EVOS: Efficient Implicit Neural Training via EVOlutionary Selector

EVOS: Efficient Implicit Neural Training via EVOlutionary Selector

CVPR 2025 (CCF-A)

提出动态样本选择框架 EVOS,将样本坐标视为进化个体,通过稀疏适应度评估、间隔采样与缓存机制,大幅降低计算量。结合频率引导交叉和增强无偏变异,克服频谱偏差,训练时间减少 48%-66%。

Enhancing Implicit Neural Representations via Symmetric Power Transformation

Enhancing Implicit Neural Representations via Symmetric Power Transformation

AAAI 2025 (CCF-A)

创新性地提出“对称幂变换”,基于“范围定义对称假设”,通过非线性可逆变换重构数据分布,同时完成范围约束与对称化。在零额外成本的前提下,解决了极端偏差放大与边界断裂难题,并在 ImageNet 上斩获最佳 PSNR/SSIM 指标。

SizeGS: Size-aware Compression of 3D Gaussian Splatting via Mixed Integer Programming

SizeGS: Size-aware Compression of 3D Gaussian Splatting via Mixed Integer Programming

ACM MM 2025 (CCF-A) Best Paper Candidate最佳论文候选

基于混合整数规划的尺寸感知压缩框架,旨在通过快速搜索超参数将 3DGS 压缩至预定大小。能在一分钟内搜索到满足尺寸约束的最佳参数,实现 SOTA 级别的离线压缩性能。

SkyML: A MLaaS Federation Design for Multicloud-Based Multimedia Analytics

SkyML: A MLaaS Federation Design for Multicloud-Based Multimedia Analytics

IEEE Transactions on Multimedia 2025 (CCF-B)

本文提出 SkyML 多云机器学习服务联邦框架,通过在用户侧构建 MLaaS broker,根据任务特征动态选择并协同多个云服务,实现多媒体分析任务的性能与成本优化。系统联合建模服务能力、网络延迟与资源价格,提出高效调度与组合策略,在真实工作负载下显著提升任务完成时延与服务质量,为跨云智能分析提供可扩展系统方案。

20242024

MesonGS: Post-training Compression of 3D Gaussians via Efficient Attribute Transformation

MesonGS: Post-training Compression of 3D Gaussians via Efficient Attribute Transformation

ECCV 2024 (CCF-B)

一种高效的后训练 3D 高斯压缩编解码器。引入视点相关与无关重要性度量标准,结合属性变换(如RAHT)和块量化策略,在大幅压缩体积的同时保留高质量渲染。

RFQuant: Retraining-free Model Quantization via One-Shot Weight-Coupling Learning

RFQuant: Retraining-free Model Quantization via One-Shot Weight-Coupling Learning

CVPR 2024 (CCF-A)

本文提出一种无需重训练的模型量化方法 RFQuant,通过一次性权重耦合学习在保持模型精度的同时显著降低量化成本,为高效部署提供了实用方案。