Hao Li (Leo Li)

arXiv 2026 Project Lead

S-Agent: Spatial Tool Use Elicits Reasoning for Spatial Intelligence

Yalun Dai†, Hao Li†, Shulin Tian, Runmao Yao, Fangzhou Hong, Zhaoxi Chen, Leonardo Guibas, Ziwei Liu

Project Paper Code

arXiv 2026 Project Lead

SpatialBench: Is Your Spatial Foundation Model an All-Round Player?

Haosong Peng†, Hao Li†, Jiaqi Chen, Yuhao Pan, Runmao Yao, Yalun Dai, Fushuo Huo, Fangzhou Hong, Zhaoxi Chen, Haozhao Wang, Dingwen Zhang, Ziwei Liu, Wenchao Xu

Project Paper Code Benchmark

ICML 2026Oral Project Lead

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

Yuanyuan Gao†, Hao Li†, Yifei Liu, Xinhao Ji, Yuning Gong, Yiyi Liao, Fangfu Liu, Manyuan Zhang, Yi Yang, Dan Xu

Project Paper Code

CVPR 2026Highlight Project Lead

OmniVGGT: Omni-Modality Driven Visual Geometry Grounded Transformer

Haosong Peng†, Hao Li†, Yalun Dai, Yushi Lan, Yihang Luo, Tianyu Qi, Yufeng Zhan, Junfei Zhang, Wenchao Xu, Ziwei Liu

Project Paper Code

ICLR 2026

IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction

Hao Li, Zhengyu Zou, Fangfu Liu, Xuanyang Zhang, Fangzhou Hong, Yukang Cao, Yushi Lan, Manyuan Zhang, Gang Yu, Dingwen Zhang, Ziwei Liu

Project Paper Code

ICLR 2026 Project Lead

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Zhengshen Zhang†, Hao Li†, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou

Project Paper Code

ECCV 2026

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

Fangfu Liu, Di Wu, Jiawei Chi, Yue Cai, Yu-Hsiang Hung, Xiaofeng Yu, Hao Li, Hao Hu, Yongming Rao, Yueqi Duan

Project Paper Video Code

IEEE T-PAMI 2026

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

Hao Li, Minghan Qin#, Zhengyu Zou, Diqi He, Bohan Li, Bingquan Dai, Dingwen Zhang#, Junwei Han

Project Paper Video Code

NeurIPS 2026 · In Preparation

EgoTools: Benchmarking Physical Logic and Tool Affordances in Egocentric Videos

S-Lab Team

Tech Report 2025

Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Weiwei Cheng, Wanggui Cai, Shun Wu, Jie Liu, Ziwei Wang, Gang Yu

Project Paper Code

arXiv 2025

ExGS: Extreme 3D Gaussian Compression with Diffusion Priors

Jiaqi Chen, Xinhao Ji, Yuanyuan Gao, Hao Li, Yuning Gong, Yifei Liu, Zhihang Zhong, Dingwen Zhang, Dan Xu, Xiao Sun

Paper Code

NeurIPS 2025

STRIDER: Navigation via Instruction-Aligned Structural Decision Space Optimization

Diqi He, Xuehao Gao, Hao Li, Junwei Han, Dingwen Zhang

Paper Code

ICCV 2025

LangScene-X: Reconstruct Generalizable 3D Language-Embedded Scenes with TriMap Video Diffusion

Fangfu Liu†, Hao Li†, Jiawei Chi, Hanyang Wang, Minghui Yang, Fudong Wang, Yueqi Duan

Project Paper Code

ICCV 2025

CityGS-X: A Scalable Architecture for Efficient and Geometrically Accurate Large-Scale Scene Reconstruction

Yuanyuan Gao†, Hao Li†, Jiaqi Chen, Zhihang Zhong, Zhengyu Zou, Dingwen Zhang, Xiao Sun, Junwei Han

Project Paper Code

ICRA 2025

DGTR: Distributed Gaussian Turbo-Reconstruction for Sparse-View Vast Scenes

Hao Li, Yuanyuan Gao, Haosong Peng, Chenming Wu, Weicai Ye, Yufeng Zhan, Chen Zhao, Dingwen Zhang, Jingdong Wang, Junwei Han

Project Paper

3DV 2025

XLD: A Cross-Lane Dataset for Benchmarking Novel Driving View Synthesis

Hao Li, Chenming Wu, Chen Zhao, Haocheng Feng, Errui Ding, Dingwen Zhang#, Jingdong Wang

Project Paper Code

IJCV 2024

CoSurfGS: Collaborative 3D Surface Gaussian Splatting with Distributed Learning for Large Scene Reconstruction

Yuanyuan Gao†, Yalun Dai†, Hao Li†, Weicai Ye, Jiaqi Chen, Dingwen Zhang, Tong He, Guofeng Zhang, Junwei Han

Project Paper Code

CVPR 2024Highlight

GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding

Hao Li, Dingwen Zhang, Yalun Dai, Nian Liu, Lechao Cheng, Jingfeng Li, Jingdong Wang, Junwei Han

Project Paper Code

CVPR 2024Oral

LTGC: Long-Tail Recognition via Leveraging LLMs-driven Generated Content

Qihao Zhao†, Yalun Dai†, Hao Li†, Wei Hu, Fan Zhang, Jun Liu

Project Paper Code

ECCV 2024

GGRt: Towards Pose-free Generalizable 3D Gaussian Splatting in Real-time

Hao Li, Yuanyuan Gao, Chenming Wu, Dingwen Zhang, Yalun Dai, Chen Zhao, Haocheng Feng, Errui Ding, Jingdong Wang, Junwei Han

Project Paper Code

IEEE RA-L 2024

VDG: Vision-Only Dynamic Gaussian for Driving Simulation

Hao Li, Jingfeng Li, Dingwen Zhang, Chenming Wu, Jieqi Shi, Chen Zhao, Haocheng Feng, Errui Ding, Jingdong Wang, Junwei Han

Project Paper

IEEE TIP 2024

Weakly Supervised Semantic Segmentation via Alternate Self-Dual Teaching

Dingwen Zhang, Hao Li, Wenyuan Zeng, Chaowei Fang, Lechao Cheng, Ming-Ming Cheng, Junwei Han

Paper Code

IEEE T-PAMI 2024

Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation

Dingwen Zhang, Hao Li, Diqi He, Nian Liu, Lechao Cheng, Jingdong Wang, Junwei Han

arXiv 2024

V2A-GS: End to End Reconstruction of Articulated Objects from Video Sequences

Hao Li, Zhengyu Zou, Wenke Xia, Fangcheng Zhong, Cengiz Oztireli, Dingwen Zhang, Junwei Han

CVPR 2023

Boosting Low-Data Instance Segmentation by Unsupervised Pre-training with Saliency Prompt

Hao Li, Dingwen Zhang, Nian Liu, Lechao Cheng, Yalun Dai, Xinggang Wang, Junwei Han

Paper

Hao Li (Leo Li)

Biography

News

Publications

S-Agent: Spatial Tool Use Elicits Reasoning for Spatial Intelligence

SpatialBench: Is Your Spatial Foundation Model an All-Round Player?

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

OmniVGGT: Omni-Modality Driven Visual Geometry Grounded Transformer

IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

EgoTools: Benchmarking Physical Logic and Tool Affordances in Egocentric Videos

Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

ExGS: Extreme 3D Gaussian Compression with Diffusion Priors

STRIDER: Navigation via Instruction-Aligned Structural Decision Space Optimization

LangScene-X: Reconstruct Generalizable 3D Language-Embedded Scenes with TriMap Video Diffusion

CityGS-X: A Scalable Architecture for Efficient and Geometrically Accurate Large-Scale Scene Reconstruction

DGTR: Distributed Gaussian Turbo-Reconstruction for Sparse-View Vast Scenes

XLD: A Cross-Lane Dataset for Benchmarking Novel Driving View Synthesis

CoSurfGS: Collaborative 3D Surface Gaussian Splatting with Distributed Learning for Large Scene Reconstruction

GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding

LTGC: Long-Tail Recognition via Leveraging LLMs-driven Generated Content

GGRt: Towards Pose-free Generalizable 3D Gaussian Splatting in Real-time

VDG: Vision-Only Dynamic Gaussian for Driving Simulation

Weakly Supervised Semantic Segmentation via Alternate Self-Dual Teaching

Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation

V2A-GS: End to End Reconstruction of Articulated Objects from Video Sequences

Boosting Low-Data Instance Segmentation by Unsupervised Pre-training with Saliency Prompt

Talks

Honors and Awards