Publications

2026

Ming Chen, Sheng Tang, Rong-Xi Tan, Ziniu Li, Jiacheng Chen, Ke Xue, Chao Qian. Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning. The 43rd International Conference on Machine Learning (ICML), 2026
Yingru Li*, Jiawei Xu*, Ziniu Li*, Jiacai Liu, Wei Liu, Yuxuan Tong, Longtao Zheng, Zhenghai Xue, Yaxiang Zhang, Tianle Cai, Ge Zhang, Qian Liu, Baoxiang Wang. The Optimal Token Baseline: Variance Reduction for Long-Horizon LLM-RL. The 43rd International Conference on Machine Learning (ICML), 2026
Yingru Li, Jiacai Liu, Jiawei Xu, Yuxuan Tong, Ziniu Li, Baoxiang Wang. Trust Region Masking for Long-Horizon LLM Reinforcement Learning. The 43rd International Conference on Machine Learning (ICML), 2026
Junying Chen, Xinyuan Xie, Ziniu Li, Benyou Wang. OnePO: Direct One-stage Policy Optimization for SFT-free Domain Adaptation. The 43rd International Conference on Machine Learning (ICML), 2026
Ziniu Li, Congliang Chen, Tianyun Yang, Tian Ding, Ruoyu Sun, Ge Zhang, Wenhao Huang, Zhi-Quan Luo. Knapsack RL: Compute-Efficient Reinforcement Learning via Heterogeneous Rollout Allocation. The 43rd International Conference on Machine Learning (ICML), 2026
Yizhi Li, Qingshui Gu, Zhoufutu Wen, Ziniu Li, Ruibin Yuan, Tianshun Xing, Shuyue Guo, Tuney Zheng, Xin Zhou, Xingwei Qu, Wangchunshu Zhou, Zheng Zhang, Wei Shen, Wei Xue, Qian Liu, Chenghua Lin, Jian Yang, Ge Zhang, Wenhao Huang. TreePO: Enhancing Policy Efficacy and Inference Efficiency with Tree Modeling. The 43rd International Conference on Machine Learning (ICML), 2026
Tian Xu, Chenyang Wang, Xiaochen Zhai, Ziniu Li, Yi-Chen Li, Yang Yu. Non-Adversarial Imitation Learning Provably Free of Compounding Errors: The Value Flow Mechanism. The 43rd International Conference on Machine Learning (ICML), 2026
Xueyao Zhang, Chaoren Wang, Huan Liao, Ziniu Li, Yuancheng Wang, Li Wang, Dongya Jia, Yuanzhe Chen, Xiulin Li, Zhuo Chen, Zhizheng Wu. SpeechJudge: Towards Human-Level Judgment for Speech Naturalness. The 14th International Conference on Learning Representations (ICLR), 2026
Peter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin. Exploration vs Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward. The 14th International Conference on Learning Representations (ICLR), 2026
Peng-Yuan Wang, Tian-Shuo Liu, Chenyang Wang, Ziniu Li, Yi-Di Wang, Shu Yan, Cheng-Xing Jia, Xu-Hui Liu, Xin-Wei Chen, Jia-Cheng Xu, Yang Yu. A Survey on Large Language Models for Mathematical Reasoning. ACM Computing Surveys (CSUR), 2026
Tongxu Luo, Rongsheng Wang, Jiaxi Bi, Chenming Xu, Zhengyang Tang, Jianlong Chen, Juhao Liang, Ke Ji, Shuqi Guo, Yuhao Du, Fan Bu, Wenyu Du, Xiaotong Zhang, Kyle Li, Shaobo Wang, Linfeng Zhang, Yuxuan Liu, Xin Lai, Chenxin Li, Yiduo Guo, Zhexin Zhang, Xinyuan Wang, Tianyi Bai, Ziniu Li, Benyou Wang. GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?. arXiv:2606.17861
Sheng Jin, Minghao Liu, Yunze Xiao, Zeqi Zhou, Heli Qi, Yifan Yao, Meishu Song, Kaijing Ma, Xuan Zhang, Sicong Jiang, Yizhe Li, Ningshan Ma, Jie Wei, Ziniu Li, Minglai Yang, Bangya Liu, Yiming Liang, Xiao Fang, Qingcheng Zeng, Jiarui Liu, Rui Yang, Shen Yan, Wenhao Huang, Jiaheng Liu, Zihan Wang, Weihao Xuan, Ge Zhang. Knowledge Index of Noah's Ark. arXiv:2606.05104
Pengbo Li, Feiyuan Zhang, Guangming Sheng, Guangxin He, Di Chai, Ziniu Li, Taiqiang Wu, Wenyu Mao, Binhang Yuan, Kai Chen. Schedule-Level Shared-Prefix Reuse for LLM RL Training. arXiv:2606.01143
Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu. Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO. arXiv:2605.04077
Zhengyang Tang, Ke Ji, Xidong Wang, Zihan Ye, Xinyuan Wang, Yiduo Guo, Ziniu Li, Chenxin Li, Jingyuan Hu, Shunian Chen, Tongxu Luo, Jiaxi Bi, Zeyu Qin, Shaobo Wang, Xin Lai, Pengyuan Lyu, Junyi Li, Can Xu, Chengquan Zhang, Han Hu, Ming Yan, Benyou Wang. Do Phone-Use Agents Respect Your Privacy?. arXiv:2604.00986
Peng-Yuan Wang, Ziniu Li, Tian Xu, Bohan Yang, Tian-Shuo Liu, ChenYang Wang, Xiong-Hui Chen, Yi-Chen Li, Tianyun Yang, Congliang Chen, Yang Yu. Off-Policy Value-Based Reinforcement Learning for Large Language Models. arXiv:2603.23355
Tian Xu*, Ziniu Li*, Yang Yu, Zhi-Quan Luo. Understanding Adversarial Imitation Learning in Small Sample Regime: A Stage-coupled Analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2026
ByteDance Seed. Seed1.8 Model Card: Towards Generalized Real-World Agency. arXiv:2603.20633
Yaxiang Zhang, Yingru Li, Jiacai Liu, Jiawei Xu, Ziniu Li, Qian Liu, Haoyuan Li. Beyond Precision: Training-Inference Mismatch is an Optimization Problem and Simple LR Scheduling Fixes It. arXiv:2602.01826
Qiguang Chen, Yantao Du, Ziniu Li, Jinhao Liu, Songyao Duan, Jiarui Guo, Minghao Liu, Jiaheng Liu, Tong Yang, Ge Zhang, Libo Qin, Wanxiang Che, Wenhao Huang. The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning. arXiv:2601.06002

2025

Yiming Liang, Yizhi Li, Yantao Du, Ge Zhang, Jiayi Zhou, Yuchen Wu, Yinzhu Piao, Denghui Cao, Tong Sun, Ziniu Li, Li Du, Bo Lei, Jiaheng Liu, Chenghua Lin, Zhaoxiang Zhang, Wenhao Huang, Jiajun Zhang. Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements. arXiv:2512.24867
Yingru Li, Ziniu Li, Jiacai Liu. A Note on Hybrid Online Reinforcement and Imitation Learning for LLMs: Formulations and Algorithms. arXiv:2512.23097
Yingru Li, Jiawei Xu, Jiacai Liu, Yuxuan Tong, Ziniu Li, Tianle Cai, Ge Zhang, Qian Liu, Baoxiang Wang. Dynamic Vocabulary Pruning: Stable LLM-RL by Taming the Tail. arXiv:2512.23087
Rui-Jie Zhu*, Zixuan Wang*, Kai Hua*, Tianyu Zhang*, Ziniu Li*, Haoran Que*, Boyi Wei*, Zixin Wen*, Fan Yin*, He Xing*, Lu Li, Jiajun Shi, Kaijing Ma, Shanda Li, Taylor Kergan, Andrew Smith, Xingwei Qu, Mude Hui, Bohong Wu, Qiyang Min, Hongzhi Huang, Xun Zhou, Wei Ye, Jiaheng Liu, Jian Yang, Yunfeng Shi, Chenghua Lin, Enduo Zhao, Tianle Cai, Ge Zhang, Wenhao Huang, Yoshua Bengio, Jason Eshraghian. Scaling Latent Reasoning via Looped Language Models. arXiv:2510.25741
Zhuohan Wang, Ziwei Zhu, Ziniu Li, Congliang Chen, Yizhou Han, Yufeng Lin, Zhihang Lin, Angyang Gu, Xinglin Hu, Ruoyu Sun, Tian Ding. ORGEval: Graph-Theoretic Evaluation of LLMs in Optimization Modeling. arXiv:2510.27610
Chengpeng Li*, Zhengyang Tang*, Ziniu Li*, Mingfeng Xue, Keqin Bao, Tian Ding, Ruoyu Sun, Benyou Wang, Xiang Wang, Junyang Lin, Dayiheng Liu. Teaching Language Models to Reason with Tools. Conference on Neural Information Processing System (NeurIPS) 39, 2025
Ziniu Li, Pengyuan Wang, Tian Xu, Tian Ding, Ruoyu Sun, Yang Yu. Review of Reinforcement Learning for Large Language Models: Formulations, Algorithms, and Opportunities. Under review
Jiancong Xiao, Ziniu Li, Xingyu Xie, Emily Getzen, Cong Fang, Qi Long, Weijie J. Su. On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization. Accepted by Journal of the American Statistical Association (JASA), 2025
Tianyun Yang*, Yunwen Li*, Ziniu Li*, Zhihang Lin, Ruoyu Sun, Tian Ding. Bridging Formal Language with Chain-of-Thought Reasoning to Geometry Problem Solving. arXiv:2508.09099
Zhengyang Tang*, Ziniu Li*, Zhenyang Xiao*, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin. Self-Evolving Critique Abilities in Large Language Models. Conference on Language Modeling (COLM), 2025
Ren-Jian Wang, Ke Xue, Zeyu Qin, Ziniu Li, Sheng Tang, Hao-Tian Li, Shengcai Liu, Chao Qian. Quality-Diversity Red-Teaming: Automated Generation of High-Quality and Diverse Attackers for Large Language Models. arXiv:2506.07121
Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin. Spectral Policy Optimization: Coloring your Incorrect Reasoning in GRPO. Transactions on Machine Learning Research (TMLR), 2025
Xueyao Zhang, Yuancheng Wang, Chaoren Wang, Ziniu Li, Zhuo Chen, Zhizheng Wu. Advancing Zero-shot Text-to-Speech Intelligibility across Diverse Domains via Preference Alignment. The 63rd Annual Meeting of the Association for Computational Linguistics (ACL), 2025
Chengxing Jia, Ziniu Li, Pengyuan Wang, Yi-Chen Li, Zhenyu Hou, Yuxiao Dong, Yang Yu. Controlling Large Language Model with Latent Actions. The 42nd International Conference on Machine Learning (ICML), 2025
Yushun Zhang, Congliang Chen, Ziniu Li, Tian Ding, Chenwei Wu, Diederik P. Kingma, Yinyu Ye, Zhi-Quan Luo, Ruoyu Sun. Adam-mini: Use Fewer Learning Rates To Gain More. The 13th International Conference on Learning Representations (ICLR), 2025
Ziniu Li, Congliang Chen, Tian Xu, Zeyu Qin, Jiancong Xiao, Zhi-Quan Luo, Ruoyu Sun. Preserving Diversity in Supervised Fine-tuning of Large Language Models. The 13th International Conference on Learning Representations (ICLR), 2025 🏆 Best Paper Runner-up at NeurIPS 2024 Workshop on Fine-Tuning in Modern Machine Learning
Tianyun Yang, Ziniu Li, Juan Cao, Chang Xu. Understanding and Mitigating Hallucination in Large Vision-Language Models via Modular Attribution and Intervention. The 13th International Conference on Learning Representations (ICLR), 2025
Zhengyang Tang*, Ziniu Li*, Zhenyang Xiao*, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin. RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques. arXiv:2501.14492

2024

Tianyun Yang, Ziniu Li, Juan Cao, Chang Xu. Pruning for Robust Concept Erasing in Diffusion Models. NeurIPS Workshop on Safe Generative AI, 2024
Heshen Zhan, Congliang Chen, Tian Ding, Ziniu Li, Ruoyu Sun. Unlocking Black-Box Prompt Tuning Efficiency via Zeroth-Order Optimization. The 2024 Conference on Empirical Methods in Natural Language Processing (EMNLP) (Findings), 2024
Youlin Fan, Bo Jiu, Wenqiang Pu, Ziniu Li, Kang Li, Hongwei Liu. Sensing Jamming Strategy from Limited Observations: An Imitation Learning Perspective. IEEE Transactions on Signal Processing (TSP)
Ziniu Li, Tian Xu, Yushun Zhang, Zhihang Lin, Yang Yu, Ruoyu Sun, Zhi-Quan Luo. ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models. The 41st International Conference on Machine Learning (ICML), 2024
Yushun Zhang, Congliang Chen, Tian Ding, Ziniu Li, Ruoyu Sun, Zhi-Quan Luo. Why Transformers Need Adam: A Hessian Perspective. Conference on Neural Information Processing System (NeurIPS) 38, 2024
Ziniu Li*, Tian Xu*, Yang Yu. When is RL better than DPO in RLHF? A Representation and Optimization Perspective. The 12th International Conference on Learning Representations (ICLR) (Tiny Paper Track), 2024 🏆 Oral presentation, with an early version at arXiv:2312.10584

2023

Ziniu Li*, Tian Xu*, Zeyu Qin, Yang Yu, Zhi-Quan Luo. Imitation Learning from Imperfection: Theoretical Justifications and Algorithms. Conference on Neural Information Processing System (NeurIPS) 37, 2023 🏆 Spotlight presentation
Tian Xu*, Ziniu Li*, Yang Yu, Zhi-Quan Luo. Provably Efficient Adversarial Imitation Learning with Unknown Transitions. The 39th Conference on Uncertainty in Artificial Intelligence (UAI), 2023 🏆 Oral presentation, with an early version at arXiv:2106.10424v2
Ziniu Li, Ke Xu, Liu Liu, Lanqing Li, Deheng Ye, Peilin Zhao. Deploying Offline Reinforcement Learning with Human Feedback. arXiv:2303.07046

2022

Ziniu Li*, Tian Xu*, Yang Yu, Zhi-Quan Luo. Rethinking ValueDice: Does It Really Improve Performance?. The 10th International Conference on Learning Representations (ICLR) (Blog Track), 2022
Ziniu Li*, Tian Xu*, Yang Yu. A Note on Target Q-learning for Solving Finite MDPs with A Generative Oracle. arXiv:2203.11489
Ziniu Li, Yingru Li, Yushun Zhang, Tong Zhang, Zhi-Quan Luo. HyperDQN: A Randomized Exploration Method for Deep Reinforcement Learning. The 10th International Conference on Learning Representations (ICLR), 2022 🏆 Oral presentation at Workshop on Ecological Theory of Reinforcement Learning at NeurIPS, 2021

2021

Tian Xu, Ziniu Li, Yang Yu. A Concise Introduction to Imitation Learning. Online Available
Tian Xu, Ziniu Li, Yang Yu. Error Bounds of Imitating Policies and Environments for Reinforcement Learning. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

2020

Tian Xu, Ziniu Li, Yang Yu. Error Bounds of Imitating Policies and Environments. Conference on Neural Information Processing Systems 34 (NeurIPS), 2020
Ziniu Li*, Xiong-Hui Chen*. Efficient Exploration by Novelty-pursuit. The 2nd International Conference on Distributed Artificial Intelligence (DAI), 2020
Fei-yu Liu, Ziniu Li, Chao Qian. Self-Guided Evolution Strategies with Historical Estimated Gradients. The 29th International Conference on Joint Artificial Intelligence (IJCAI), 2020

Publications by year

2026

2025

2024

2023

2022

2021

2020