Wei Shen

Researcher, Baichuan

Joined

June 2023

Names

Wei Shen (Preferred)

wei shen

Emails

****@m.fudan.edu.cn (Confirmed)

****@gmail.com (Confirmed)

****@baichuan-inc.com (Confirmed)

Personal Links

Homepage

Google Scholar

Semantic Scholar

Career & Education History

Researcher

Baichuan (baichuan.inc)

2024 – Present

MS student

Fudan University (fudan.edu.cn)

2021 – 2024

Undergrad student

Huazhong University of Science and Technology (hust.edu.cn)

2016 – 2020

Advisors, Relations & Conflicts

No relations added

Expertise

No areas of expertise listed

Publications

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy
Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao, Jujie He, Jiacai Liu, Chaojie Wang, Rui Yan, Wei Shen, Fuxiang Zhang, Jiacheng Xu, Yang Liu
- ICLR 2026 Poster
- Readers: Everyone
RMB: Comprehensively benchmarking reward models in LLM alignment
Enyu Zhou, Guodong Zheng, Binghai Wang, Zhiheng Xi, Shihan Dou, Rong Bao, Wei Shen, Limao Xiong, Jessica Fan, Yurong Mou, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang
- ICLR 2025 Poster
- Readers: Everyone
Learning LLM-as-a-Judge for Preference Alignment
Ziyi Ye, Xiangsheng Li, Qiuchi Li, Qingyao Ai, Yujia Zhou, Wei Shen, Dong Yan, Yiqun LIU
- ICLR 2025 Poster
- Readers: Everyone
Human-Instruction-Free LLM Self-Alignment with Limited Samples
Hongyi Guo, Yuanshun Yao, Wei Shen, Jiaheng Wei, Xiaoying Zhang, Zhaoran Wang, Yang Liu
- Submitted to ICLR 2025
- Readers: Everyone
Robust RLHF with Noisy Rewards
Wei Shen, Xiaoying Zhang, Yuanshun Yao, Rui Zheng, Hongyi Guo, Yang Liu
- ICLR 2025 Conference Withdrawn Submission
- Readers: Everyone
Boosting Deductive Reasoning with Step Signals In RLHF
Jialian Li, YipinZhang, Wei Shen, Yuzi Yan, Jian Xie, Dong Yan
- Submitted to ICLR 2025
- Readers: Everyone
Uncertainty-aware Reward Model: Teaching Reward Models to Know What is Unknown
Xingzhou Lou, Dong Yan, Wei Shen, Yuzi Yan, Jian Xie, Junge Zhang
- ICLR 2025 Conference Withdrawn Submission
- Readers: Everyone
Mitigating Reward Overoptimization via Lightweight Uncertainty Estimation
Xiaoying Zhang, Jean-Francois Ton, Wei Shen, Hongning Wang, Yang Liu
- NeurIPS 2024 poster
- Readers: Everyone
Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning
Zhiheng Xi, Wenxiang Chen, Boyang Hong, Senjie Jin, Rui Zheng, Wei He, Yiwen Ding, Shichun Liu, Xin Guo, Junzhe Wang, Honglin Guo, Wei Shen, Xiaoran Fan, Yuhao Zhou, Shihan Dou, Xiao Wang, Xinbo Zhang, peng sun, Tao Gui, Qi Zhang et al. (1 additional authors not shown)
- ICML 2024 Poster
- Readers: Everyone
Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback
Songyang Gao, Qiming Ge, Wei Shen, Shihan Dou, Junjie Ye, Xiao Wang, Rui Zheng, Yicheng Zou, Zhi Chen, Hang Yan, Qi Zhang, Dahua Lin
- ICML 2024 Poster
- Readers: Everyone

View all 13 publications

Co-Authors

View all 73 co-authors