‪Yuhao Zhou (周钰皓)‬ - ‪Google Scholar‬

Get my own profile

Cited by

	All	Since 2019
Citations	400	400
h-index	6	6
i10-index	6	6

0

280

140

70

210

2022202320246 115 278

Co-authors

Huang Xuanjing (黄萱菁)Professor of Computer Science, Fudan UniversityVerified email at fudan.edu.cn
Qi Zhang (张奇)Professor of Computer Science, Fudan UniversityVerified email at fudan.edu.cn
Tao Gui （桂韬）复旦大学Verified email at fudan.edu.cn
Shihan DouFudan UniversityVerified email at m.fudan.edu.cn
Zhiheng XiFudan UniversityVerified email at m.fudan.edu.cn
Rui ZhengFudan UniversityVerified email at fudan.edu.cn

Yuhao Zhou (周钰皓)

Yuhao Zhou (周钰皓)

Fudan University

Verified email at m.fudan.edu.cn

Natural Language Processing


Title Sort by citations Sort by year Sort by title	Cited by Cited by	Year
The Rise and Potential of Large Language Model Based Agents: A Survey Z Xi, W Chen, X Guo, W He, Y Ding, B Hong, M Zhang, J Wang, S Jin, ... arXiv preprint arXiv:2309.07864, 2023	280	2023
Secrets of RLHF in Large Language Models Part I: PPO R Zheng, S Dou, S Gao, Y Hua, W Shen, B Wang, Y Liu, S Jin, Q Liu, ... arXiv preprint arXiv:2307.04964, 2023	51*	2023
Robust Lottery Tickets for Pre-trained Language Models R Zheng, R Bao, Y Zhou, D Liang, S Wang, W Wu, T Gui, Q Zhang, ... ACL 2022, 2211–2224, 2022	19	2022
Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement Z Xi, S Jin, Y Zhou, R Zheng, S Gao, T Gui, Q Zhang, X Huang EMNLP 2023 (findings), 11383–11406, 2023	15	2023
Secrets of RLHF in Large Language Models Part II: Reward Modeling B Wang, R Zheng, L Chen, Y Liu, S Dou, C Huang, W Shen, S Jin, E Zhou, ... arXiv preprint arXiv:2401.06080, 2024	14*	2024
LoRAMoE: Revolutionizing Mixture of Experts for Maintaining World Knowledge in Language Model Alignment S Dou, E Zhou, Y Liu, S Gao, J Zhao, W Shen, Y Zhou, Z Xi, X Wang, ... arXiv preprint arXiv:2312.09979, 2023	13*	2023
Improving Generalization of Alignment with Human Preferences through Group Invariant Learning R Zheng, W Shen, Y Hua, W Lai, S Dou, Y Zhou, Z Xi, X Wang, H Huang, ... ICLR 2024, 2024	2	2024
Delve into PPO: Implementation Matters for Stable RLHF R Zheng, S Dou, S Gao, Y Hua, W Shen, B Wang, Y Liu, S Jin, Y Zhou, ... NeurIPS 2023 Workshop on Instruction Tuning and Instruction Following, 2023	2	2023
Detecting Adversarial Samples through Sharpness of Loss Landscape R Zheng, S Dou, Y Zhou, Q Liu, T Gui, Q Zhang, Z Wei, XJ Huang, ... ACL 2023 (findings), 11282-11298, 2023	2	2023
Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning Z Xi, W Chen, B Hong, S Jin, R Zheng, W He, Y Ding, S Liu, X Guo, ... arXiv preprint arXiv:2402.05808, 2024	1	2024
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback S Dou, Y Liu, H Jia, L Xiong, E Zhou, J Shan, C Huang, W Shen, X Fan, ... arXiv preprint arXiv:2402.01391, 2024	1	2024
ORTicket: Let One Robust BERT Ticket Transfer across Different Tasks Y Zhou, W Chen, R Zheng, Z Xi, T Gui, Q Zhang, XJ Huang COLING 2024, 12527-12538, 2024		2024
Subspace Defense: Discarding Adversarial Perturbations by Learning a Subspace for Clean Signals R Zheng, Y Zhou, Z Xi, T Gui, Q Zhang, X Huang COLING 2024, 15410–15421, 2024		2024
CC2Vec: Combining Typed Tokens with Contrastive Learning for Effective Code Clone Detection S Dou, Y Wu, H Jia, Y Zhou, Y Liu, Y Liu arXiv preprint arXiv:2405.00428, 2024		2024
MouSi: Poly-Visual-Expert Vision-Language Models X Fan, T Ji, C Jiang, S Li, S Jin, S Song, J Wang, B Hong, L Chen, ... arXiv preprint arXiv:2401.17221, 2024		2024

The system can't perform the operation now. Try again later.

Articles 1–15