岗位信息岗位职责1.负责LLM对齐链路整体优化,包括标注数据的生产与分析、奖励模型优化、RL策略迭代及效果评估等,持续提升算法的效率与效果2.强化学习技术前瞻探索,包括但不限于Bandit相关算法、离线强化学习、环境模型学习等岗位要求1.计算机科学、自动化、数学、统计学或相关领域专业的硕士或博士2.扎实的算法基础,熟悉强化学习、自然语言处理和机器学习技术,对技术开发及应用有热情3.能够基于实际业务问题优化算法,有RL算法优化和项目实践经验优先4.熟悉Python、Java等至少一种编程语言,具有良好的编程能力和扎实的数学理论基础5.熟悉PyTorch、Megatron等框架并有实际项目经验6.关注行业前沿进展,对技术开发及应用有热情,有自己的想法并乐于挑战自我7.良好的沟通能力和跨团队协作能力,能够梳理繁杂的工作并建立有效机制,推动上下游配合完成目标8.在ICML、NeurIPS、IJCAI、AAAI、ICLR、KDD、SIGIR等***会议或期刊上发表过论文者优先9.获得过国际或国内***赛事奖项者优先10.有大语言模型算法优化和大规模分布式RL框架优化经验者优先11.在国际竞赛中取得过优异成绩12.在***学术期刊中以一作、二作身份发表过论文13.在开源社区中有突出的影响力和成就14.实践高手15.有过重大项目实现的全过程16.top企业/项目实践经验