岗位职责: 1.大模型开发与优化:负责大规模预训练模型的算法设计、训练、调优及落地应用。优化模型架构及训练策略,提升模型性能、效率和泛化能力。2. 业务场景适配:针对具体业务需求,完成模型的微调、领域适配及效果验证。构建基于大模型的端到端解决方案,推动模型在业务场景的规模化应用。 3. 技术研究与创新:跟踪学术界与工业界前沿技术,推动技术落地。参与开源社区贡献,或发表顶会论文。 4. 工程化与部署 :设计分布式训练框架,提升训练效率,实现模型的高效部署。5. 跨团队协作:与数据、产品、工程团队合作,推动技术方案从原型到落地的全流程闭环。 任职要求: 1. 计算机科学、人工智能、数学等相关专业,硕士及以上学历。 2. 熟练掌握Python/C++,熟悉PyTorch/TensorFlow/JAX等框架。深入理解深度学习原理,熟悉Transformer、BERT、GPT等大模型架构。具备分布式训练经验,熟悉显存优化技术。熟悉NLP/CV领域任务(如文本生成、图像理解),或具备多模态模型开发经验。 3. 有较强技术研究能力、编程能力、创新能力,根据业务需求推进AI应用落地。