岗位职责1.负责大型语言模型(LLM)的研发、训练和优化,包括模型架构设计、预训练、微调和推理加速。2.研究和实现高效的训练技术,如分布式训练、混合精度训练和模型并行化。3.探索大模型在自然语言处理(NLP)、计算机视觉(CV)和多模态任务中的前沿算法,提升模型性能和泛化能力。4.设计和实现针对特定场景的定制化模型,如对话系统、文本生成、知识问答和图像生成。5.负责大模型的工程化落地,包括模型压缩、量化、蒸馏和推理优化,确保模型在实际应用中的高效性和稳定性。6.设计与开发高可用的模型服务框架,支持大规模并发和低延迟推理。7.构建和管理高质量的训练数据集,设计数据增强和清洗策略,提升模型效果任职要求1.计算机科学、人工智能、数学、统计学或相关领域的本科及以上学历。2.精通深度学习、自然语言处理、计算机视觉或多模态学习等领域,具备深厚的技术积累。3.熟悉主流大模型架构(如GPT、BERT、Transformer、Diffusion Models等),并具备实际开发经验。4.熟练掌握Python、PyTorch、TensorFlow等编程语言和框架,具备良好的工程实现能力。5.熟悉分布式训练、模型压缩、量化、蒸馏等优化技术,具备大模型工程化落地经验。6.至少5年相关领域工作经验,主导或参与过大模型相关项目的研发和落地。7.有实际的大规模训练和部署经验,熟悉高性能计算算力平台优先