岗位职责:1. 负责大规模深度学习模型(如GPT、LLAMA、BERT等)算法的研究与开发,涉及模型的设计、优化、推理及应用。2. 基于最新的深度学习框架(如TensorFlow、PyTorch)进行大模型架构设计与开发,优化大规模数据集的训练过程和推理效率。3. 使用知识蒸馏、量化、剪枝等技术,提升大模型在内存、计算和推理中的效率,解决大模型在生产环境中的瓶颈问题。4. 研究并实现前沿的Transformer架构、Attention机制等,提高大模型在处理多模态、自然语言处理等任务中的表现。5. 推动大模型的落地应用,开发并优化多场景、跨领域的大模型应用,提升公司的产品和业务价值。6. 撰写详细技术文档,规范算法开发流程,并为团队成员提供技术支持与培训。任职要求:1. 计算机科学、电子信息、人工智能、数学等相关专业硕士及以上学历,精通至少一种深度学习框架,如PyTorch、TensorFlow,具有3年以上NLP、AIGC相关工作经验。2. 精通Attention、Transformer及其变型架构(如BERT、GPT、T5等),具备在实际项目中应用这些架构的经验。3. 熟练使用LangChain、Dify、FastGPT等框架,能够结合预训练模型、Rag、Agent等方法,解决实际项目中的技术问题。4. 熟悉业界领先的大模型系列(如GPT、LLaMA、GLM、Bloom等),能够有效应用这些模型进行任务处理,并对DeepSpeed、Megatron等技术框架有一定了解和使用经验。5. 具备在分布式环境下进行大规模模型训练和推理的经验,能够在多节点、高性能计算平台(如GPU、TPU等)上优化大模型的训练与推理效率。6. 精通数据预处理与增强技术,能有效处理大规模数据集中的噪声、数据偏差和不均衡问题,确保模型训练数据的高质量。7. 具备较强的数学和统计学基础,熟悉数值优化方法、梯度下降等技术,能够高效解决模型中的训练与推理瓶颈。