岗位职责:1. 优化大模型训练和推理性能,降低大模型推理时延,提升吞吐,包括但不限于模型剪枝、模型量化、模型蒸馏、模型压缩等;2. 适应并充分利用硬件资源,控制模型部署成本; 3. 对模型训练和部署时出现的精度与性能问题进行分析和调优,识别和解决瓶颈问题,提高模型的训练和推理速度; 4. 推动深度学习优化算法的研发和产业落地。岗位需求:1. 本科学历以上,计算机/软件/人工智能相关专业加分; 2. 扎实的C++代码能力,具备深度学习应用加速和优化的经验,能够根据不同场景和硬件平台进行针对性的优化;3. 熟练掌握TensorFlow、PyTorch等至少一种深度学习框架;4. 熟悉常见的分布式机器学习框架,如Megatron、DeepSpeed、HuggingFace Transformers等;5. 具备良好的沟通和团队合作能力,能够与跨团队密切合作,解决问题并实现共同目标。加分项: 1. 熟悉CUDA Kernel开发,有底层算法性能调试及加速经验;2. 熟悉LLM主流推理引擎,如FasterTransformer/vLLM;3. 熟悉常见的推理优化方法,如FlashAtention、PageAttention、Continuous Batching、Speculative Decoding等;4. 熟悉TensorRT/Triton/Cutlass经验者优先; 5. 有AIGC模型推理和训练加速落地经验者优先; 6. 熟悉分布式推理加速框架,有超大模型分布式加速经验优先。