工作职责:职位描述:- 面向NLP文本生成等任务的LLM推理性能和显存优化 。- 根据公司业务特点设计合适的推理优化方案 。- 基于CUDA或Triton的神经网络定制算子开发和算子融合,支持对新模型结构的优化 。- 推理引擎的开发和持续迭代 。任职要求:- 具备LLM模型的推理加速和优化的一年以上经验,熟悉算子融合、量化、剪枝等常见优化技术- 熟悉Transformer及各种变种,熟悉PyTorch、Deepspeed、JAX等常见深度学习框架及其内部的优化机制- 熟悉常见的LLM推理加速框架和方法,如FasterTransformer、FlashAttention等并能够根据业务需求进行定制优化