1. 负责开发公司的大模型推理框架,推动大模型相关算法的落地,打造高吞吐、低延时的推理系统;2. 持续优化大模型推理服务框架,提升服务稳定性和框架易用性;3. 持续优化大模型推理服务性能,提升吞吐,降低延迟并优化整体成本;4. 跟进和探索前沿的大模型推理技术,不断追求业务突破 。岗位职责1. 熟练掌握 C++、Python 语言,熟悉 CPU/GPU 异构系统性能调优,有 AI 工程优化经验的优先;2. 了解主流的 LLM 模型结构,掌握大模型推理相关技术栈,有大模型加速优化经验者优先。熟悉 GPU 高性能计算加速技术了解常用的 CUDA 优化方法;3. 有Tensorrt/FasterTransformer/vLLM/TensorRT-LLM 等深度学习推理框架的实际使用经验;4. 熟悉常见的 LLM 推理优化方案,包括但不限于 Batching、分布式推理、模型压缩(量化、稀疏化)、投机采样等相关技术;5. 具有良好的团队合作精神和沟通能力,能够与跨部门的团队紧密合作,共同推动项目的成功;6. 具备较强的学习能力和责任心,能和团队一起探索新技术,对业务产生价值。