工作职责:1. 负责AI模型服务器全生命周期管理,包括模型部署、监控、维护及性能优化;2. 基于Kubernetes构建高可用性AI推理服务,实现Docker容器化封装与集群调度;3. 主导异构算力环境下的模型部署,熟练使用NVIDIA GPU及昇腾芯片完成大模型加速;4. 实施AI基础设施建设,包括训练平台搭建、分布式存储配置及网络优化;5. 开发自动化运维工具,通过Python实现模型健康检查、资源弹性伸缩及日志分析;6. 深度参与模型性能调优,运用Profiling工具定位瓶颈并优化计算图;7. 协同产品、算法团队完成工程落地,提升LLM交互效率;8. 构建CI/CD流水线,实现模型版本控制与持续交付。61 基础要求计算机科学、人工智能或相关专业本科及以上学历,1年以上AI运维经验;精通Python编程语言,具备扎实的脚本编写及自动化运维能力;掌握Kubernetes核心原理,能独立完成集群部署与故障排查;熟悉Docker镜像构建规范,了解容器网络与存储机制。61 技术专长具备大模型(如Transformer系列)部署经验,熟悉VLLM/SGlang等推理框架;精通NVIDIA CUDA及昇腾MindSpore运行环境配置;熟悉Prometheus+Grafana监控体系,掌握ELK日志分析方案。61 加分项具备LLMOps实践经验,熟悉VLLM/Llamafactory等服务化框架;熟悉模型压缩技术(量化/剪枝/蒸馏)及性能基准测试方法;了解AutoML工具链及AIGC内容生成全流程;拥有AWS/Azure/阿里云AI证书者优先。工作地点: 南洋本部