岗位职责:1.参与研究计算平台后端服务的架构设计、需求分析及方案制定;2.主导基于Kubernetes构建高性能、高可用的CPU/GPU集群调度系统,支持研究员高效提交和管理各类仿真任务;3.设计并实现任务执行、资源利用率的监控、告警与日志系统,保障平台的稳定、可靠与易维护性;4.负责集群自动扩缩容、任务流pipeline、GPU资源管理(如虚拟化、调度策略)等关键功能的研发与优化;5.设计并实现支持多节点、多 GPU 的 MPI 并行计算方案,优化 K8s 环境下的 MPI 通信效率,以加速大规模仿真任务。6.负责对Kubernetes集群中的存储(如Ceph/JuiceFS)、网络(CNI)、网关(Ingress)等核心组件进行性能监控、评估、问题排查与调优。任职资格:1.计算机相关专业本科或以上学历,5年及以上后端开发经验,其中至少2-3年深入使用Golang进行开发;2.精通 Golang 语言及其常用框架;深入理解 Kubernetes 架构和核心原理,具备丰富的 K8s 实践经验,熟练使用 Docker;3.熟悉 K8s Operator 开发模式、CRD 设计;熟悉 云原生监控体系(如 Prometheus, Grafana);4.具备良好的服务器端软件架构设计能力和系统问题排查能力;5.有较好的代码品味与工程素养,追求高质量代码,具备良好的文档编写习惯;6.具备优秀的沟通协作能力和团队合作精神。加分项:1.有大规模 K8s 集群管理和调优经验;2.熟悉一种或多种分布式存储系统(如 CephFS, JuiceFS, GlusterFS)并有实践经验;3.熟悉一种或多种 K8s 工作流引擎(如 Argo Workflows, Kubeflow Pipelines)并有实践经验;4.有 GPU on K8s 相关经验(如 NVIDIA Device Plugin, GPU 虚拟化/共享技术如 MIG, vGPU);5.了解 RDMA/InfiniBand 等高性能网络技术及其在 K8s 中的应用;