职位描述:1、负责Agent系统的稳定性建设,设计高可用架构与容灾降级方案,保障系统在极端场景下稳定运行;2、优化系统性能,解决分布式场景下的任务调度、数据一致性、故障自愈等挑战,提升服务SLA;3、建立系统监控、告警及应急响应机制,负责重大故障的排查与恢复;4、持续优化系统架构,通过代码重构、性能调优等手段提升系统扩展性与可维护性;5、探索分布式计算、任务调度、流式数据处理等领域的前沿技术(如分布式事务、弹性扩缩容、异构计算等),推动技术成果转化。职位要求:1、本科及以上学历,计算机、通讯等相关专业,5年及以上研发相关工作经验优先;2、扎实的计算机知识,有较强的逻辑能力和学习能力;深入了解Go、Python、Java等至少一门语言;3、熟悉分布式系统设计、微服务系统设计、稳定性治理、常用中间件原理以及实践等优先;4、在系统容灾(多活架构、流量调度)、服务降级(熔断限流)、性能优化(JVM/网络/存储)等领域有成功落地经验;5、有AI/Agent系统开发经验,熟悉LLM、RAG、分布式模型推理等技术栈的优先;6、热爱技术,主动负责,乐于直面挑战;能够保持开放、持续学习,善于发现问题,具备良好的团队合作精神;有良好的代码编程风格。