职位描述:1、策略规划:结合大模型技术与业务需求,制定涵盖部署、性能优化、故障处理、安全防护的运维策略,与研发、产品团队协作,保障模型全流程顺畅;2、部署监控:在生产环境部署大模型,运用自动化工具确保高效准确;搭建实时监控系统,全方位监控运行状态,及时预警异常;3、性能优化:依据监控数据和业务反馈,联动产品研发优化模型参数、硬件配置与网络架构,定期评估性能,形成报告并持续提升性能;4、故障处理:建立故障处理机制与应急预案,快速排查和解决故障,分析故障原因,完善处理机制,避免故障重演;5、安全合规:制定并执行安全策略,保障模型与数据安全,关注法规政策,确保运维工作合规。职位要求:1、计算机科学、软件工程等相关专业本科及以上学历;有2年以上运维经验,大模型运维经验者优先,熟悉分布式系统运维;2、精通自动化部署工具,掌握数据监控技术,能分析排查问题,了解大模型原理与深度学习框架,了解大模型的运行机制和问题的排查,可进行参数优化,掌握一定安全技术与防护策略;3、沟通协作能力良好,问题解决与应急处理能力强;4、学习能力和自我驱动力强,工作严谨负责,注重细节。