岗位内容:● 负责公司SaaS平台和私网平台日常运维管理;● 负责公司服务器的日常运维部署和基础软件的安装工作。编写常用 Shell、python 脚本, Ansible 与 Crontab 结合的一些任务的自动化● 响应生产系统突发情况,及时跟进解决异常,完成异常复盘并推动改进方案落地● 负责搭建产品的上线环境与 jenkins,gitlab 上线更版本工作.负责生产环境的监控.应用,业务的参数监控管理,通过监测工具等方式确保7x24小时线上业务的稳定运行.以及微服务集群的维护● 负责数据库 mysql 的备份,优化,用户权限管理工作,数据库的优化以及配置 keeplived 高可用● 日常 prometheus+grafana+ansible 自动化监控配置及生产环境所以的页面,接口等健康监控,监控脚本编写● 负责持续优化运维解决方案,包括但不限于生产系统容灾切换演练、应急预案管理、弹性扩缩容、精细化监控、系统生命周期管理;●负责应用系统的相关文档的编写及知识库建设● 熟悉阿里云的使用和配置● 参与生产系统技术架构方案评审,能够从运维角度主动识别方案风险,给出专业解决方案● 研发基础服务组件,解决共性需求,减少重复运维问题● 参与研发自动化运维平台,提高运维、开发协作效率,规范操作流程● 出差到客户现场实施运维部署系统● *加分项:熟悉显卡服务的部署和国产操作系统的安装部署优先岗位要求:1. 熟悉Linux操作系统以及网络原理、Linux下常用服务的部署及优化,了解常用运维开源工具2.熟练使用Docker、K8S、ELK、Ansible等开源栈运维工具,并且有大型k8s集群维护经验3.熟悉各种开源软件部署、运维和优化化。(Nginx、MySQL、Redis、Postgresql、Kafka、ElasticSearch、ZooKeeper、Influxdb、Timescaledb)4.熟悉 CI,CD,CM的相关工具,例如Jenkins、Gerrit、JIRA等,对CI/CD、GitOps等DevOps实践和生态有一定的认知和实践5.有较强的学习能力,及问题解决能力6. 能够独立完成工作,具有较强的综合分析问题及现场解决问题的能力7. 根据项目需求能够听从安排去客户现场部署、调试、优化应用集群。8. 吃苦耐劳,服从公司和上级工作安排,及时响应领导和客户问题和需求