岗位职责:负责研发实公司的统一人工智能研发平台,施支撑公司智能应用快速实施落地,主要工作职责包括: 1、公司人工智能平台各智能应用模块(数据预处理、数据特征工程、模型训练、模型验证、模型推断)的架构设计,保障AI平台模型研发能力的可靠实施运行;2、规划、设计、实施大规模机器学习、计算机视觉、智能决策、文本语义理解等AI计算基础设施模块;、3、基于应用场景,完成算法落地设计,并完成模型训练环境的通用工具,支撑模型优化和模型量化压缩剪枝/推理加速;4、跟进AI 平台逐步迭代完善、并负责AI平台运维,编写相关技术文档。 任职要求:1、计算机、自动化、分布式/并行计算等专业,具备5年以上的分布式平台研发经验,有2年以上高性能运算(HPC)开发工作经验优先;2、具有GPU集群构建相关经验,熟悉GPU服务器集群安装、部署和运维。熟练掌握Python、Java、C/C++等任意一种编程语言,熟悉Linux内核运行机制;3、熟悉常用容器技术(Docker),能够熟练使用k8s等分布式资源管理和虚拟化平台,并深入理解其工作原理;4、了解经典机器学习算法和深度学习算法基本原理和常用优化技巧,有较强的数据结构和算法性能优化能力;5、熟练掌握至少一种主流深度学习算法框架,包括但不限于Pytorch,TensorFlow,Caffe、Spark MLFlow;6、具备AI AI推理调度引擎、AI分布式训练调度引擎、AI资源虚拟化产品设计(APaaS)研发经验,对这些产品的行业发展趋势有深入的认识和理解。