岗位职责:1、算法研发与优化: 研究和开发基于AI大模型的多模态视觉算法,包括但不限于目标检测、动作姿态估计、图像分割(语义分割、实例分割)、物体检测、三维重建等技术领域。将AI大模型应用于视频分析,实现视频内容的理解、矫正、拼接等高级功能。2、多模态融合技术: 探索和实现视觉、语音、文本等多种模态数据的深度融合算法,增强模型的泛化能力和上下文理解能力。3、身份识别与交互技术: 开发图像识别算法,尤其侧重于人脸识别、手势识别等生物特征识别技术,优化用户体验,增强人机交互的智能化程度。4、模型训练与优化: 使用深度学习框架(如PyTorch、TensorFlow等)训练和优化视觉模型,适应不同场景下的性能需求和准确性要求。5、项目落地与集成: 与产品、工程团队紧密合作,将上述算法成功部署到实际产品或系统中,确保算法的实时性和可靠性。任职资格:1、教育背景与经验:计算机科学、电子工程、模式识别与智能系统、机器学习等相关专业硕士及以上学历,至少3年以上视觉算法研究和开发经验,有AI大模型和多模态项目实战经验者优先。2、专业知识与技能:熟悉计算机视觉和深度学习的核心算法,包括但不限于YOLO、Faster R-CNN、Mask R-CNN、DeepLabv3+等目标检测与分割模型,以及3D视觉建模方法。精通至少一种深度学习框架,拥有大规模数据集上训练复杂模型的经验。熟悉视频处理、图像矫正、拼接等技术,有视频理解及时空序列分析的相关项目经验。3、多模态技术储备:具备音频、文本与视觉数据融合处理的研究背景,熟悉跨模态表示学习和多模态注意力机制等前沿技术。4、代码与文档能力:具备良好的编程习惯,精通Python/C++等编程语言,能够高效实现算法原型并调试优化。能够撰写清晰、详尽的技术文档,包括算法设计文档、测试报告和用户手册等。5、综合素质:具备良好的团队合作精神和沟通能力,能够主动寻求问题解决方案,适应快节奏的工作环境。持续关注领域内的最新研究进展,具有强烈的自我驱动力和技术创新意识。英语读写能力优秀,能够阅读和理解英文技术论文及文档,具有一定的英文交流能力。6、加分项:有参加过国际知名计算机视觉竞赛并取得优异成绩者优先。在***期刊或会议上发表过计算机视觉相关论文者优先。