岗位信息岗位职责1.深入研究并探索多模态大语言模型文本、声音、视频、图片等尖端技术。跟踪多模态AI领域的***动态,优化和改进现有技术和系统2.研究多模态模型的训练范式,探索更高效的结合范式,并以此为基础发表高价值论文3.探索多模态数据利用方式,对图文对、 图文交错、音频、视频等数据有更高效的使用方式岗位要求1.熟悉Python, Linux, PyTorch等深度学习必备知识,精通深度学习、机器学习、计算机视觉、自然语言处理的基本知识2.有在ICLR、ICCV、CVPR、ECCV、NeurIPS、ICML、TPAMI、ACL、EMNLP、ICASSP等国际***会议和期刊上发表成果的优先3.熟悉预训练算法的历史,熟悉对比学习,MAE等大语言模型之前的预训练算法,有Visual-Language Model和大规模语言模型LLMs方面的经验者优先4.熟悉Flamingo, Llava, Fuyu,Valle等多模态大模型的基本原理与优劣,熟悉MMMU, MathVista等多模态评测方式5.具备优秀的团队合作意识和沟通能力,出色的自我驱动和抗压能力,强烈的求知欲和技术热情,优秀的数据分析和逻辑思维能力6.对多模态模型如何提升当前语言模型能力有独到的见解