岗位职责1.多模态模型开发与优化80负责基于开源多模态大模型(如CLIP、Qwen-VL、MiniCPM-V等)的微调、部署及业务适配,优化画面理解、语义关联、上下文推理等核心能力,基于多模态模型的意图识别。80调整模型架构(如VLM→VLA),优化视觉-语言对齐模块,提升实时交互场景下的推理效率。80设计多模态Agent框架,实现画面内容解析(如人脸识别、动作检测)、指令响应(如语音交互逻辑)的端到端闭环。2.场景化应用落地80构建陪伴机器人画面理解系统,支持动态环境感知、多模态指令响应。80开发检索增强生成(RAG)模块,结合知识库实现个性化交互(如根据用户历史行为生成反馈)。80优化模型轻量化部署方案(量化、蒸馏等),适配边缘计算设备(如机器人嵌入式平台)。3.前沿技术研究与工程实现80探索多模态大模型的长上下文训练、低资源微调(LoRA/P-tuning)等技术,提升复杂场景的鲁棒性。80研究多模态模型的可解释性及安全机制,确保交互行为的合理性与可控性。任职要求1.基础要求80硕士及以上学历,计算机科学、人工智能、电子工程等相关专业(博士优先)。803年以上深度学习研发经验,1年以上大模型或多模态项目经验(校招可放宽至论文/竞赛成果)。2.技术能力80精通多模态模型架构(如Transformer-based VLM、VLA),熟悉模型修改方法(如适配器添加、连接方式调整)。80掌握大模型微调技术(RLHF、LoRA、P-tuning),具备开源模型(如Qwen-VL、LLaVA)实战经验。80熟练使用PyTorch/TensorFlow框架,熟悉模型压缩工具链(ONNX、TensorRT)及部署流程。80熟悉多模态数据构建(文本-图像-时序数据对齐)及评估指标(BLEU、ROUGE、VBench)。3.加分项80在CVPR/ICCV/NeurIPS等顶会发表多模态相关论文。80有机器人、智能硬件等实时交互场景开发经验。80熟悉强化学习框架(如RLlib)、边缘计算优化(如Jetson平台)。应用场景示例80画面理解:实时解析摄像头画面,识别家庭成员身份、动作意图。80动态响应:结合语音指令(如“帮我找钥匙”)与画面内容(识别钥匙位置),规划移动路径并执行。80情感交互:通过多模态输入(语言内容+面部表情)生成个性化反馈(如安慰或庆祝)。