岗位职责:1.设计RAG系统功能/性能测试用例,覆盖检索准确率、响应延迟、容错能力等维度;2.开发自动化测试脚本,验证AI问答结果与知识库原文的语义一致性;3.定义评估指标(如余弦相似度≥0.8),量化模型生成质量及逻辑合理性;4.构建对抗测试样本库(干扰词/长尾问题),评估系统鲁棒性及抗攻击能力;5.搭建持续监控体系,跟踪生产环境异常问答率并输出优化建议;6.展示检索路径置信度及错误根因分析;7.完成其他工作任务。岗位要求:1.本科及以上学历,软件工程/计算机等相关专业优先;2.1年以上AI测试经验,参与过本地化模型或RAG项目(应届生可放宽);3.掌握Python/Shell脚本编写,能使用Postman/JMeter进行接口测试;4.熟悉主流AI测试框架(如AI-TestOps),了解XRAG等RAG评估工具;5.了解本地化模型部署流程(如Ollama部署DeepSeek R1)和RAG核心流程;6.掌握基础模型评估指标(如余弦相似度、F1值),能复现算法团队的测评结果;7.熟悉数据清洗、测试用例生成等基础操作,能独立完成测试任务;8.具备问题排查能力,能通过日志分析定位模型异常根因;9.沟通能力良好,能将技术问题转化为非技术人员可理解的报告。