职位描述:1、负责对基于大语言模型构建的通用垂类应用进行效果和质量评估,通过与产品研发团队的紧密合作,制定评估标准和体系,准确分析评估效果,为应用的优化和改进提供支持,以提升应用的性能、用户体验和市场竞争力;2、应用效果与质量评估:负责评估基于大语言模型构建的通用垂类应用的效果和质量,包括但不限于语言理解准确性、生成内容的合理性、逻辑连贯性、知识准确性等方面;参与设计测试用例,涵盖不同场景、用户需求和输入条件,以确保应用在各种情况下的稳定性和可靠性,参与收集和分析用户反馈数据,结合实际使用情况,对应用的性能和用户体验进行综合评估;3、评估标准与体系建设:理解业务需求和产品目标,与产品研发团队密切沟通和协作,负责制定详细、明确的评估标准和指标体系,理解评估数据的收集、整理和分析流程,确保评估数据的完整性和可靠性,为评估体系的持续改进提供数据支持;4、评估效果分析与报告:撰写评估报告,清晰阐述评估方法、过程、结果和结论,为产品研发团队提供决策依据和改进方向。职位要求:1、本科及以上学历,统计、计算机、数学等理科专业优先;2、熟悉NLP、CV相关的算法和技术优先,熟悉大模型训练、SFT、RL算法者优先,有一定的Python基础,可通过脚本处理进行数据处理优先;3、熟练使用市面上大模型相关应用,有较深AI理解,有一定的Prompt Engineering使用经验优先;4、有大模型标注评测、用户体验、文图分析相关经验优先;5、承担过独立产出任务并达成结果,过程体现个人能力及责任;6、具备快速学习能力和适应能力。