岗位职责:1、负责处理和清洗大规模、多来源的数据集,保证数据的完整性和可靠性,消除数据中的偏见、冗余、毒性内容2、提升清洗数据和生成数据的质量,通过多样算法和模型提升和优化数据质量3、设计、构建和维护大模型相关的大数据处理系统和数据管道4、负责数据处理中涉及到的NLP模型的设计与优化,提升数据处理的效率和准确性5、大模型相关的数据质量把控,包括但不限于数据一致性检查、数据完整性验证等;6、对大规模数据集进行处理和分析,确保数据的准确性和可靠性;7、理解数据需求,与业务紧密配合,开发建立自动化数据质量评估流程及系统8、及时发现和定位数据问题,跟踪问题的解决进度,确保数据问题得到有效解决9、编写详实的数据评估报告,提供训练数据分析和改进建议,为团队提供有效的反馈支持;开展数据治理,持续提升数据质量,挖掘数据价值。任职要求:专业:计算机、人工智能、软件工程、数学等相关专业素质:沟通能力强,表达清晰,有责任心经验:NLP、机器学习或大模型相关背景和经历