岗位职责:1、负责收集、清洗、标注和整合多来源、多模态的数据,为数据分析、机器学习模型训练和自然语言处理任务提供高质量、格式化的输入数据;2、负责构建和维护大规模的语料库,用于自然语言处理任务;3、负责根据不同的AI模型需求,准备和划分训练集、验证集和测试集,确保数据分布的一致性和代表性;4、负责设计和实现高效的服务器端逻辑、RESTful API,确保应用程序的功能性和性能。任职要求:1、计算机、软件等相关专业,本科及以上学历,通过英语四级;2、精通至少一种编程语言,如Java、Python、C++,用于数据处理和模型开发,将数据转换成可分析或训练的格式,包括数值归一化、文本向量化、图像预处理等;3、熟悉RDBMS和NoSQL数据库,理解数据库优化、事务管理、索引、数据模型设计等概念;4、了解Hadoop、Hive、Flink、MPP、Kafka等大数据技术;5、了解深度学习框架,如TensorFlow、PyTorch、Keras;6、了解数据可视化工具(如FineReport、Tableau等)。