【工作内容】- 负责设计与实现高效的数据处理管道,确保大规模文本数据集的清洗、转换与加载过程自动化。- 应用自然语言处理(NLP)技术对非结构化文本数据进行预处理,包括分词、去噪、标准化等操作,以支持后续的机器学习或深度学习任务。- 使用Python及常用的数据科学库(如Pandas, NumPy, SciKit-Learn等)进行数据探索性分析,并基于分析结果优化数据处理流程。- 利用第三方NLP工具或API,如BERT、GPT等预训练模型,对数据进行标注和特征提取,提高模型训练的质量和效率。- 协同团队成员完成项目交付,包括但不限于文档编写、代码审查和技术交流。【任职要求】- 计算机科学或相关领域的本科及以上学历,3-5年工作经验。- 熟练掌握Python编程语言及其数据处理生态系统,包括但不限于Pandas, NumPy, SciKit-Learn等。- 具备扎实的自然语言处理理论基础,能够独立完成从数据收集到模型训练全流程中的数据准备与预处理工作。- 熟悉至少一种主流的NLP框架或库,如spaCy、NLTK或Hugging Face Transformers,并能灵活运用第三方模型进行数据标注和特征工程。- 强烈的责任心,良好的团队合作精神以及优秀的沟通协调能力,能够在快节奏环境中高效工作。- 有大数据平台使用经验者优先,如Hadoop、Spark等;熟悉云服务(AWS, Azure, GCP)者亦是加分项。