岗位说明:1. 负责大模型(如GPT、LLaMA、Deepseek等)的量化技术研究、开发与优化。2. 设计并实现高效的量化算法,降低模型存储占用和计算开销,提升推理速度,同时尽可能保持模型精度。3. 探索大模型稀疏化、低秩分解等模型压缩技术与量化的结合方案。4. 跟踪学术界和工业界前沿量化技术(如FP8、IN8、INT4、混合精度量化等),推动技术落地。5. 编写量化工具链,支持主流框架(PyTorch、ONNX等)的量化部署。6. 针对芯片特性(如NPU、CUDA Core)进行量化方案定制化优化,提升硬件利用率。7. 技术调研和编写文档,性能评估与调优,以及跨平台适配。任职资格:1.计算机科学、电子工程、数学或相关专业,硕士及以上学历。2. 扎实的编程能力,精通Python,熟悉C++/CUDA等高性能计算语言。3. 熟练大模型推理框架(Deepseed、vLLM、Llama.cpp等)以及模型量化工具链(如ONNX、TensorRT-LLM、AIMET、LLMC等)。4. 深入理解量化技术原理(如PTQ、QAT、混合精度量化),熟悉主流量化算法(如GPTQ、AWQ、SmoothQuant)与其他模型压缩技术(剪枝、稀疏化)的协同优化。5. 有Transformer类大模型量化及部署经验,熟悉LLM架构及推理流程优化。6. 有FPGA/ASIC等硬件加速经验,或参与过AI编译器(TVM、MLIR)开发。7 良好的沟通能力,能与算法、硬件团队高效协作。