通义千问-Qwen技术报告细节分享

2024年8月12日修改

刘聪NLP｜阅读原文

转载请联系原作者取得授权

写在前面

大家好，我是刘聪NLP。

阿里在很早前就开源了Qwen-7B模型，但不知道为什么又下架了。就在昨天阿里又开源了Qwen-14B模型（原来的7B模型也放出来了），同时还放出了Qwen的技术报告内容。今天特此来给大家分享一下。​

PS：现在国内的开源大模型也开始陆陆续续的放出了技术报告，都给我卷起来！！！​

代码块

Report: https://qianwen-res.oss-cn-beijing.aliyuncs.com/QWEN_TECHNICAL_REPORT.pdf​
GitHub: https://github.com/QwenLM/Qwen​

技术报告中介绍了整个Qwen系列的模型，有Base模型、RM模型、Chat模型、Code模型、Math模型、多模态模型。由于Code模型和Math模型暂时没有开源，多模态Qwen-VL模型本身有自己的论文，本次分享对三种模型就不做介绍了，感兴趣的同学自行查阅。​

先说结论，Qwen-14B模型效果从12个数据集（涉及语言理解、知识、推理等多个领域）上进行均优于现有同等级的13B，但仍落后于GPT-3.5和GPT-4。​

预训练

数据

预训练数据共3TB，主要涉及公共网络文档、百科全书、书籍、代码等，数据涉及多语言，但以中文和英文为主。为了保证数据质量，制定了一套全面的预处理程序。​

•
Web数据需要从HTML中提取文本内容，并采用语言识别工具确定语种；​

•
通过重复数据删除技术增加数据的多样性，包括规范化后的精确匹配重复数据删除方法和使用MinHash和LSH算法的模糊重复数据删除方法；​

•
结合规则和机器学习的方法过滤低质量数据，即通过多个模型对内容进行评分，包括语言模型、文本质量评分模型以及用于识别潜在冒犯性模型；​

•
从各种来源数据中手动采样并进行审查，以确保其质量；​

•
有选择地对来自某些来源的数据进行采样，以确保模型在各种高质量内容上进行训练。​

Tokenizer

词表大小影响者模型的训练效率和下游任务效果，Qwen采用开源快速BPE分词器-tiktoken，以cl100k为基础词库，增加了常用的中文字词以及其他语言的词汇，并把数字字符串拆成单个数字，最终词表大小为152K。​

从不同语言上对比不同模型的压缩率，如下图所示，Qwen在绝大多少语言上都优于LLaMA-7B、Baichuan-7B、ChatGLM-6B、InternLM-7B模型。​

通义千问-Qwen技术报告细节分享​