分享
通义千问-Qwen技术报告细节分享
输入“/”快速插入内容
通义千问-Qwen技术报告细节分享
2024年8月12日修改
刘聪NLP|
阅读原文
转载请联系原作者取得授权
写在前面
大家好,我是刘聪NLP。
阿里在很早前就开源了Qwen-7B模型,但不知道为什么又下架了。就在昨天阿里又开源了Qwen-14B模型(原来的7B模型也放出来了),同时还放出了Qwen的技术报告内容。今天特此来给大家分享一下。
PS:现在国内的开源大模型也开始陆陆续续的放出了技术报告,都给我卷起来!!!
代码块
Plain Text
Report: https://qianwen-res.oss-cn-beijing.aliyuncs.com/QWEN_TECHNICAL_REPORT.pdf
GitHub: https://github.com/QwenLM/Qwen
技术报告中介绍了整个Qwen系列的模型,有Base模型、RM模型、Chat模型、Code模型、Math模型、多模态模型。由于Code模型和Math模型暂时没有开源,多模态Qwen-VL模型本身有自己的论文,本次分享对三种模型就不做介绍了,感兴趣的同学自行查阅。
先说结论,Qwen-14B模型效果从12个数据集(涉及语言理解、知识、推理等多个领域)上进行均优于现有同等级的13B,但仍落后于GPT-3.5和GPT-4。
预训练
数据
预训练数据共3TB,主要涉及公共网络文档、百科全书、书籍、代码等,数据涉及多语言,但以中文和英文为主。为了保证数据质量,制定了一套全面的预处理程序。
•
Web数据需要从HTML中提取文本内容,并采用语言识别工具确定语种;
•
通过重复数据删除技术增加数据的多样性,包括规范化后的精确匹配重复数据删除方法和使用MinHash和LSH算法的模糊重复数据删除方法;
•
结合规则和机器学习的方法过滤低质量数据,即通过多个模型对内容进行评分,包括语言模型、文本质量评分模型以及用于识别潜在冒犯性模型;
•
从各种来源数据中手动采样并进行审查,以确保其质量;
•
有选择地对来自某些来源的数据进行采样,以确保模型在各种高质量内容上进行训练。
Tokenizer
词表大小影响者模型的训练效率和下游任务效果,Qwen采用开源快速BPE分词器-tiktoken,以cl100k为基础词库,增加了常用的中文字词以及其他语言的词汇,并把数字字符串拆成单个数字,最终词表大小为152K。
从不同语言上对比不同模型的压缩率,如下图所示,Qwen在绝大多少语言上都优于LLaMA-7B、Baichuan-7B、ChatGLM-6B、InternLM-7B模型。