Upload README_CN.md with huggingface_hub
Browse files- README_CN.md +13 -11
README_CN.md
CHANGED
|
@@ -96,17 +96,19 @@ tags:
|
|
| 96 |
|
| 97 |
## Chat模型
|
| 98 |
|
| 99 |
-
|
| 100 |
-
|
| 101 |
-
|
| 102 |
-
|
| 103 |
-
|
|
|
|
|
|
|
| 104 |
|
| 105 |
-
|
| 106 |
-
|
| 107 |
-
|
| 108 |
-
|
| 109 |
-
|
| 110 |
|
| 111 |
我们在多种长度和多种任务的评测Benchmark上验证不同版本模型的性能。
|
| 112 |
|
|
@@ -546,4 +548,4 @@ bash finetune/ds_finetune.sh
|
|
| 546 |
|
| 547 |
本仓库源码遵循开源许可证Apache 2.0。
|
| 548 |
|
| 549 |
-
360智脑开源模型支持商用,若需将本模型及衍生模型用于商业用途,请通过邮箱([email protected])联系进行申请, 具体许可协议请见[《360智脑开源模型许可证》](https://github.com/Qihoo360/360zhinao/blob/main/360%E6%99%BA%E8%84%91%E5%BC%80%E6%BA%90%E6%A8%A1%E5%9E%8B%E8%AE%B8%E5%8F%AF%E8%AF%81.txt)。
|
|
|
|
| 96 |
|
| 97 |
## Chat模型
|
| 98 |
|
| 99 |
+
4K和32K的Chat模型使用相同的4K SFT数据训练。
|
| 100 |
+
|
| 101 |
+
我们采用了两阶段的方式训练长文本模型.
|
| 102 |
+
|
| 103 |
+
**第一阶段**:我们增大RoPE base,将上下文长度扩展至32K训练:
|
| 104 |
+
- 首先,对基础模型进行了约5B tokens的32K窗口继续预训练。
|
| 105 |
+
- 接着,SFT阶段使用了多种形式和来源的长文本数据,包括高质量的人工标注32K长文本数据。
|
| 106 |
|
| 107 |
+
**第二阶段**:我们将上下文长度扩展至360K进行训练,使用数据如下:
|
| 108 |
+
- 少量高质量人工标注数据。
|
| 109 |
+
- 由于带有标注的超长文本数据的稀缺性,我们构造了多种形式的合成数据:
|
| 110 |
+
- 多文档问答:类似[Ziya-Reader](https://arxiv.org/abs/2311.09198),我们基于360自有数据构造了多种类型的多文档问答数据,同时将问答改为多轮,显著提升长文本的训练效率。
|
| 111 |
+
- 单文档问答:类似[LLama2 Long](https://arxiv.org/abs/2309.16039),我们构造了基于超长文本各个片段的多轮问答数据。
|
| 112 |
|
| 113 |
我们在多种长度和多种任务的评测Benchmark上验证不同版本模型的性能。
|
| 114 |
|
|
|
|
| 548 |
|
| 549 |
本仓库源码遵循开源许可证Apache 2.0。
|
| 550 |
|
| 551 |
+
360智脑开源模型支持商用,若需将本模型及衍生模型用于商业用途,请通过邮箱([email protected])联系进行申请, 具体许可协议请见[《360智脑开源模型许可证》](https://github.com/Qihoo360/360zhinao/blob/main/360%E6%99%BA%E8%84%91%E5%BC%80%E6%BA%90%E6%A8%A1%E5%9E%8B%E8%AE%B8%E5%8F%AF%E8%AF%81.txt)。
|