Update README.md
Browse files
README.md
CHANGED
|
@@ -18,7 +18,7 @@ widget:
|
|
| 18 |
在1300w+问答和对话数据上做有监督预训练
|
| 19 |
|
| 20 |
## 训练硬件和时间
|
| 21 |
-
4*Titan RTX,耗时
|
| 22 |
|
| 23 |
## 更新进度
|
| 24 |
model v1 :2023.3.12
|
|
@@ -43,6 +43,8 @@ model v4 :2023.3.30(感谢Belle 1m开源的指示学习数据)
|
|
| 43 |
|
| 44 |
6、发现top k的推理模式比top p的推理效果好一些,所以推理改成了top k。
|
| 45 |
|
|
|
|
|
|
|
| 46 |
|
| 47 |
## 模型推理
|
| 48 |
|
|
|
|
| 18 |
在1300w+问答和对话数据上做有监督预训练
|
| 19 |
|
| 20 |
## 训练硬件和时间
|
| 21 |
+
4*Titan RTX,耗时20天
|
| 22 |
|
| 23 |
## 更新进度
|
| 24 |
model v1 :2023.3.12
|
|
|
|
| 43 |
|
| 44 |
6、发现top k的推理模式比top p的推理效果好一些,所以推理改成了top k。
|
| 45 |
|
| 46 |
+
7、目前主要是单轮对话,多轮对话虽然也有训练,但是训练窗口太小效果不好,所以这里屏蔽了多轮对话,以后如果优化之后会写出多轮示例。
|
| 47 |
+
|
| 48 |
|
| 49 |
## 模型推理
|
| 50 |
|