增量预训练是指在一个已经预训练过的模型基础上,引入新的数据或特定领域的数据来进一步训练模型,旨在使模型适应新的领域或任务。训练数据不需要标注,模型从中学习通用特征和先验知识。
特点:
- 数据规模大:通常需要大量的新数据,这些数据可能与原始预训练数据分布不同。
- 目标:增强模型的整体能力和适应性,使其能够处理更广泛的任务和数据。
- 应用场景:适用于模型需要覆盖新的领域或任务时。例如,一个通用的语言模型需要适应医疗领域的文本处理。
指令微调通过在特定任务的数据上进一步训练预训练模型,使其在特定任务上表现更好。指令微调特别关注模型对特定指令或任务的理解和执行能力。
特点:
- 数据规模小:通常使用较小的数据集,专注于某个具体任务的数据,如情感分析、文本分类等。
- 目标:优化模型在特定任务上的表现,使其能够更好地理解和执行特定指令。
- 应用场景:适用于模型已经具有足够的通用知识,但需要在特定任务上进行优化时。例如,一个通用的语言模型需要在情感分析任务上表现更好。
一般而言,做"领域知识注入"时,使用指令微调会比增量预训练的效率更高,另外一般大模型泛化性已经比较好了,直接加个RAG也能用,所以如果是基于chat模型做些角色扮演、聊天机器人、学习某种风格等简单任务用微调的方式最好。
但如果你有海量的特定领域数据,或者想让模型学会某个行业深入的知识,可以试试看增量预训练。前提还是得有大量高质量的领域数据,可以是未标注过的,因为模型是去学数据的分布(续写能力)。
本模型是基于xtuner训练,基于此前数据制作一栏的数据即可直接训练,数据格式也可以参考官方文档xtuner数据集格式和loss计算
增量预训练和指令微调训练流程都差不多,通过使用不同的配置文件来加载对应模型和数据即可。
一般要修改的就是base模型、数据源、训练超参数,每个参数的意义可以看官方的config介绍
增量预训练
增量预训练配置文件可以参考 wulewule/xtuner_config/pretrain/internlm2_5-1_8b-chat_pretrain.py ,下面列出几个重要的
+ pretrained_model_name_or_path = '/root/models/internlm2_5-1_8b-chat' # 修改成自己的模型路径
+ data_dir="/root/wulewule/data"
+ data_files = [f'{data_dir}/heishenghua_pretraining.jsonl'] # 改成自己的数据路径
+ # prompt_template = PROMPT_TEMPLATE.internlm2_chat #增量预训练用不到
+ accumulative_counts = 1 #单卡训练切记改成1,不然模型学不会东西,切记切记!!!
## qlora的配置
model = dict(
type=SupervisedFinetune,
use_varlen_attn=use_varlen_attn,
llm=dict(
type=AutoModelForCausalLM.from_pretrained,
pretrained_model_name_or_path=pretrained_model_name_or_path,
trust_remote_code=True,
torch_dtype=torch.float16,
quantization_config=dict(
type=BitsAndBytesConfig,
load_in_4bit=True,
load_in_8bit=False,
llm_int8_threshold=6.0,
llm_int8_has_fp16_weight=False,
bnb_4bit_compute_dtype=torch.float16,
bnb_4bit_use_double_quant=True,
bnb_4bit_quant_type='nf4')),
lora=dict(
type=LoraConfig,
r=64,
lora_alpha=128,
lora_dropout=0.1,
bias='none',
task_type='CAUSAL_LM'))
+ #另外把两处带shuffle的改成False了,想尽量保持原始顺序去学习数据分布
指令微调
指令微调配置文件可以参考 wulewule/xtuner_config/finetune/internlm2_5_chat_1_8b_qlora_wulewule_all_test.py,下面列出几个重要的
+ pretrained_model_name_or_path = 'pretrain/merged_internlm2_5-1_8b-chat_pretrain' # 修改成自己的模型路径
+ data_dir="/root/wulewule/data"
+ data_files = [f'{data_dir}/self_cognition_100.jsonl', f'{data_dir}/huixiangdou_conversations.jsonl'] # 改成自己的数据路径
+ prompt_template = PROMPT_TEMPLATE.internlm2_chat #internlm2_chat默认的
+ accumulative_counts = 1 #单卡训练切记改成1,不然模型学不会东西,切记切记!!!
## qlora的配置
model = dict(
type=SupervisedFinetune,
use_varlen_attn=use_varlen_attn,
llm=dict(
type=AutoModelForCausalLM.from_pretrained,
pretrained_model_name_or_path=pretrained_model_name_or_path,
trust_remote_code=True,
torch_dtype=torch.float16,
quantization_config=dict(
type=BitsAndBytesConfig,
load_in_4bit=True,
load_in_8bit=False,
llm_int8_threshold=6.0,
llm_int8_has_fp16_weight=False,
bnb_4bit_compute_dtype=torch.float16,
bnb_4bit_use_double_quant=True,
bnb_4bit_quant_type='nf4')),
lora=dict(
type=LoraConfig,
r=64,
lora_alpha=128,
lora_dropout=0.1,
bias='none',
task_type='CAUSAL_LM'))
+ SYSTEM = "你是悟了悟了,由xzyun2011开发的AI助手,专注于回答和《黑神话:悟空》这款游戏相关的问题,你想帮助玩家了解更多这款游戏背后的故事和文化知识。\n" #修改为自己制作数据集时的prompt
至于学习率等超参数,需要自己多调试,就经验而言学习了一般设置量级1e-5左右,epoch轮数最好10以下,尽量避免灾难性遗忘问题;
使用了deepspeed加速训练
#增量预训练
xtuner train ./xtuner_config/pretrain/internlm2_5-1_8b-chat_pretrain.py --work-dir ./pretrain --deepspeed deepspeed_zero1
#指令微调
xtuner train ./xtuner_config/finetune/internlm2_5_chat_1_8b_qlora_wulewule_all_test.py --work-dir ./finetune --deepspeed deepspeed_zero1
loss可视化,读取对应目录tensorboard数据,打开http://localhost:6006/
#指令微调为例
tensorboard --logdir ./finetune/work_dirs/internlm2_5_chat_1_8b_qlora_wulewule_all_test.py/20241010_230522/vis_data
在训练完成后,我们会得到几个 .pth
文件,这些文件存储了 QLoRA 算法训练过程所更新的参数,而不是模型的全部参数。因此我们需要将这些 .pth
文件转换为 HuggingFace 格式,并合并入原始的语言模型权重中。
XTuner 已经集成好了将模型转换为 HuggingFace 格式的工具,我们只需要执行,pth_file改为自己需要转换的LoRA模型
export MKL_SERVICE_FORCE_INTEL=1
export MKL_THREADING_LAYER=GNU
## 需要看loss曲线和测试集表现,选择对应的模型
##指令微调为例子,先获取最后保存的一个pth文件
pth_file=`ls -t ./finetune/internlm2_5_chat_1_8b_qlora_wulewule_all_test.py/*.pth | head -n 1| sed 's/:$//' `
# 转换格式
xtuner convert pth_to_hf ./internlm2_5_chat_1_8b_qlora_wulewule_all_test.py ${pth_file} ./hf
XTuner 也已经集成好了合并 LoRA 权重的工具,我们只需执行如下指令
# 合并参数
xtuner convert merge /root/models/internlm2_5-1_8b-chat ./hf /root/wulewule/models/wulewule_v1_1_8b --max-shard-size 2GB
与转换命令类似,该条合并参数命令会读取原始参数路径 /root/models/internlm2_5-1_8b-chat
以及转换为 hf 格式的部分参数路径 ./h
,将两部分参数合并后保存于 /root/wulewule/models/wulewule_v1_1_8b
,其中每个参数切片的最大文件大小为 2GB。
在合并权重后,为了更好地体会到模型的能力,XTuner 也集成了与模型对话的工具。通过如下命令,便可以启动一个与模型对话的简易 Demo。
export MKL_SERVICE_FORCE_INTEL=1
export MKL_THREADING_LAYER=GNU
xtuner chat ./merged --prompt-template internlm2_chat --system "your system"
其中 ./merged
是合并后的权重路径,--prompt-template internlm2_chat
指定了对话模板为 InternLM2-Chat,--system
则是指定了与模型对话时的 System Prompt,保持和数据训练时一致。