embedding模型的embed_tokens layer不能直接用作lm_heads,输出是乱码。如果用qwen3-8b的lm_heads,也是乱码。是不是必须得重新训练一个lm_heads?如果要训练的话,请问官方大佬有什么建议呢,是freeze 主干只训练lm_heads,还是full params一起训练呢?推荐用多少数据?
· Sign up or log in to comment