如果想给embedding模型添加lm_heads该怎么做?

#25
by linln1 - opened

embedding模型的embed_tokens layer不能直接用作lm_heads,输出是乱码。如果用qwen3-8b的lm_heads,也是乱码。
是不是必须得重新训练一个lm_heads?
如果要训练的话,请问官方大佬有什么建议呢,是freeze 主干只训练lm_heads,还是full params一起训练呢?推荐用多少数据?

Sign up or log in to comment