Modelo Zion 1.0

  • Developed by: Next AI Solutions.
  • Model type: 9B transfomer LLM.

Model Description

O Zion 1.0 utiliza uma arquitetura Transformer densa e padrão:

  • Utilizamos a atenção de consulta agrupada (GQA) com 8 cabeças de chave-valor, pois demonstrou aumentar a velocidade no momento da inferência, mantendo o desempenho a jusante.
  • Realizamos a normalização pré-camada, pois melhora a estabilidade do treinamento, e utilizamos o RMSNorm, que é mais rápido.
  • Utilizamos a função de ativação SwiGLU, pois demonstrou levar a bons resultados em tarefas a jusante.
  • Utilizamos incorporações posicionais rotativas (RoPE) em todas as camadas, pois demonstraram levar a bons desempenhos, permitindo a extensão do comprimento do contexto.

Para o pré-treinamento, utilizamos quatro Mac Studio M4 128, treinando o modelo com um tamanho de lote constante de 2.800 sequências, o que corresponde a aproximadamente 12 milhões de tokens, utilizando o otimizador Adam e precisão BF16. Aqui está um resumo dos hiperparâmetros do modelo:

Comprimento da Sequência 4.096
Número de Camadas 42
Tamanho de Incorporação 4.096
Tamanho Oculto FFN 12.288
Número de Cabeças 32
Número de Cabeças KV (GQA) 8
Função de Ativação SwiGLU
Codificações de Posição RoPE (\Theta=10.000)
Norma da Camada RMSNorm
Incorporações Amarradas Não
Parâmetros de Incorporação 0,524B
Parâmetros da Cabeça LM 0,524B
Parâmetros Não Incorporantes 8,105B
Parâmetros Totais 9,154B
Downloads last month
9
Safetensors
Model size
9B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for nsxtai/Zion-9B

Quantizations
2 models