Historinhas-102M
Visão Geral
O Historinhas-102M é um modelo de linguagem treinado do zero para gerar histórias infantis simples e coerentes em português brasileiro. Inspirado no artigo TinyStories: How Small Can Language Models Be and Still Speak Coherent English?, o projeto demonstra que modelos pequenos podem produzir textos de alta qualidade.
Como testar o modelo
Para testar o modelo, basta rodar o notebook inference.ipynb disponível neste repositório. O notebook já contém todas as instruções e exemplos necessários para realizar inferência com o modelo treinado.
Arquitetura do Modelo
A arquitetura se assemelha à do LLaMA, com algumas modificações:
- Multi-Head Attention no lugar de Grouped Query Attention
- Sem KV-Cache para maior simplicidade
Comparação com o Transformer Original
| Característica | Arquitetura Atual | Transformer Original |
|---|---|---|
| Estrutura | Decoder-only | Encoder-Decoder |
| Normalização | RMS Norm | Layer Norm |
| Ordem da Normalização | Antes da adição residual | Depois da adição residual |
| Função de Ativação | SwiGLU | ReLU |
| Positional Embedding | Rotary Embedding | Absolute Positional Embedding |
| Weight Tying | ✅ Sim | ❌ Ausente (em muitos casos) |
Diagrama da Arquitetura
Dados e Treinamento
- Dataset: 1.255.240 histórias infantis (300M+ tokens)
- Modelos usados para geração dos dados: Gemini 2.0 Flash, Gemma 3 27B, entre outros
- Treinamento: ~5 épocas, 25 horas, NVIDIA T4 GPU
- Parâmetros: 102 milhões
O dataset está disponível em: Hugging Face Datasets – Boakpe/historinhas
O código de treinamento pode ser encontrado em: Código de Treinamento – Github
Tokenizer
- Algoritmo: BPE (Byte Pair Encoding)
- Vocabulário: 20.000 tokens
- Treinado com: 🤗 Hugging Face Tokenizers
Resultados
O modelo gera histórias inéditas e coerentes, mesmo para personagens nunca vistos no treinamento. Não apresenta sinais de overfitting, mesmo com uma razão de parâmetros por token abaixo das recomendações tradicionais.
Referências
- TinyStories: How Small Can Language Models Be and Still Speak Coherent English?
- GLU Variants Improve Transformer
- RoFormer: Enhanced Transformer with Rotary Position Embedding