HuggingFace M.INC

Mattimax/DACMini-IT-Q8_0

Logo di DACMini


Descrizione

DACMini-IT-Q8_0 è la versione quantizzata in Q8_0 del modello Mattimax/DACMini-IT, ottimizzata per l’esecuzione più efficiente e leggera su CPU e GPU con supporto limitato alla memoria.
Questa versione mantiene la qualità linguistica e conversazionale del modello originale, riducendo drasticamente il peso e il consumo di RAM grazie alla quantizzazione a 8 bit (Q8_0).

La quantizzazione è stata realizzata per l’uso con llama.cpp, text-generation-webui, e altri framework compatibili con il formato GGUF.


Caratteristiche tecniche

Proprietà Valore
Base model Mattimax/DACMini-IT
Architettura GPT-2 Small (italian adaptation)
Parametri effettivi ~109M
Formato GGUF
Quantizzazione Q8_0
Precisione numerica 8-bit
Contesto massimo 512 token
Dimensione del file ~420 MB
Vocabolario ~50.000 token

Cos’è la quantizzazione Q8_0

Il formato Q8_0 (int8 a precisione fissa) rappresenta un compromesso ideale tra efficienza computazionale e qualità del modello.
Riduce le dimensioni del file e l’uso di memoria senza una perdita significativa di performance nel dialogo e nella comprensione linguistica.

  • Ogni parametro è compresso in 8 bit.
  • Mantiene una precisione quasi identica al modello FP16.
  • Ideale per inferenza su CPU (Intel, AMD) o GPU di fascia media (es. GTX, RTX, Tesla).

Obiettivi

  • Esecuzione offline o embedded di chatbot in lingua italiana.
  • Supporto per applicazioni su macchine a risorse limitate.
  • Esperimenti NLP e inferenza rapida in ambiente desktop o server.

Uso consigliato

1. Inference con llama.cpp

./main -m DACMini-IT-Q8_0.gguf -p "Ciao, come stai oggi?" -n 150

2. Inference con text-generation-webui

  1. Copia il file .gguf nella cartella models/.
  2. Seleziona il modello da interfaccia grafica.
  3. Imposta temperatura, top_p e lunghezza di output a piacere.
  4. Avvia la chat.

Prestazioni stimate

Dispositivo RAM richiesta Tempo di risposta medio (token/s)
CPU Intel i7-3770 ~1.5 GB ~20 token/s
GPU GTX 970 ~1.2 GB VRAM ~40 token/s
CPU moderni (Ryzen 5 5600) ~1.0 GB ~60 token/s

(valori indicativi, possono variare in base al contesto e al sistema operativo)


Limitazioni

  • Alcune lievi imprecisioni nelle risposte rispetto alla versione FP16.
  • Non adatto a compiti di reasoning o traduzione complessa.
  • Ottimizzato per dialoghi e generazione di testo naturale in italiano.

Riferimenti


Citazione

Se utilizzi Mattimax/DACMini-IT-Q8_0 in un progetto o pubblicazione, cita il modello originale:

@misc{mattimax2025dacminiitq8,
    title = {{Mattimax/DACMini-IT-Q8_0}: versione quantizzata del modello DACMini-IT},
    author = {Mattimax},
    howpublished = {\url{https://huggingface.co/Mattimax/DACMini-IT-Q8_0}},
    year = {2025},
    note = {Versione quantizzata (Q8_0) basata su Mattimax/DACMini-IT. Licenza MIT.}
}

© 2025 Mattimax / M.INC Labs — Modello open source rilasciato sotto licenza MIT. Ottimizzato per un’intelligenza artificiale accessibile, leggera e tutta italiana.

Downloads last month
19
GGUF
Model size
0.1B params
Architecture
gpt2
Hardware compatibility
Log In to view the estimation

We're not able to determine the quantization variants.

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Mattimax/DACMini-IT_Q8_0

Finetuned
Mattimax/DACMini
Quantized
(3)
this model

Dataset used to train Mattimax/DACMini-IT_Q8_0