Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2211.05100

Hugging Face Science team papers

FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language

Paper • 2506.20920 • Published Jun 26 • 74
SmolVLM: Redefining small and efficient multimodal models

Paper • 2504.05299 • Published Apr 7 • 200
YourBench: Easy Custom Evaluation Sets for Everyone

Paper • 2504.01833 • Published Apr 2 • 22
SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model

Paper • 2502.02737 • Published Feb 4 • 246

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Paper • 2211.05100 • Published Nov 9, 2022 • 34

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Paper • 2211.05100 • Published Nov 9, 2022 • 34
IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

Paper • 2308.06721 • Published Aug 13, 2023 • 33
LEDITS++: Limitless Image Editing using Text-to-Image Models

Paper • 2311.16711 • Published Nov 28, 2023 • 24

LLM_architectures

Nemotron-4 15B Technical Report

Paper • 2402.16819 • Published Feb 26, 2024 • 46
Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

Paper • 2402.19427 • Published Feb 29, 2024 • 56
RWKV: Reinventing RNNs for the Transformer Era

Paper • 2305.13048 • Published May 22, 2023 • 19
Reformer: The Efficient Transformer

Paper • 2001.04451 • Published Jan 13, 2020

language-models

Mistral 7B

Paper • 2310.06825 • Published Oct 10, 2023 • 55
BloombergGPT: A Large Language Model for Finance

Paper • 2303.17564 • Published Mar 30, 2023 • 26
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 23
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

Paper • 1910.01108 • Published Oct 2, 2019 • 20

Made with Jean Zay

Work performed using Jean Zay Supercomputer resources from GENCI-IDRIS

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Paper • 2211.05100 • Published Nov 9, 2022 • 34
FlauBERT: Unsupervised Language Model Pre-training for French

Paper • 1912.05372 • Published Dec 11, 2019
CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26
AION-1: Omnimodal Foundation Model for Astronomical Sciences

Paper • 2510.17960 • Published 14 days ago • 27

Running

MCP

2.85k

2.85k

Anycoder

🏢

Generate Gradio app code from descriptions
Running

274

274

Qwen2.5 Coder Artifacts

🐢

Generate code snippets based on user input
Running

923

923

QwQ-32B-Preview

🔍

QwQ-32B-Preview
Running on CPU Upgrade

13.6k

13.6k

Open LLM Leaderboard

🏆

Track, rank and evaluate open LLMs and chatbots

Must Reads On Language Model

Dive into the world of generative AI with some prominent papers of Language Model, unlocking the secrets of natural language processing.

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 23
RoBERTa: A Robustly Optimized BERT Pretraining Approach

Paper • 1907.11692 • Published Jul 26, 2019 • 9
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 17
OPT: Open Pre-trained Transformer Language Models

Paper • 2205.01068 • Published May 2, 2022 • 2

Non-English Embeddings and Models

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Paper • 2211.05100 • Published Nov 9, 2022 • 34
Contrastive Language-Image Pre-training for the Italian Language

Paper • 2108.08688 • Published Aug 19, 2021 • 2
IT5: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation

Paper • 2203.03759 • Published Mar 7, 2022 • 5
Spanish Pre-trained BERT Model and Evaluation Data

Paper • 2308.02976 • Published Aug 6, 2023 • 3

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 94
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 23
RoBERTa: A Robustly Optimized BERT Pretraining Approach

Paper • 1907.11692 • Published Jul 26, 2019 • 9
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

Paper • 1910.01108 • Published Oct 2, 2019 • 20

Hugging Face Science team papers

FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language

Paper • 2506.20920 • Published Jun 26 • 74
SmolVLM: Redefining small and efficient multimodal models

Paper • 2504.05299 • Published Apr 7 • 200
YourBench: Easy Custom Evaluation Sets for Everyone

Paper • 2504.01833 • Published Apr 2 • 22
SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model

Paper • 2502.02737 • Published Feb 4 • 246

Made with Jean Zay

Work performed using Jean Zay Supercomputer resources from GENCI-IDRIS

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Paper • 2211.05100 • Published Nov 9, 2022 • 34
FlauBERT: Unsupervised Language Model Pre-training for French

Paper • 1912.05372 • Published Dec 11, 2019
CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26
AION-1: Omnimodal Foundation Model for Astronomical Sciences

Paper • 2510.17960 • Published 14 days ago • 27

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Paper • 2211.05100 • Published Nov 9, 2022 • 34

Running

MCP

2.85k

2.85k

Anycoder

🏢

Generate Gradio app code from descriptions
Running

274

274

Qwen2.5 Coder Artifacts

🐢

Generate code snippets based on user input
Running

923

923

QwQ-32B-Preview

🔍

QwQ-32B-Preview
Running on CPU Upgrade

13.6k

13.6k

Open LLM Leaderboard

🏆

Track, rank and evaluate open LLMs and chatbots

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Paper • 2211.05100 • Published Nov 9, 2022 • 34
IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

Paper • 2308.06721 • Published Aug 13, 2023 • 33
LEDITS++: Limitless Image Editing using Text-to-Image Models

Paper • 2311.16711 • Published Nov 28, 2023 • 24

Must Reads On Language Model

Dive into the world of generative AI with some prominent papers of Language Model, unlocking the secrets of natural language processing.

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 23
RoBERTa: A Robustly Optimized BERT Pretraining Approach

Paper • 1907.11692 • Published Jul 26, 2019 • 9
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 17
OPT: Open Pre-trained Transformer Language Models

Paper • 2205.01068 • Published May 2, 2022 • 2

LLM_architectures

Nemotron-4 15B Technical Report

Paper • 2402.16819 • Published Feb 26, 2024 • 46
Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

Paper • 2402.19427 • Published Feb 29, 2024 • 56
RWKV: Reinventing RNNs for the Transformer Era

Paper • 2305.13048 • Published May 22, 2023 • 19
Reformer: The Efficient Transformer

Paper • 2001.04451 • Published Jan 13, 2020

Non-English Embeddings and Models

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Paper • 2211.05100 • Published Nov 9, 2022 • 34
Contrastive Language-Image Pre-training for the Italian Language

Paper • 2108.08688 • Published Aug 19, 2021 • 2
IT5: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation

Paper • 2203.03759 • Published Mar 7, 2022 • 5
Spanish Pre-trained BERT Model and Evaluation Data

Paper • 2308.02976 • Published Aug 6, 2023 • 3

language-models

Mistral 7B

Paper • 2310.06825 • Published Oct 10, 2023 • 55
BloombergGPT: A Large Language Model for Finance

Paper • 2303.17564 • Published Mar 30, 2023 • 26
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 23
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

Paper • 1910.01108 • Published Oct 2, 2019 • 20

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 94
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 23
RoBERTa: A Robustly Optimized BERT Pretraining Approach

Paper • 1907.11692 • Published Jul 26, 2019 • 9
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

Paper • 1910.01108 • Published Oct 2, 2019 • 20

Previous
1
2
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs