Upload README.md with huggingface_hub
Browse files
README.md
CHANGED
|
@@ -1,6 +1,6 @@
|
|
| 1 |
---
|
| 2 |
language: fr
|
| 3 |
-
license:
|
| 4 |
tags:
|
| 5 |
- token-classification
|
| 6 |
- named-entity-recognition
|
|
@@ -40,7 +40,7 @@ model-index:
|
|
| 40 |
|
| 41 |
**Modèle optimisé pour la reconnaissance d'entités nommées (NER) dans les rapports sociaux français**
|
| 42 |
|
| 43 |
-
[](https://huggingface.co/camembert-base)
|
| 45 |
|
| 46 |
## 📋 Description
|
|
@@ -148,11 +148,13 @@ Quality impact: Minimal (<0.1% F1 degradation)
|
|
| 148 |
|
| 149 |
Le modèle student distillé a été entraîné sur **50 000 phrases** provenant de trois sources complémentaires :
|
| 150 |
|
| 151 |
-
1. **Contexte médico-social français** :
|
|
|
|
|
|
|
| 152 |
2. **Narratif littéraire** : Grands romans français du XXe siècle (dialogues, descriptions de personnages)
|
| 153 |
3. **Articles Wikipedia français** : Contenu encyclopédique général
|
| 154 |
|
| 155 |
-
Cette diversité de sources permet une bonne généralisation tout en conservant une spécialisation pour le domaine médico-social
|
| 156 |
|
| 157 |
### Installation
|
| 158 |
|
|
@@ -314,18 +316,24 @@ Apache 2.0
|
|
| 314 |
```bibtex
|
| 315 |
@model{camembert-ner-distilled-pruned-fp16,
|
| 316 |
title={CamemBERT-NER Distilled + Pruned + FP16},
|
| 317 |
-
author={
|
| 318 |
year={2024},
|
| 319 |
publisher={HuggingFace},
|
| 320 |
-
url={https://huggingface.co/
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 321 |
}
|
| 322 |
```
|
| 323 |
|
| 324 |
## 📞 Contact
|
| 325 |
|
| 326 |
-
- **
|
| 327 |
-
- **Issues** : [GitHub Issues](https://github.com/jeanmicheldanto-boop/laplume_test/issues)
|
| 328 |
-
- **Email** : [email protected]
|
| 329 |
|
| 330 |
## 🔄 Versions
|
| 331 |
|
|
@@ -336,4 +344,4 @@ Apache 2.0
|
|
| 336 |
|
| 337 |
---
|
| 338 |
|
| 339 |
-
**Note** : Ce modèle fait partie du projet **La Plume**, un pipeline de pseudonymisation pour documents médico-sociaux français.
|
|
|
|
| 1 |
---
|
| 2 |
language: fr
|
| 3 |
+
license: mit
|
| 4 |
tags:
|
| 5 |
- token-classification
|
| 6 |
- named-entity-recognition
|
|
|
|
| 40 |
|
| 41 |
**Modèle optimisé pour la reconnaissance d'entités nommées (NER) dans les rapports sociaux français**
|
| 42 |
|
| 43 |
+
[](https://opensource.org/licenses/MIT)
|
| 44 |
[](https://huggingface.co/camembert-base)
|
| 45 |
|
| 46 |
## 📋 Description
|
|
|
|
| 148 |
|
| 149 |
Le modèle student distillé a été entraîné sur **50 000 phrases** provenant de trois sources complémentaires :
|
| 150 |
|
| 151 |
+
1. **Contexte médico-social français** :
|
| 152 |
+
- Rapports sociaux fictifs mais réalistes (générés pour l'entraînement)
|
| 153 |
+
- Rapports publics sur l'organisation médico-sociale et bonnes pratiques
|
| 154 |
2. **Narratif littéraire** : Grands romans français du XXe siècle (dialogues, descriptions de personnages)
|
| 155 |
3. **Articles Wikipedia français** : Contenu encyclopédique général
|
| 156 |
|
| 157 |
+
Cette diversité de sources permet une bonne généralisation tout en conservant une spécialisation pour le domaine médico-social, **sans utiliser de données confidentielles réelles**.
|
| 158 |
|
| 159 |
### Installation
|
| 160 |
|
|
|
|
| 316 |
```bibtex
|
| 317 |
@model{camembert-ner-distilled-pruned-fp16,
|
| 318 |
title={CamemBERT-NER Distilled + Pruned + FP16},
|
| 319 |
+
author={Danto, Patrick},
|
| 320 |
year={2024},
|
| 321 |
publisher={HuggingFace},
|
| 322 |
+
url={https://huggingface.co/jmdanto/titibongbong_camemBERT_NER}
|
| 323 |
+
}
|
| 324 |
+
|
| 325 |
+
@model{camembert-ner-teacher,
|
| 326 |
+
title={CamemBERT-NER: Fine-tuned CamemBERT for NER task},
|
| 327 |
+
author={Pollé, Jean-Baptiste},
|
| 328 |
+
year={2020},
|
| 329 |
+
publisher={HuggingFace},
|
| 330 |
+
url={https://huggingface.co/Jean-Baptiste/camembert-ner}
|
| 331 |
}
|
| 332 |
```
|
| 333 |
|
| 334 |
## 📞 Contact
|
| 335 |
|
| 336 |
+
- **Email** : patrick.[email protected]
|
|
|
|
|
|
|
| 337 |
|
| 338 |
## 🔄 Versions
|
| 339 |
|
|
|
|
| 344 |
|
| 345 |
---
|
| 346 |
|
| 347 |
+
**Note** : Ce modèle fait partie du projet **La Plume**, un pipeline de pseudonymisation pour documents médico-sociaux français. Le pipeline complet est un projet privé protégé au titre de la propriété intellectuelle, mais ce modèle est publié sous licence MIT.
|