Upload MODEL_CARD.md with huggingface_hub
Browse files- MODEL_CARD.md +50 -7
MODEL_CARD.md
CHANGED
|
@@ -1,6 +1,6 @@
|
|
| 1 |
---
|
| 2 |
language: fr
|
| 3 |
-
license:
|
| 4 |
tags:
|
| 5 |
- token-classification
|
| 6 |
- named-entity-recognition
|
|
@@ -165,13 +165,17 @@ Le modèle reconnaît **4 catégories principales** (format IOB2) :
|
|
| 165 |
### Training Data
|
| 166 |
|
| 167 |
- **Corpus d'entraînement** : **50 000 phrases** issues de trois sources :
|
| 168 |
-
1. **Contexte médico-social français** :
|
|
|
|
|
|
|
| 169 |
2. **Narratif littéraire** : Grands romans français du XXe siècle (dialogues, descriptions de personnages et lieux)
|
| 170 |
3. **Articles Wikipedia français** : Contenu encyclopédique général pour généralisation
|
| 171 |
- **Domaines applicatifs** : Aide sociale à l'enfance, RSA, handicap, hébergement, personnes âgées
|
| 172 |
- **Annotations** : 4 catégories principales (PER, LOC, ORG, MISC) au format IOB2
|
| 173 |
- **Base model** : Jean-Baptiste/camembert-ner fine-tuné puis distillé
|
| 174 |
|
|
|
|
|
|
|
| 175 |
Cette diversité de sources (médico-social + littéraire + encyclopédique) permet au modèle de généraliser efficacement tout en conservant une spécialisation pour le domaine cible.
|
| 176 |
|
| 177 |
> **Note** : Les 39 catégories fines du pipeline LaPlume (ETAB_*, ID_*, LOC_CITY, etc.) sont ajoutées par post-traitement (règles, gazetteers), pas par le modèle NER de base.
|
|
@@ -267,6 +271,34 @@ Reduction: -50.0%
|
|
| 267 |
| **MED** (ORG, ETAB) | 81.4% | 77.4% | 79.3% |
|
| 268 |
| **LOW** (LOC, DATE) | 69.4% | 74.5% | 71.9% |
|
| 269 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 270 |
## Environmental Impact
|
| 271 |
|
| 272 |
- **Hardware** : NVIDIA GPU (compute capability ≥ 6.0 for FP16)
|
|
@@ -311,19 +343,30 @@ Reduction: -50.0%
|
|
| 311 |
```bibtex
|
| 312 |
@model{camembert-ner-distilled-pruned-fp16,
|
| 313 |
title={CamemBERT-NER Distilled + Pruned + FP16},
|
| 314 |
-
author={Danto,
|
| 315 |
year={2024},
|
| 316 |
publisher={HuggingFace Hub},
|
| 317 |
-
url={https://huggingface.co/
|
| 318 |
note={F1: 85.9%, Size: 196MB, Speed: +15-20%}
|
| 319 |
}
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 320 |
```
|
| 321 |
|
| 322 |
## Model Card Authors
|
| 323 |
|
| 324 |
-
|
| 325 |
|
| 326 |
## Model Card Contact
|
| 327 |
|
| 328 |
-
-
|
| 329 |
-
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
---
|
| 2 |
language: fr
|
| 3 |
+
license: mit
|
| 4 |
tags:
|
| 5 |
- token-classification
|
| 6 |
- named-entity-recognition
|
|
|
|
| 165 |
### Training Data
|
| 166 |
|
| 167 |
- **Corpus d'entraînement** : **50 000 phrases** issues de trois sources :
|
| 168 |
+
1. **Contexte médico-social français** :
|
| 169 |
+
- Rapports sociaux fictifs mais réalistes (générés pour l'entraînement)
|
| 170 |
+
- Rapports publics sur l'organisation médico-sociale et bonnes pratiques
|
| 171 |
2. **Narratif littéraire** : Grands romans français du XXe siècle (dialogues, descriptions de personnages et lieux)
|
| 172 |
3. **Articles Wikipedia français** : Contenu encyclopédique général pour généralisation
|
| 173 |
- **Domaines applicatifs** : Aide sociale à l'enfance, RSA, handicap, hébergement, personnes âgées
|
| 174 |
- **Annotations** : 4 catégories principales (PER, LOC, ORG, MISC) au format IOB2
|
| 175 |
- **Base model** : Jean-Baptiste/camembert-ner fine-tuné puis distillé
|
| 176 |
|
| 177 |
+
**Important** : Aucune donnée confidentielle réelle (dossiers ASE/RSA réels) n'a été utilisée. Le corpus médico-social est composé de textes fictifs et de rapports publics uniquement.
|
| 178 |
+
|
| 179 |
Cette diversité de sources (médico-social + littéraire + encyclopédique) permet au modèle de généraliser efficacement tout en conservant une spécialisation pour le domaine cible.
|
| 180 |
|
| 181 |
> **Note** : Les 39 catégories fines du pipeline LaPlume (ETAB_*, ID_*, LOC_CITY, etc.) sont ajoutées par post-traitement (règles, gazetteers), pas par le modèle NER de base.
|
|
|
|
| 271 |
| **MED** (ORG, ETAB) | 81.4% | 77.4% | 79.3% |
|
| 272 |
| **LOW** (LOC, DATE) | 69.4% | 74.5% | 71.9% |
|
| 273 |
|
| 274 |
+
## Bias, Risks, and Limitations
|
| 275 |
+
|
| 276 |
+
### Limitations techniques
|
| 277 |
+
|
| 278 |
+
- **Domaine spécialisé** : Optimisé pour le médico-social français, performances réduites sur d'autres domaines
|
| 279 |
+
- **Trade-off qualité/vitesse** : -1.3% F1 vs baseline pour +15-20% vitesse
|
| 280 |
+
- **Entités rares** : Moins performant sur entités hors vocabulaire ou très rares
|
| 281 |
+
- **Dépendance contextuelle** : Nécessite contexte suffisant (min 5-10 mots)
|
| 282 |
+
|
| 283 |
+
### Considérations éthiques
|
| 284 |
+
|
| 285 |
+
- ✅ **Données d'entraînement** : **Aucune donnée confidentielle réelle utilisée**
|
| 286 |
+
- Rapports sociaux : fictifs et réalistes (générés)
|
| 287 |
+
- Rapports publics : documents publics d'organisation et bonnes pratiques
|
| 288 |
+
- **Pas de dossiers ASE/RSA réels** (hautement confidentiels)
|
| 289 |
+
- ✅ **Usage recommandé** : Outil d'assistance, pas de décision automatique
|
| 290 |
+
- ✅ **Validation humaine** requise pour données sensibles
|
| 291 |
+
- ⚠️ **RGPD** : Adapter selon contexte (pseudonymisation, consentement)
|
| 292 |
+
- ⚠️ **Biais potentiels** : Sous-représentation de certains groupes dans corpus d'entraînement
|
| 293 |
+
|
| 294 |
+
### Recommendations
|
| 295 |
+
|
| 296 |
+
- ✅ **Validation humaine** pour données sensibles (NIR, identifiants)
|
| 297 |
+
- ✅ **Post-traitement** avec règles métier et gazetteers
|
| 298 |
+
- ✅ **Monitoring** des faux positifs/négatifs en production
|
| 299 |
+
- ⚠️ **Prudence** sur entités rares ou hors vocabulaire
|
| 300 |
+
- ⚠️ **Ne jamais utiliser ce modèle sur des données confidentielles sans autorisation**
|
| 301 |
+
|
| 302 |
## Environmental Impact
|
| 303 |
|
| 304 |
- **Hardware** : NVIDIA GPU (compute capability ≥ 6.0 for FP16)
|
|
|
|
| 343 |
```bibtex
|
| 344 |
@model{camembert-ner-distilled-pruned-fp16,
|
| 345 |
title={CamemBERT-NER Distilled + Pruned + FP16},
|
| 346 |
+
author={Danto, Patrick},
|
| 347 |
year={2024},
|
| 348 |
publisher={HuggingFace Hub},
|
| 349 |
+
url={https://huggingface.co/jmdanto/titibongbong_camemBERT_NER},
|
| 350 |
note={F1: 85.9%, Size: 196MB, Speed: +15-20%}
|
| 351 |
}
|
| 352 |
+
|
| 353 |
+
@model{camembert-ner-teacher,
|
| 354 |
+
title={CamemBERT-NER: Fine-tuned CamemBERT for NER task},
|
| 355 |
+
author={Pollé, Jean-Baptiste},
|
| 356 |
+
year={2020},
|
| 357 |
+
publisher={HuggingFace Hub},
|
| 358 |
+
url={https://huggingface.co/Jean-Baptiste/camembert-ner}
|
| 359 |
+
}
|
| 360 |
```
|
| 361 |
|
| 362 |
## Model Card Authors
|
| 363 |
|
| 364 |
+
Patrick Danto
|
| 365 |
|
| 366 |
## Model Card Contact
|
| 367 |
|
| 368 |
+
- Email : patrick.[email protected]
|
| 369 |
+
|
| 370 |
+
---
|
| 371 |
+
|
| 372 |
+
**Note** : Ce modèle fait partie du projet **La Plume**, un pipeline de pseudonymisation pour documents médico-sociaux français. Le pipeline complet est un projet privé protégé au titre de la propriété intellectuelle, mais ce modèle est publié sous licence MIT.
|