jmdanto commited on
Commit
e564114
·
verified ·
1 Parent(s): 17aa805

Upload MODEL_CARD.md with huggingface_hub

Browse files
Files changed (1) hide show
  1. MODEL_CARD.md +50 -7
MODEL_CARD.md CHANGED
@@ -1,6 +1,6 @@
1
  ---
2
  language: fr
3
- license: apache-2.0
4
  tags:
5
  - token-classification
6
  - named-entity-recognition
@@ -165,13 +165,17 @@ Le modèle reconnaît **4 catégories principales** (format IOB2) :
165
  ### Training Data
166
 
167
  - **Corpus d'entraînement** : **50 000 phrases** issues de trois sources :
168
- 1. **Contexte médico-social français** : Rapports sociaux, dossiers ASE/RSA, suivis éducatifs et d'insertion
 
 
169
  2. **Narratif littéraire** : Grands romans français du XXe siècle (dialogues, descriptions de personnages et lieux)
170
  3. **Articles Wikipedia français** : Contenu encyclopédique général pour généralisation
171
  - **Domaines applicatifs** : Aide sociale à l'enfance, RSA, handicap, hébergement, personnes âgées
172
  - **Annotations** : 4 catégories principales (PER, LOC, ORG, MISC) au format IOB2
173
  - **Base model** : Jean-Baptiste/camembert-ner fine-tuné puis distillé
174
 
 
 
175
  Cette diversité de sources (médico-social + littéraire + encyclopédique) permet au modèle de généraliser efficacement tout en conservant une spécialisation pour le domaine cible.
176
 
177
  > **Note** : Les 39 catégories fines du pipeline LaPlume (ETAB_*, ID_*, LOC_CITY, etc.) sont ajoutées par post-traitement (règles, gazetteers), pas par le modèle NER de base.
@@ -267,6 +271,34 @@ Reduction: -50.0%
267
  | **MED** (ORG, ETAB) | 81.4% | 77.4% | 79.3% |
268
  | **LOW** (LOC, DATE) | 69.4% | 74.5% | 71.9% |
269
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
270
  ## Environmental Impact
271
 
272
  - **Hardware** : NVIDIA GPU (compute capability ≥ 6.0 for FP16)
@@ -311,19 +343,30 @@ Reduction: -50.0%
311
  ```bibtex
312
  @model{camembert-ner-distilled-pruned-fp16,
313
  title={CamemBERT-NER Distilled + Pruned + FP16},
314
- author={Danto, Jean-Michel},
315
  year={2024},
316
  publisher={HuggingFace Hub},
317
- url={https://huggingface.co/jeanmicheldanto-boop/camembert-ner-distilled-pruned-fp16},
318
  note={F1: 85.9%, Size: 196MB, Speed: +15-20%}
319
  }
 
 
 
 
 
 
 
 
320
  ```
321
 
322
  ## Model Card Authors
323
 
324
- Jean-Michel Danto
325
 
326
  ## Model Card Contact
327
 
328
- - GitHub Issues : https://github.com/jeanmicheldanto-boop/laplume_test/issues
329
- - Email : [email protected]
 
 
 
 
1
  ---
2
  language: fr
3
+ license: mit
4
  tags:
5
  - token-classification
6
  - named-entity-recognition
 
165
  ### Training Data
166
 
167
  - **Corpus d'entraînement** : **50 000 phrases** issues de trois sources :
168
+ 1. **Contexte médico-social français** :
169
+ - Rapports sociaux fictifs mais réalistes (générés pour l'entraînement)
170
+ - Rapports publics sur l'organisation médico-sociale et bonnes pratiques
171
  2. **Narratif littéraire** : Grands romans français du XXe siècle (dialogues, descriptions de personnages et lieux)
172
  3. **Articles Wikipedia français** : Contenu encyclopédique général pour généralisation
173
  - **Domaines applicatifs** : Aide sociale à l'enfance, RSA, handicap, hébergement, personnes âgées
174
  - **Annotations** : 4 catégories principales (PER, LOC, ORG, MISC) au format IOB2
175
  - **Base model** : Jean-Baptiste/camembert-ner fine-tuné puis distillé
176
 
177
+ **Important** : Aucune donnée confidentielle réelle (dossiers ASE/RSA réels) n'a été utilisée. Le corpus médico-social est composé de textes fictifs et de rapports publics uniquement.
178
+
179
  Cette diversité de sources (médico-social + littéraire + encyclopédique) permet au modèle de généraliser efficacement tout en conservant une spécialisation pour le domaine cible.
180
 
181
  > **Note** : Les 39 catégories fines du pipeline LaPlume (ETAB_*, ID_*, LOC_CITY, etc.) sont ajoutées par post-traitement (règles, gazetteers), pas par le modèle NER de base.
 
271
  | **MED** (ORG, ETAB) | 81.4% | 77.4% | 79.3% |
272
  | **LOW** (LOC, DATE) | 69.4% | 74.5% | 71.9% |
273
 
274
+ ## Bias, Risks, and Limitations
275
+
276
+ ### Limitations techniques
277
+
278
+ - **Domaine spécialisé** : Optimisé pour le médico-social français, performances réduites sur d'autres domaines
279
+ - **Trade-off qualité/vitesse** : -1.3% F1 vs baseline pour +15-20% vitesse
280
+ - **Entités rares** : Moins performant sur entités hors vocabulaire ou très rares
281
+ - **Dépendance contextuelle** : Nécessite contexte suffisant (min 5-10 mots)
282
+
283
+ ### Considérations éthiques
284
+
285
+ - ✅ **Données d'entraînement** : **Aucune donnée confidentielle réelle utilisée**
286
+ - Rapports sociaux : fictifs et réalistes (générés)
287
+ - Rapports publics : documents publics d'organisation et bonnes pratiques
288
+ - **Pas de dossiers ASE/RSA réels** (hautement confidentiels)
289
+ - ✅ **Usage recommandé** : Outil d'assistance, pas de décision automatique
290
+ - ✅ **Validation humaine** requise pour données sensibles
291
+ - ⚠️ **RGPD** : Adapter selon contexte (pseudonymisation, consentement)
292
+ - ⚠️ **Biais potentiels** : Sous-représentation de certains groupes dans corpus d'entraînement
293
+
294
+ ### Recommendations
295
+
296
+ - ✅ **Validation humaine** pour données sensibles (NIR, identifiants)
297
+ - ✅ **Post-traitement** avec règles métier et gazetteers
298
+ - ✅ **Monitoring** des faux positifs/négatifs en production
299
+ - ⚠️ **Prudence** sur entités rares ou hors vocabulaire
300
+ - ⚠️ **Ne jamais utiliser ce modèle sur des données confidentielles sans autorisation**
301
+
302
  ## Environmental Impact
303
 
304
  - **Hardware** : NVIDIA GPU (compute capability ≥ 6.0 for FP16)
 
343
  ```bibtex
344
  @model{camembert-ner-distilled-pruned-fp16,
345
  title={CamemBERT-NER Distilled + Pruned + FP16},
346
+ author={Danto, Patrick},
347
  year={2024},
348
  publisher={HuggingFace Hub},
349
+ url={https://huggingface.co/jmdanto/titibongbong_camemBERT_NER},
350
  note={F1: 85.9%, Size: 196MB, Speed: +15-20%}
351
  }
352
+
353
+ @model{camembert-ner-teacher,
354
+ title={CamemBERT-NER: Fine-tuned CamemBERT for NER task},
355
+ author={Pollé, Jean-Baptiste},
356
+ year={2020},
357
+ publisher={HuggingFace Hub},
358
+ url={https://huggingface.co/Jean-Baptiste/camembert-ner}
359
+ }
360
  ```
361
 
362
  ## Model Card Authors
363
 
364
+ Patrick Danto
365
 
366
  ## Model Card Contact
367
 
368
+ - Email : patrick.[email protected]
369
+
370
+ ---
371
+
372
+ **Note** : Ce modèle fait partie du projet **La Plume**, un pipeline de pseudonymisation pour documents médico-sociaux français. Le pipeline complet est un projet privé protégé au titre de la propriété intellectuelle, mais ce modèle est publié sous licence MIT.