safety moderation
#2
by
pbezzub
- opened
Подскажите пожалуйста, какие методы используются для валидации входных сообщений пользователя и ответов модели? Есть ли документация или статьи в которых это описано?
В этой версии модели отдельной системы pre/post-moderation нет: входной текст пользователя подаётся напрямую в модель, и отдельные фильтры перед инференсом/после него не применяются.
При этом безопасность учитывалась на этапе обучения — в SFT/Alignment датасетах были примеры на чувствительные и запрещённые темы, поэтому на таких запросах модель может уходить в отказ или давать безопасно-нейтральный ответ.
Спасибо за ответ!
Подскажите, а какие решения для такой вы используете у себя при инференсе модели?
Есть ли документация/статьи, где это можно почитать?