safety moderation

#2
by pbezzub - opened

Подскажите пожалуйста, какие методы используются для валидации входных сообщений пользователя и ответов модели? Есть ли документация или статьи в которых это описано?

ai-sage org

В этой версии модели отдельной системы pre/post-moderation нет: входной текст пользователя подаётся напрямую в модель, и отдельные фильтры перед инференсом/после него не применяются.

При этом безопасность учитывалась на этапе обучения — в SFT/Alignment датасетах были примеры на чувствительные и запрещённые темы, поэтому на таких запросах модель может уходить в отказ или давать безопасно-нейтральный ответ.

Спасибо за ответ!
Подскажите, а какие решения для такой вы используете у себя при инференсе модели?
Есть ли документация/статьи, где это можно почитать?

Sign up or log in to comment