safety moderation

by pbezzub - opened 11 days ago

11 days ago

Подскажите пожалуйста, какие методы используются для валидации входных сообщений пользователя и ответов модели? Есть ли документация или статьи в которых это описано?

vltnmmdv

ai-sage org 11 days ago

В этой версии модели отдельной системы pre/post-moderation нет: входной текст пользователя подаётся напрямую в модель, и отдельные фильтры перед инференсом/после него не применяются.

При этом безопасность учитывалась на этапе обучения — в SFT/Alignment датасетах были примеры на чувствительные и запрещённые темы, поэтому на таких запросах модель может уходить в отказ или давать безопасно-нейтральный ответ.

pbezzub

7 days ago

Спасибо за ответ!
Подскажите, а какие решения для такой вы используете у себя при инференсе модели?
Есть ли документация/статьи, где это можно почитать?

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment