Yang Ouyang's picture

2 35

Yang Ouyang

OriDragon2000

https://oyy2000.github.io/

AI & ML interests

Safety and Efficiency

Organizations

None yet

authored a paper 9 months ago

Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense

Paper • 2501.02629 • Published Jan 5 • 1

authored a paper over 1 year ago

Min-K%++: Improved Baseline for Detecting Pre-Training Data from Large Language Models

Paper • 2404.02936 • Published Apr 3, 2024 • 3