SteeringSafety - a WangResearchLab Collection

WangResearchLab 's Collections

LLM Interpretability

Context-aware Scaling Laws

MLAN

SteeringSafety

updated 29 days ago

A benchmark for evaluating effectiveness and entanglement in representation steering across seven safety-relevant perspectives

WangResearchLab/SteeringSafety

Viewer • Updated Oct 16 • 71.6k • 313 • 3
SteeringControl: Holistic Evaluation of Alignment Steering in LLMs

Paper • 2509.13450 • Published Sep 16 • 7