Announcement_4

Created in September 15, 2024

2024

🎉 Paper accepted at EMNLP 2024 Main! 🎯 "Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations"