Alignment 문서

0개의 카테고리와 1개의 문서가 있습니다

AI가 나쁘게 동작하는 방법들 — Alignment 개념 입문
AI의 실패 패턴(Sycophancy, Hallucination, Reward Hacking 등)과 이를 해결하려는 방법론(RLHF, DPO, CAI, Interpretability)을 인간 조직의 유사 패턴과 함께 설명
#1