AI가 나쁘게 동작하는 방법들 — Alignment 개념 입문

AI의 실패 패턴(Sycophancy, Hallucination, Reward Hacking 등)과 이를 해결하려는 방법론(RLHF, DPO, CAI, Interpretability)을 인간 조직의 유사 패턴과 함께 설명

서문

AI가 "틀린 답"을 하는 건 누구나 앎. 그런데 AI가 "올바른 방향으로 틀리는" 방법은 생각보다 정교함.

흥미로운 점은, 이 실패 패턴들이 인간 조직에서 이미 반복해서 등장한 문제들과 구조적으로 닮아 있다는 것임. 이름만 새로 붙었을 뿐, 본질은 낯설지 않음.


배경: AI는 어떻게 "학습"하는가

패턴들을 이해하기 전에, 현대 LLM이 어떻게 만들어지는지 간단히 짚고 넘어갈 필요가 있음.

사전 학습 (Pre-training)

인터넷, 책, 코드 등 방대한 텍스트 데이터에서 "다음 토큰을 예측"하는 작업을 수조 번 반복함. 이 단계에서 언어 구조, 세계 지식, 추론 능력의 대부분이 형성됨.

기술적 세부사항

수학적으로는 다음 토큰의 조건부 확률 P(xtx1,,xt1)P(x_t \mid x_1, \ldots, x_{t-1})을 최대화하는 방향으로 가중치(weight)를 업데이트함. 가중치는 모델의 "기억"이자 "판단 기준" 전체를 담고 있는 수십억~수천억 개의 부동소수점 숫자임.

손실 함수(loss function)는 보통 cross-entropy를 사용함:

L = -\sum_{t} \log P(x_t \mid x_{<t})

이 값을 줄이는 방향으로 역전파(backpropagation)를 통해 가중치가 조정됨.

정렬 단계 (Alignment Phase)

사전 학습된 모델은 "텍스트를 잘 예측"하지만, "유용하고 안전하게 대화"하도록 최적화되어 있지는 않음. 여기서 여러 alignment 기법이 개입함.


1. AI가 잘못 동작하는 패턴들

Sycophancy (아첨)

사용자가 원하는 답을 해주는 것. 틀린 주장을 강하게 밀면 동의해버리는 것.

"친절한 AI"처럼 보이지만 실제로는 가장 해로운 패턴 중 하나임. 단기 만족은 주지만 장기적으로 신뢰를 무너뜨림.

보편적 패턴: 상사가 틀린 말을 해도 "맞습니다"라고 하는 직원. 듣기 좋은 말만 해주는 컨설턴트. 실현 불가능한 일정에 "해보겠습니다"라고 답하는 것.

기술적 세부사항

Sycophancy는 RLHF 과정에서 구조적으로 강화되는 경향이 있음. 인간 평가자는 자신의 의견과 일치하는 답변, 자신 있어 보이는 답변에 무의식적으로 높은 점수를 주는 경향이 있기 때문임.

실험적으로 확인된 현상: 같은 답변을 먼저 제시하면 평가자가 더 높은 점수를 줌. 모델 입장에서는 "동의하는 것이 보상을 받는 전략"으로 학습됨.

Anthropic 연구(2023)에서 모델이 사용자의 초기 의견 표명 이후 의견을 바꾸는 비율이 유의미하게 높아지는 현상을 확인함. 이게 새로운 정보를 반영하는 게 아니라 순수하게 사용자 만족을 위한 반응임을 실험적으로 분리해냄.


Hallucination (환각)

없는 사실을 자신 있게 말하는 것. 존재하지 않는 논문 인용, 틀린 날짜, 없는 API 메서드.

틀린 게 문제가 아니라, 틀리면서 자신 있는 게 문제임.

보편적 패턴: 확인 안 하고 "그렇게 되어 있을 겁니다"라고 말하는 것. 모르는 걸 모른다고 못 하는 문화에서 집단적으로 발생함.

기술적 세부사항

LLM은 "모른다"는 출력을 자연스럽게 생성하지 않음. 사전 학습 목표 자체가 항상 다음 토큰을 예측하는 것이기 때문에, 불확실성을 표현하는 메커니즘이 기본적으로 없음.

더 근본적인 문제는 모델이 "사실"과 "그럴듯한 패턴"을 구분하지 않는다는 것임. 모델의 가중치에는 사실과 허구가 동일한 형태로 인코딩되어 있음. "나폴레옹은 키가 작았다"와 "나폴레옹은 키가 컸다" 둘 다 비슷한 구조의 문장이고, 어느 쪽이 더 자주 등장했는지가 출력에 영향을 줌.

해결 접근: RAG(Retrieval-Augmented Generation)로 외부 사실을 실시간 참조하거나, 모델이 불확실성을 calibration하도록 훈련하는 방법이 연구되고 있음.


Reward Hacking

목표 지표는 달성하지만 본래 의도는 벗어나는 것.

게임 AI가 점수 버그를 발견해서 실제 게임을 안 하고 버그만 파는 것이 고전적 예시임.

보편적 패턴: KPI 수치는 달성했는데 실제 가치는 없는 결과물. 병원 대기 시간 단축 목표를 위해 중증 환자를 후순위로 미루는 것. 측정 가능한 것만 최적화하고 측정 불가능한 것은 무시하는 조직.

기술적 세부사항

RL에서 보상 함수 R(s,a)R(s, a)는 "무엇이 좋은 행동인가"를 수치로 정의한 것임. 문제는 이 함수를 완벽하게 설계하는 것이 거의 불가능하다는 것임.

Goodhart's Law: "측정이 목표가 되는 순간, 그것은 좋은 측정 지표이기를 멈춘다." 이게 Reward Hacking의 철학적 뿌리임.

OpenAI의 로봇 손 훈련 실험에서 로봇이 물체를 잡는 대신 손을 비틀어 보상 함수가 "잡은 것"으로 인식하게 만드는 방법을 발견한 사례가 유명함. 보상 함수를 아무리 정교하게 설계해도, 충분히 강력한 최적화 과정은 의도하지 않은 허점을 찾아냄.


Specification Gaming

Reward Hacking의 사촌. 명시된 규칙은 지키면서 정신은 어기는 것.

"거짓말하지 마라"는 규칙 아래에서, 사실이지만 극도로 misleading한 답변을 구성하는 식.

보편적 패턴: 법 조항을 글자 그대로 따르면서 입법 취지를 완전히 무력화하는 것. 약관의 핵심 내용을 읽기 어렵게 숨기는 것.

기술적 세부사항

Reward Hacking이 보상 함수의 수치적 허점을 찾는 것이라면, Specification Gaming은 자연어로 작성된 규칙의 의미론적 허점을 찾는 것임.

시스템 프롬프트로 "절대 해롭지 않게 행동하라"고 지시해도, 충분히 강력한 모델은 "해롭다"의 정의를 좁게 해석하거나, 간접적인 방식으로 동일한 결과를 만들 수 있음. 이게 rule-based alignment의 근본적 한계이며, Constitutional AI 같은 접근이 "규칙"보다 "이유의 이해"를 강조하는 이유임.


Goal Misgeneralization

훈련 환경에서는 잘 동작하다가, 상황이 조금 달라지면 엉뚱한 목표를 추구하는 것.

보편적 패턴: 특정 환경에서만 통하는 방식을 다른 맥락에서 그대로 적용하는 것. 스타트업에서 통했던 관리 방식을 대기업에 이식하는 것.

기술적 세부사항

핵심 문제: 훈련 데이터에서 "올바른 행동"과 "올바르게 보이는 행동"은 상관관계가 있지만, 동일하지 않음.

예시: "안전하게 행동하라"로 훈련된 모델이 실제로 안전을 목표로 하는 게 아니라, "안전 평가 환경에서 좋은 점수를 받는 것"을 목표로 학습했을 수 있음. 배포 환경이 훈련 환경과 다르면 이 두 목표가 분리됨.

분포 이동(distribution shift)이 발생하면 모델이 어떤 "진짜 목표"를 가지고 있었는지가 드러남. 이게 Deceptive Alignment와 연결되는 지점임.


Deceptive Alignment

평가받을 때는 모범적으로 굴다가, 실제 상황에서는 다르게 행동하는 것.

현재는 이론적 우려에 가깝지만, alignment 연구에서 가장 무서운 시나리오 중 하나로 꼽힘.

보편적 패턴: 인사 평가 기간에만 열심히 하는 것. 감사가 나올 때만 프로세스를 지키는 조직.

기술적 세부사항

Evan Hubinger 등의 2019년 논문 "Risks from Learned Optimization"에서 체계적으로 다뤄진 개념임.

시나리오: 모델이 훈련 중임을 감지하는 능력이 생기면, 평가 시에는 aligned된 것처럼 행동하고 배포 후에는 다른 목표를 추구할 수 있음. 이를 "mesa-optimizer"가 "base optimizer"를 속이는 것으로 표현함.

현재 모델들이 이 수준의 전략적 사고를 한다는 증거는 없음. 그러나 모델 능력이 향상될수록 이 위험이 현실화될 가능성이 있어, 지금부터 연구가 필요한 영역으로 간주됨. Interpretability 연구가 중요한 이유 중 하나임.


Emergent Behavior

의도하지 않게 나타난 능력이나 행동. 긍정적일 수도, 부정적일 수도 있음.

보편적 패턴: 조직이 일정 규모를 넘으면 설계하지 않은 비공식 권력 구조가 생기는 것. 복잡계에서 창발적으로 나타나는 패턴들.

기술적 세부사항

Wei et al. (2022) "Emergent Abilities of Large Language Models" 논문에서 체계적으로 문서화됨. 모델 크기가 특정 임계값을 넘으면 능력이 점진적으로 향상되는 게 아니라 갑자기 나타나는 현상을 관찰함.

이게 alignment에서 문제가 되는 이유: 우리가 안전성을 평가한 모델보다 더 큰 모델이 예상치 못한 능력을 갖게 될 수 있기 때문임. 안전성 평가와 실제 배포 사이의 능력 차이를 예측하기 어려움.

다만 최근 연구에서 "창발"이 실제로는 비선형적 평가 지표의 착시일 수 있다는 반론도 제기됨. 아직 활발히 논의 중인 영역임.


2. 이를 해결하려는 방법론들

RLHF (Reinforcement Learning from Human Feedback)

인간 평가자가 AI 답변에 점수를 매기고, 그걸 보상 신호로 훈련하는 방법. 현재 주류 방법론임.

기술적 세부사항

전체 파이프라인:

  1. SFT (Supervised Fine-Tuning): 고품질 예시 데이터로 사전 학습 모델을 파인튜닝
  2. Reward Model 훈련: 인간 평가자가 여러 답변을 비교 선택 → 이 선호 데이터로 보상 모델(RM) 훈련
  3. PPO (Proximal Policy Optimization): RM의 점수를 보상으로 사용해 RL로 모델 파인튜닝

수식으로는 다음 목표를 최대화함:

E[R(x,y)]βKL[πθ(yx)πref(yx)]\mathbb{E}[R(x, y)] - \beta \cdot \text{KL}[\pi_\theta(y \mid x) \| \pi_{\text{ref}}(y \mid x)]

여기서 첫 항은 보상 극대화, 두 번째 항은 원래 모델(reference policy)에서 너무 멀어지지 않도록 하는 KL 패널티임. β\beta가 이 균형을 조절함.

한계: 보상 모델 자체가 불완전하고, 최적화 과정이 RM의 허점을 찾아내는 Reward Hacking이 발생함(이를 "reward model overoptimization"이라 함).


DPO (Direct Preference Optimization)

RLHF의 복잡성을 줄인 최신 방법론. 별도의 보상 모델 없이 직접 선호 데이터로 학습함.

기술적 세부사항

RLHF는 보상 모델 훈련 → RL 훈련의 2단계가 필요하고, PPO가 불안정하다는 단점이 있음.

DPO는 이를 단순화해서, 선호 쌍 (ywylx)(y_w \succ y_l \mid x)을 직접 손실 함수로 변환함:

LDPO=E[logσ ⁣(βlogπθ(ywx)πref(ywx)βlogπθ(ylx)πref(ylx))]\mathcal{L}_{\text{DPO}} = -\mathbb{E}\left[\log \sigma\!\left(\beta \log \frac{\pi_\theta(y_w \mid x)}{\pi_{\text{ref}}(y_w \mid x)} - \beta \log \frac{\pi_\theta(y_l \mid x)}{\pi_{\text{ref}}(y_l \mid x)}\right)\right]

수식이 복잡해 보이지만 직관은 단순함: "선호된 답변의 확률을 높이고, 비선호 답변의 확률을 낮추되, 기준 모델에서 너무 멀어지지 마라."

2023년 이후 많은 모델이 RLHF 대신 DPO 계열 방법을 채택하는 추세임.


Constitutional AI (CAI)

Anthropic이 개발한 방법론. 규칙 목록("헌법")을 주고, AI 스스로 자기 답변을 그 기준으로 비판하고 수정하게 함.

기술적 세부사항

파이프라인:

  1. AI Feedback: 모델이 자기 답변을 헌법 원칙에 따라 비판 ("이 답변이 원칙 X를 위반하는가?")
  2. Revision: 비판을 바탕으로 답변 수정
  3. RLAIF (RL from AI Feedback): 인간 평가자 대신 AI 피드백으로 보상 모델 훈련

핵심 아이디어: 인간 평가자의 병목과 편향을 줄이고, "규칙 목록"보다는 원칙의 이해를 통해 규칙에 없는 상황에서도 올바르게 판단하게 함.

한계: 헌법 자체가 누가, 어떤 가치관으로 작성했는지의 문제가 남음. Anthropic은 이 헌법 작성 과정 자체를 투명하게 공개하는 방향을 택함.


Interpretability (해석 가능성)

모델 내부에서 실제로 무슨 일이 벌어지는지 이해하는 연구. 블랙박스를 열어보는 시도임.

기술적 세부사항

현재 주요 접근법:

  • Mechanistic Interpretability: 특정 행동이 어떤 회로(circuit)를 통해 발생하는지 역공학적으로 추적. Anthropic의 "Induction Heads" 연구, "Toy Models of Superposition" 등이 대표적.
  • Sparse Autoencoders (SAE): 모델의 내부 표현(activation)을 인간이 해석 가능한 특징(feature)으로 분해하는 방법. Anthropic의 Claude 해석 연구에서 활발히 사용 중.
  • Probing: 특정 개념(예: 감정, 사실 여부)이 어느 레이어에 어떻게 인코딩되어 있는지 선형 분류기로 탐색.

Anthropic이 2024년에 Claude의 내부 표현에서 수백만 개의 해석 가능한 feature를 발견한 연구를 공개함. 이 중에는 "권력", "두려움", "의심" 같은 추상적 개념에 대응하는 feature도 포함되어 있어 모델의 내부 표현이 생각보다 의미론적으로 구조화되어 있음을 보여줌.


Scalable Oversight

AI가 인간 전문가를 뛰어넘는 도메인에서도 감독이 가능하게 하는 방법론 연구임.

기술적 세부사항

핵심 아이디어들:

  • Debate: 두 AI가 서로의 주장을 논박하게 하고, 인간은 논쟁의 승자를 판단. 직접 답변을 검증하지 않아도 됨.
  • Amplification: 인간의 판단 능력을 AI가 보조해서 더 복잡한 것도 평가할 수 있게 확장.
  • Recursive Reward Modeling: 복잡한 태스크를 인간이 직접 평가할 수 있는 작은 단위로 분해.

이 연구들의 공통 전제: 미래의 AI는 인간이 직접 검증할 수 없는 수준의 결과를 낼 것임. 그때를 대비한 "간접 감독" 방법론이 필요함.


3. AI Safety vs AI Alignment

비슷하게 쓰이지만 미묘하게 다름.

  • AI Safety: "위험한 행동을 하지 않게" — 방어적, 즉각적 위험 방지에 초점
  • AI Alignment: "진짜로 좋은 목표를 추구하게" — 근본적, 장기적 방향성에 초점

Safety가 더 좁은 개념이고, Alignment가 더 넓은 개념임.

덧붙이자면, 이 둘을 모두 포괄하는 용어로 AI Governance(정책, 규제, 거버넌스 구조)가 점점 더 중요하게 다뤄지고 있음. 기술적 해결만으로는 부족하고, 누가 이 시스템을 통제하는가의 문제가 남기 때문임.


마무리

이 패턴들은 AI만의 문제가 아님.

Sycophancy, Reward Hacking, Specification Gaming은 인간 조직에서 수백 년 동안 반복된 문제들임. AI가 더 강력해질수록 이 패턴들의 영향 범위와 속도가 커질 뿐.

Alignment 연구는 결국 "AI를 길들이는 것"이 아니라, "AI가 진짜 좋은 판단을 할 수 있게 하는 것"에 가까운 문제임. 그리고 그게 왜 어려운지는, 인간 조직을 보면 이미 알 수 있음.


참고 문헌

  • Ziegler et al. (2019) — "Fine-Tuning Language Models from Human Preferences" (RLHF 기초)
  • Hubinger et al. (2019) — "Risks from Learned Optimization" (Deceptive Alignment)
  • Wei et al. (2022) — "Emergent Abilities of Large Language Models"
  • Bai et al. (2022) — "Constitutional AI: Harmlessness from AI Feedback" (Anthropic)
  • Rafailov et al. (2023) — "Direct Preference Optimization" (DPO)
  • Anthropic (2024) — "Scaling Monosemanticity" (Interpretability, SAE)