유튜브 보다가 기록해 놓은 건데, 대충 보세요 대충~
워낙 자주 바뀌고, 중요한 것처럼 보여도 별로 중요하지 않을 수도 있습니다
용어가 생겼을 뿐 원래 하고 있던 것들이니까요
잡지 보듯이 대충~ 쓱 봐야 됩니다
저도 대충 기록해 놓은 것 클로드한테 다시 맡겨서 적었거든요 ㅎ


하네스 엔지니어링: AI가 구조적으로 실수하지 못하게 만드는 법

AI 에이전트, 같은 실수를 반복한다. 한 번 고쳐도 다음 세션엔 또 똑같이 틀린다. 이걸 해결하려는 시도 → 하네스 엔지니어링


배경

  • 프롬프트 엔지니어링 → 컨텍스트 엔지니어링 순으로 발전
  • MCP, 스킬 등 도구가 쏟아지면서 새 문제 발생
    • AI가 어디까지 해야 하는지, 뭘 하면 안 되는지 흐려짐
  • 결론: AI가 일하는 환경 자체를 설계해야 한다

하네스(harness) = 모델 자체가 아닌 모델을 둘러싼 모든 것 → MCP, 스킬, 훅, .md 파일들 → Claude Code 쓰고 있다면 이미 하네스를 쓰는 중


핵심 문제 2가지

1. 컨텍스트 부패

  • AI가 한 세션에 처리할 수 있는 양은 제한적
  • 컨텍스트가 절반쯤 차면 → 구현 중단 or 조기 완료 선언
  • 넘치면서 일이 엉키는 현상 = 컨텍스트 부패

2. 규칙과 울타리의 부재

  • 해도 되는 것 / 안 되는 것이 불명확
  • 알아서 선을 넘거나, 멈춰야 할 때 못 멈춤

하네스의 3가지 기둥

1. 컨텍스트 파일 (claude.md, agents.md)

  • 매 세션 시작 시 AI가 읽는 기본 설정
  • 상세하게 ❌ → 보편적 원칙만 ✅
  • 세부 규칙은 별도 파일로 분리 후 참조
  • 실수할 때마다 한 줄씩 추가 → 처음부터 완벽할 필요 없음

2. 자동 강제 시스템

  • 린터, 프리커밋 훅, 자동 교정 루프
  • 철학: 성공은 조용히, 실패는 시끄럽게
  • 규칙 어기면 즉각 피드백, 올바르면 그냥 통과

3. 가비지 컬렉션

  • AI가 남긴 임시 코드, 우회 코드를 주기적으로 청소하는 에이전트
  • 방치하면 쌓여서 다시 컨텍스트 오염

실제 사례

  • LangChain 팀: 모델 교체 없이 하네스만 개선 → 벤치마크 성능 크게 향상
  • Claude Code 운영 팀들: claude.md에 컨벤션·금지 패턴 정리 + 프리커밋 훅 적용 후 리뷰 사이클 감소
  • 모델 업그레이드보다 하네스 정비가 더 즉각적인 효과

하네스는 점점 정교해진다

  • 실수할 때마다 규칙 하나씩 추가 → 유기적으로 성장
  • 지금 당장 간단하게 시작해도 됨

역설: 모델이 똑똑해질수록 하네스는 단순해져야 한다

  • 모델 능력 ↑ → 세세한 통제 필요 ↓ → 핵심 경계만 유지

미래

  • AI가 스스로 자신의 하네스를 설계·개선하는 방향으로 진화
  • 잘 만든 하네스 = 팀·서비스의 표준 템플릿