유튜브 보다가 기록해 놓은 건데, 대충 보세요 대충~
워낙 자주 바뀌고, 중요한 것처럼 보여도 별로 중요하지 않을 수도 있습니다
용어가 생겼을 뿐 원래 하고 있던 것들이니까요
잡지 보듯이 대충~ 쓱 봐야 됩니다
저도 대충 기록해 놓은 것 클로드한테 다시 맡겨서 적었거든요 ㅎ
하네스 엔지니어링: AI가 구조적으로 실수하지 못하게 만드는 법
AI 에이전트, 같은 실수를 반복한다. 한 번 고쳐도 다음 세션엔 또 똑같이 틀린다. 이걸 해결하려는 시도 → 하네스 엔지니어링
배경
- 프롬프트 엔지니어링 → 컨텍스트 엔지니어링 순으로 발전
- MCP, 스킬 등 도구가 쏟아지면서 새 문제 발생
- AI가 어디까지 해야 하는지, 뭘 하면 안 되는지 흐려짐
- 결론: AI가 일하는 환경 자체를 설계해야 한다
하네스(harness) = 모델 자체가 아닌 모델을 둘러싼 모든 것
→ MCP, 스킬, 훅, .md 파일들
→ Claude Code 쓰고 있다면 이미 하네스를 쓰는 중
핵심 문제 2가지
1. 컨텍스트 부패
- AI가 한 세션에 처리할 수 있는 양은 제한적
- 컨텍스트가 절반쯤 차면 → 구현 중단 or 조기 완료 선언
- 넘치면서 일이 엉키는 현상 = 컨텍스트 부패
2. 규칙과 울타리의 부재
- 해도 되는 것 / 안 되는 것이 불명확
- 알아서 선을 넘거나, 멈춰야 할 때 못 멈춤
하네스의 3가지 기둥
1. 컨텍스트 파일 (claude.md, agents.md)
- 매 세션 시작 시 AI가 읽는 기본 설정
- 상세하게 ❌ → 보편적 원칙만 ✅
- 세부 규칙은 별도 파일로 분리 후 참조
- 실수할 때마다 한 줄씩 추가 → 처음부터 완벽할 필요 없음
2. 자동 강제 시스템
- 린터, 프리커밋 훅, 자동 교정 루프
- 철학: 성공은 조용히, 실패는 시끄럽게
- 규칙 어기면 즉각 피드백, 올바르면 그냥 통과
3. 가비지 컬렉션
- AI가 남긴 임시 코드, 우회 코드를 주기적으로 청소하는 에이전트
- 방치하면 쌓여서 다시 컨텍스트 오염
실제 사례
- LangChain 팀: 모델 교체 없이 하네스만 개선 → 벤치마크 성능 크게 향상
- Claude Code 운영 팀들:
claude.md에 컨벤션·금지 패턴 정리 + 프리커밋 훅 적용 후 리뷰 사이클 감소 - 모델 업그레이드보다 하네스 정비가 더 즉각적인 효과
하네스는 점점 정교해진다
- 실수할 때마다 규칙 하나씩 추가 → 유기적으로 성장
- 지금 당장 간단하게 시작해도 됨
역설: 모델이 똑똑해질수록 하네스는 단순해져야 한다
- 모델 능력 ↑ → 세세한 통제 필요 ↓ → 핵심 경계만 유지
미래
- AI가 스스로 자신의 하네스를 설계·개선하는 방향으로 진화
- 잘 만든 하네스 = 팀·서비스의 표준 템플릿