CLABInsight AnalysisAgent HarnessPlaywrightE2E Test

CLAB 인사이트 분석: AI가 만든 코드는 Playwright 하네스로 확인해야 한다

2026년 6월 20일4분 읽기

NAVER D2의 **「AI 에이전트를 위한 Playwright E2E 테스트 하네스 구축하기」**를 보면서 CLAB 하네스 방향이 꽤 선명해졌다. 핵심은 “AI가 코드를 잘 짜게 하자”가 아니었다. AI가 만든 변경을 어떤 환경에서 검증하게 할 것인가였다.

발표의 출발점도 비슷하다. 에이전트가 Next.js 버전 업그레이드 작업을 끝냈다고 보고했지만, 실제로는 특정 페이지의 뒤로 가기 동작이 깨져 있었다. 모델이 멍청해서라기보다, 확인해야 할 사용자 흐름이 실행 환경 안에 없었던 것이다.

이 사례를 CLAB에 가져오면 하네스의 역할이 바뀐다.

text

AI에게 테스트를 짜라고 시킨다
→ 부족하다

AI가 작업한 뒤 반드시 지나야 하는 검증 경로를 만든다
→ 하네스에 가깝다

하네스는 테스트 파일 묶음이 아니다

이 발표에서 좋았던 지점은 harness engineering을 좁게 보지 않았다는 점이다. 하네스는 모델 가중치 바깥의 모든 실행 조건이다. AGENTS.md, 지침 파일, 도구, 도메인 지식, 위키, lint, 자동화 테스트, E2E 검증까지 전부 포함된다.

CLAB Agent Harness도 같은 방향이어야 한다. repo에 컨벤션 문서를 넣는 것만으로는 부족하다. AI가 작업을 시작할 때 읽는 문서, 작업 범위를 좁히는 task card, 수정 뒤 실행하는 script, PR에 붙이는 evidence가 한 흐름으로 이어져야 한다.

그래서 CLAB 하네스에서 clab-test 같은 명령은 단순 편의 스크립트가 아니다. “AI가 끝났다고 말하기 전에 무엇을 확인해야 하는가”를 고정하는 장치다.

Playwright가 좋은 이유

프론트엔드 작업에서 lint와 build는 필요하지만 충분하지 않다. 타입은 맞고 빌드도 되는데 화면 흐름이 깨지는 경우가 많다. 특히 AI가 만든 변경은 더 그렇다. 코드 diff만 보면 그럴듯한데, 실제 브라우저에서는 다음 문제가 생긴다.

text

- 라우팅은 되지만 뒤로 가기가 깨진다.
- 버튼은 보이지만 클릭 후 상태가 바뀌지 않는다.
- 반응형 화면에서 중요한 영역이 밀린다.
- 콘솔 에러가 뜨지만 작업 보고에는 없다.
- 로그인/권한/빈 상태 같은 실제 흐름은 지나가지 않았다.

Playwright E2E 하네스는 이 빈틈을 줄인다. 사람의 눈으로만 보는 QA를 완전히 대체한다는 뜻은 아니다. 적어도 AI가 손댄 화면을 브라우저에서 열고, 주요 route를 지나고, 콘솔 에러와 스크린샷을 남기는 기본 체계를 만들 수 있다는 뜻이다.

CLAB처럼 member, land, design-system이 나뉜 repo에서는 이게 더 중요하다. AI는 종종 한 영역의 변경을 다른 영역까지 넓혀 잡는다. E2E 하네스가 있으면 “이번 변경이 실제 사용자 흐름에서 어디까지 영향을 줬는지”를 작업 단위마다 남길 수 있다.

CLAB 하네스에 반영할 점

이 자료에서 가져온 CLAB 하네스의 원칙은 네 가지다.

text

1. 작업 완료 조건은 말이 아니라 실행 결과여야 한다.
2. 검증은 lint/build에서 끝나면 안 된다.
3. 화면 작업은 route, viewport, console, screenshot evidence를 남겨야 한다.
4. 실패한 사용자 흐름은 다음 작업의 하네스 규칙으로 흡수해야 한다.

여기서 마지막이 특히 중요하다. 한 번 깨진 흐름을 “다음부터 조심”으로 끝내면 다시 깨진다. 하네스는 실수를 기억하는 방식이어야 한다. 특정 페이지의 뒤로 가기, 모바일 header, 로그인 후 redirect 같은 흐름이 자주 깨진다면 그것을 테스트나 체크리스트로 승격해야 한다.

CLAB에서는 이렇게 읽었다

이 발표를 보고 CLAB 하네스의 목표를 “AI 작업을 편하게 만드는 도구”로만 잡으면 안 된다고 봤다. 더 정확히는 AI가 작업을 끝냈다고 말할 수 있는 조건을 repo 안에 만드는 것이다.

사람이 AI에게 “이 페이지 수정해줘”라고 말하면, 모델은 코드를 바꾸고 요약을 만든다. 하지만 CLAB 하네스는 그 사이에 질문을 하나 더 끼워 넣어야 한다.

text

그 변경이 실제 사용자 흐름에서 확인됐는가?

대답이 없다면 아직 끝난 게 아니다. 이 기준을 세워준다는 점에서 Playwright E2E 하네스 자료는 CLAB Agent Harness의 검증 축을 잡는 데 가장 직접적인 근거가 됐다.

참고문헌

NAVER D2, 「AI 에이전트를 위한 Playwright E2E 테스트 하네스 구축하기」, https://d2.naver.com/helloworld/6811215

CLAB 인사이트 분석: AI가 만든 코드는 Playwright 하네스로 확인해야 한다

CLAB 인사이트 분석: AI가 만든 코드는 Playwright 하네스로 확인해야 한다

하네스는 테스트 파일 묶음이 아니다

Playwright가 좋은 이유

CLAB 하네스에 반영할 점

CLAB에서는 이렇게 읽었다

참고문헌

오케이징에게 물어보기

포스트 목록