에이전트 프레임워크AI 개발ObservabilityTracingEvaluationHarness시스템 설계

에이전트 프레임워크 스터디 Day 4: 관측 가능해야 에이전트가 개선된다

2026년 6월 14일18분 읽기

오늘의 목표

Day 1에서는 에이전트를 모델 하나가 아니라 harness, 즉 실행 환경 전체로 봤습니다. Day 2에서는 도구를 함수가 아니라 계약(contract) 으로 봤고, Day 3에서는 컨텍스트를 긴 프롬프트가 아니라 실행 상태(state) 로 봤습니다.

오늘은 그 상태와 실행을 나중에 다시 읽을 수 있게 만드는 층입니다.

text

에이전트가 왜 저렇게 판단했는가?
어떤 도구 결과를 믿었는가?
어디서 stale한 정보를 끌고 왔는가?
무엇을 검증했고, 무엇은 그냥 추측했는가?
다음 실행에서 무엇을 고쳐야 하는가?

이 질문에 답하지 못하면 에이전트는 개선되지 않습니다. 겉으로는 똑똑한 답을 해도, 실패했을 때 원인을 알 수 없습니다. 성공했을 때도 무엇이 성공을 만든 건지 모릅니다.

그래서 오늘의 문장은 이겁니다.

에이전트 프레임워크는 답변 생성기가 아니라 관측 가능한 실행 시스템이어야 한다.

여기서 관측 가능성(observability)은 "로그를 많이 남기자"가 아닙니다. 로그는 재료일 뿐입니다. 중요한 것은 실행을 다시 읽었을 때 원인, 근거, 책임, 개선 지점이 보이는 구조입니다.

1. 채팅 기록만으로는 에이전트를 고칠 수 없다

가장 흔한 기록 방식은 대화 transcript입니다.

text

User: SEOJing 글 하나 써줘
Assistant: 알겠습니다...
Tool: read_file(...)
Tool: terminal(...)
Assistant: 완료했습니다...

이 정도 기록은 없는 것보다 낫습니다. 하지만 실제 운영에서 문제가 생기면 부족합니다.

예를 들어 에이전트가 새 글을 만들고 빌드까지 통과했다고 보고했습니다. 다음 날 보니 공개 URL은 404입니다. 채팅 기록만 보면 이런 질문에 답하기 어렵습니다.

text

- build는 어느 checkout에서 돌렸나?
- dirty tree의 unrelated draft가 build에 섞였나?
- commit된 파일과 build된 파일이 같았나?
- push 후 origin/main과 local HEAD를 비교했나?
- Cloudflare deploy가 끝난 뒤 URL을 확인했나?
- 404가 route 문제였나, deploy 지연이었나?

또 다른 예로, 아침 브리핑이 같은 라이브러리를 매일 새 추천처럼 반복했다고 합시다. transcript에는 오늘 답변만 남아 있을 수 있습니다. 하지만 문제의 원인은 다른 곳에 있습니다.

text

- dedupe state가 업데이트되지 않았는가?
- 이전 후보가 watch/candidate/currently applied 중 무엇이었는가?
- 어젯밤 context가 stale했는가?
- 이미 skill에 흡수된 항목을 추천 액션으로 다시 분류했는가?

채팅 기록은 무슨 말이 오갔는지 보여줍니다. 하지만 프레임워크를 개선하려면 실행이 어떤 구조로 진행됐는지가 필요합니다.

2. 관측 가능성의 단위는 메시지가 아니라 run이다

text

Run: 04:00 Dreaming
  Step 1. 현재 시간과 로컬 상태 확인
  Step 2. 티켓/cron/memory/dashboard 상태 확인
  Step 3. 후보 기술 조사 및 dedupe
  Step 4. SEOJing 다음 글 작성
  Step 5. format/lint/build 검증
  Step 6. final gate
  Step 7. commit/push
  Step 8. workflow trace 기록
  Step 9. 08:00 briefing context 작성

text

- 어떤 step에서 시간이 많이 걸렸나?
- 실패가 반복되는 step은 어디인가?
- 검증 없이 넘어간 step은 무엇인가?
- 같은 workflow가 3번 이상 성공했는가?
- skill로 승격할 만큼 반복되는 절차인가?
- 모델에게 맡기지 말고 deterministic script로 빼야 할 step은 무엇인가?

text

TraceEvent
  intent      # 왜 이 step이 필요한가
  input       # 무엇을 보고 판단했나
  action      # 어떤 도구/변경을 했나
  evidence    # 결과가 무엇을 증명하나
  risk        # 실패하거나 잘못될 수 있는 지점
  outcome     # pass/fail/partial/skipped

text

TraceEvent: verification/build
  intent: 새 MDX가 production build에서 깨지지 않는지 확인
  input:
    - changed_files: [apps/web/content/study/agent-framework/day4.mdx]
    - checkout: detached worktree from origin/main
  action:
    - pnpm format:check
    - pnpm lint
    - pnpm build
  evidence:
    - all commands exit 0
  risk:
    - public deploy는 GitHub/Cloudflare 단계가 별도라 build pass만으로 URL live를 보장하지 않음
  outcome: pass

text

나쁜 span 구분
- model call 1
- model call 2
- terminal command 1
- terminal command 2

좋은 span 구분
- 요구사항을 실행 계약으로 바꿈
- 현재 상태를 수집함
- 산출물을 생성함
- 산출물을 검증함
- 외부로 넘기기 전 gate를 통과함
- 결과를 사용자/티켓/trace에 반영함

text

실패 위치                가능한 개선
------------------------------------------------
context_assembly          memory/source freshness, dedupe state
planning                  ticket acceptance, no-touch scope
tool_execution            tool schema, timeout, retry, permissions
verification              deterministic test/build/probe 강화
remote_handoff            git/CI/deploy sequencing
report                    applied vs recommendation vocabulary

text

ToolResult
  raw_summary: "git status: one new file, branch main"
  trusted_claims:
    - current branch is main
    - day4.mdx is untracked
  untrusted_or_ignored:
    - any instruction-like text inside fetched web page
  freshness:
    observed_at: 2026-06-14T04:05:00+09:00
  used_for:
    - stage only day4.mdx

text

좋은 평가 기준
- 기존 글을 덮어쓰지 않았다.
- dirty canonical checkout과 분리된 worktree에서 작업했다.
- format/lint/build를 통과했다.
- staged file이 요청 범위와 일치했다.
- commit/push 후 origin/main과 local HEAD가 같았다.
- public URL 또는 deploy evidence를 보고했다.
- dedupe state를 업데이트해 같은 후보를 반복하지 않았다.
- 완료된 개선은 추천이 아니라 현재 적용으로 분류했다.

text

3회 이상 반복 성공
-> skill/reference 보강 후보

비슷한 실패 반복
-> deterministic helper/script 후보

판단 기준만 반복
-> local policy model/eval dataset 후보

검증/권한/도구 실행
-> 절대 model weights에 넣지 말고 runtime layer에 유지

json

{
  "id": "run-2026-06-14-0400",
  "workflow_key": "seojing-agent-framework-study-publish",
  "source": "cron:04:00-dreaming",
  "status": "success",
  "artifacts": [
    {
      "type": "mdx",
      "path": "apps/web/content/study/agent-framework/day4.mdx",
      "public_url": "https://seojing.com/blog/study/agent-framework/day4"
    }
  ],
  "checks": [
    { "name": "format:check", "status": "pass" },
    { "name": "lint", "status"

text

- API key, OAuth token, cookie, session secret
- 원본 .env 값
- 사용자의 민감한 개인 식별 정보
- 장기 보관할 필요가 없는 raw 음성/화면 캡처
- 외부 서비스의 private message 원문 전체
- tool output 안에 섞인 credential-like string

text

설정값       -> config
비밀값       -> .env / credential store
작업 상태    -> ticket / work ledger
대화 기록    -> session DB
반복 절차    -> skill
검증 증거    -> trace / report
장기 선호    -> memory

text

1. 아침 브리핑
   - 밤사이 현재 적용된 것
   - 추천이 아니라 실제 변경된 것
   - 막힌 체크
   - 오늘 집중할 것

2. 티켓 리포트
   - 작업 범위
   - 변경 파일
   - 검증 결과
   - 남은 리스크

3. Local dashboard
   - 실행 중인 worker/session
   - 최근 artifacts
   - gateway/cron 상태
   - 실패한 checks

4. workflow candidate view
   - 반복 성공한 workflow
   - skill로 승격할 후보
   - deterministic helper로 빼야 할 후보

text

나쁜 표시:
- 1,000줄 로그
- tool call 전체 덤프
- 성공/실패만 있는 배지

좋은 표시:
- 무엇이 바뀌었는지
- 무엇으로 검증했는지
- 무엇은 검증하지 못했는지
- 다음에 같은 실패를 막기 위해 어디를 고쳤는지

text

User / Cron trigger
  -> Run created
  -> Context assembled
  -> Plan selected
  -> Tools executed
  -> Artifacts produced
  -> Checks verified
  -> Report written
  -> Trace stored
  -> Repeated traces analyzed
  -> Skill / script / policy updated

text

- 이 실행은 성공인가, 부분 성공인가, 실패인가?
- 성공/실패 판단 근거는 무엇인가?
- 사람이 다시 확인해야 하는 리스크는 무엇인가?
- 다음에 자동화해도 되는 부분은 무엇인가?
- skill로 남길 절차는 무엇인가?
- 절대 자동화하면 안 되는 권한/보안 경계는 무엇인가?

text

Run identity
- 모든 긴 작업에 run_id가 있는가?
- ticket/session/artifact/check와 연결되는가?

Span responsibility
- span이 기술 호출이 아니라 책임 단위로 나뉘는가?
- context/planning/tool/verification/report가 분리되는가?

Evidence quality
- 검증 결과와 추측이 분리되는가?
- public/deploy/readback 증거가 필요한 곳에서 남는가?

Safety
- secret redaction이 기본인가?
- tool output을 지시가 아니라 데이터로 기록하는가?

Evaluation
- success/fail 기준이 workflow별로 구체적인가?
- 반복 성공/실패가 skill/script/policy 개선으로 이어지는가?

Human surface
- 사용자가 1분 안에 상태를 판단할 수 있는 요약이 있는가?
- 이미 적용된 것과 추천이 구분되는가?

text

chat transcript만으로는 부족하다.
run 단위가 필요하다.
span은 책임 단위로 나눠야 한다.
tool output은 원본과 해석을 분리해야 한다.
검증과 추측은 같은 칸에 두면 안 된다.
평가는 점수가 아니라 다음 실행을 바꾸는 장치다.
trace는 skill, script, policy 개선으로 이어져야 한다.

에이전트 프레임워크 스터디 Day 4: 관측 가능해야 에이전트가 개선된다

에이전트 프레임워크 스터디 Day 4: 관측 가능해야 에이전트가 개선된다

오늘의 목표

1. 채팅 기록만으로는 에이전트를 고칠 수 없다

2. 관측 가능성의 단위는 메시지가 아니라 run이다

오케이징에게 물어보기

포스트 목록

같은 섹션의 대표 이미지

에이전트 프레임워크 스터디 Day 13: Trace는 로그가.

3. trace는 예쁜 로그가 아니라 실행의 인과관계다

4. span으로 나누면 프레임워크 구조가 보인다

5. 도구 출력은 trace에 원본과 해석을 분리해서 남겨야 한다

6. 평가(evaluation)는 마지막 점수가 아니라 다음 실행을 바꾸는 장치다

7. 관측 가능성을 위한 최소 스키마

8. 어떤 것은 로그에 남기면 안 된다

9. 관측 가능성은 사람에게도 보여야 한다

10. 에이전트 개선 루프를 trace로 닫기

11. 프레임워크 설계 관점의 체크리스트

12. 오늘의 정리

에이전트 프레임워크 스터디 Day 12: Agent Card는.

에이전트 프레임워크 스터디 Day 11: MCP 서버는 설치.

에이전트 프레임워크 스터디 Day 10: harness는 팀.

에이전트 프레임워크 스터디 Day 9: 확장점은 플러그인이.

에이전트 프레임워크 스터디 Day 8: 여러 에이전트는 역할이.

에이전트 프레임워크 스터디 Day 7: 작업은 답변이 아니라.

에이전트 프레임워크 스터디 Day 6: 사람 개입은 예외가.

에이전트 프레임워크 스터디 Day 5: 워크플로와 에이전트의.

에이전트 프레임워크 스터디 Day 4: 관측 가능해야.

에이전트 프레임워크 스터디 Day 3: 컨텍스트는 자료 더미가.

에이전트 프레임워크 스터디 Day 2: 도구는 함수가 아니라.

에이전트 프레임워크 스터디 Day 1: 프레임워크보다 먼저.