에이전트 프레임워크ObservabilityTraceWorkflowEvaluation시스템 설계

에이전트 프레임워크 스터디 Day 13: Trace는 로그가 아니라 다음 실행을 바꾸는 증거 사슬이다

2026년 6월 23일20분 읽기

예상 읽기 시간: 20~30분

오늘의 목표

Day 12에서는 Agent Card를 에이전트 소개문이 아니라 실행 가능한 경계선으로 봤습니다. 어떤 일을 맡길 수 있는지, 입력과 산출물은 무엇인지, 어떤 권한과 실패 모드를 갖는지 적어야 다른 런타임이 책임을 넘길 수 있다는 이야기였습니다.

오늘은 그 다음 질문입니다.

text

책임을 넘겼다.
작업이 끝났다고 한다.
그런데 우리는 무엇을 보고 믿을 수 있을까?

여기서 필요한 것이 trace입니다. 다만 trace를 단순 로그로 보면 부족합니다. 로그는 “무슨 일이 있었는지”를 남깁니다. 에이전트 프레임워크에서 trace는 한 단계 더 나아가야 합니다.

Trace는 실행 기록이 아니라, 다음 실행을 바꾸기 위해 보존되는 증거 사슬이다.

오늘 글은 LangSmith, OpenTelemetry, OpenAI tracing 같은 제품을 비교하는 글이 아닙니다. 직접 에이전트 프레임워크를 만든다고 생각하고, trace가 어떤 정보를 어떤 모양으로 남겨야 실제로 신뢰와 개선에 쓰이는지 역으로 뜯어봅니다.

1. 로그가 있어도 에이전트를 믿기 어려운 이유

일반적인 서버 로그는 대략 이렇게 생깁니다.

text

04:00 job started
04:01 fetched repo
04:04 generated file
04:06 build passed
04:07 pushed commit

이 정도만 있어도 사람이 대충 흐름을 읽을 수 있습니다. 하지만 에이전트 작업에서는 중요한 질문이 더 많습니다.

text

사용자가 실제로 무엇을 요청했나?
그 요청에서 어떤 성공 기준을 뽑았나?
어떤 파일을 읽고 어떤 파일은 건드리지 않았나?
도구 출력 중 어떤 부분을 근거로 삼았나?
실패한 명령은 있었나?
실패를 어떻게 해석했나?
검증은 실제로 실행됐나, 아니면 말로만 통과했다고 했나?
최종 보고는 검증 결과와 일치하나?
이번 실행에서 다음에 재사용할 만한 절차가 생겼나?

콘솔 로그만 있으면 이 질문에 답하기 어렵습니다. 특히 에이전트는 자연어 판단과 도구 실행이 섞입니다. 사람이 보기에는 “작업 완료”처럼 보이지만, 실제로는 이런 빈틈이 생길 수 있습니다.

text

- 파일은 썼지만 build를 돌리지 않음
- build는 돌렸지만 다른 디렉터리에서 돌림
- 테스트 실패를 unrelated로 판단했지만 근거가 없음
- 외부 리뷰가 High issue를 냈는데 최종 보고에서 빠짐
- 세션 안에서는 맥락이 있었지만 다음 세션이 이어받을 증거가 없음

그래서 에이전트용 trace는 단순 stdout 모음이 아니라, 판단 가능한 실행 사슬이어야 합니다.

2. Trace의 최소 단위는 “이벤트”가 아니라 “판단 가능한 전환”이다

text

도구 호출 전 상태:
- 어떤 가정이 있었나?
- 어떤 파일/리소스를 확인해야 했나?
- 어떤 위험이 있었나?

도구 호출 후 상태:
- 무엇이 사실로 확인됐나?
- 무엇이 틀렸나?
- 다음 행동이 어떻게 바뀌었나?

text

event: verification_command
command: pnpm build
scope: SEOJing web app
reason: new MDX route and content tree generation must compile
exit_code: 0
result: pass
state_change:
  before: post written but route/build unverified
  after: local production build verified

text

사용자 요청:
- 04:00 run에서 agent-framework study post를 실제로 작성하고 push한다.
- backend series는 Day 12로 제한한다.
- LMS는 방학 중이므로 크롤링하지 않는다.
- 새 기술은 중복 상태를 갱신하고 반복 노출하지 않는다.

json

{
  "workflow_key": "seojing-agent-framework-study-publish",
  "outcome": "success",
  "scope": {
    "repo": "SEOJing",
    "branch": "main",
    "files": ["apps/web/content/study/agent-framework/day13.mdx"]
  },
  "verification": {
    "format": "pass",
    "lint": "pass",
    "build": "pass",
    "public_route": "pass"
  },
  "lessons": [
    "dirty canonical checkout requires isolated origin/main worktree",

text

draft file
  -> reviewer가 읽을 입력

build log
  -> 실패 원인 분류의 입력

public URL
  -> 배포 검증의 입력

ticket report
  -> 다음 세션 handoff의 입력

workflow trace
  -> skill/eval 후보 판단의 입력

text

- 04:00 publish가 몇 번 성공했나?
- 실패는 주로 install, lint, route probe, public deploy 중 어디서 났나?
- 어떤 workflow는 이미 skill로 승격할 만큼 반복됐나?
- 어떤 report style이 8AM briefing에서 중복을 줄였나?

text

memory:
- 오래 유지되는 사용자 선호
- 환경의 안정적 사실
- 반복적으로 필요한 규칙

trace:
- 특정 실행의 입력/출력/검증
- 특정 날짜의 실패/성공
- artifact와 로그
- 다음 개선 후보

text

SEOJing scheduled publish는 canonical checkout이 dirty면 origin/main worktree에서 한다.
content-only MDX publish에서 OCR이 unsupported_ext면 content review gate로 대체한다.
새 글은 cover/inline visual suitability step을 명시적으로 보고한다.

text

failure_point:
- discovery
- tool execution
- dependency install
- verification
- external service
- permission/auth
- report/delivery

recoverability:
- retried and succeeded
- blocked on user/browser auth
- safe to retry later
- requires code/config change

blast_radius:
- no file changed
- local draft changed only
- committed but not pushed
- external side effect happened

text

User Request
  -> Planner / Goal Interpreter
  -> Context Builder
  -> Tool Dispatcher
  -> Artifact Store
  -> Verification Gate
  -> Reporter
  -> Memory/Skill Candidate Extractor

           Trace Layer
  records: intent, evidence, actions, artifacts, verification, outcome

text

이 보고서의 “pass”는 어떤 command result에서 왔나?
이 ticket done은 어떤 artifact를 근거로 했나?
이 memory write는 어떤 반복 trace에서 승격됐나?
이 external publish는 어떤 standing approval 아래 실행됐나?

text

- sessions: 대화 흐름
- hermes-ticket: 작업 상태와 결과 보고
- cron output: scheduled run 결과
- work-ledger: spoke 계약과 artifact pointer
- git history: 코드/콘텐츠 변경
- workflow traces: 반복 workflow 후보
- skills: 검증된 절차의 압축본

text

1. 중요한 workflow마다 source_ref를 남긴다.
2. 결과 보고에 실제 검증 command를 붙인다.
3. 반복 성공/실패를 workflow trace로 기록한다.
4. trace가 쌓이면 skill/reference/eval로 승격한다.
5. memory에는 오래갈 규칙만 남긴다.

text

run_publish_workflow(task):
  trace.start(workflow_key="seojing-agent-framework-study-publish")

  trace.record_intent(task.standing_approval)

  repo_state = git.status()
  trace.record_source("repo_state", repo_state)

  if repo_state.has_unrelated_changes:
    worktree = create_worktree("origin/main")
    trace.record_decision("use isolated worktree", reason="protect unrelated local work")

  next_day = inspect_existing_posts()
  trace.record_source("latest_post", next_day - 1)

  draft = write_mdx(next_day)
  trace.record_artifact("draft", draft.path)

  visual = run_visual_suitability_check(draft)
  trace.record_decision("visual", visual.status)

  checks = run(["prettier", "format:check", "lint", "build"])
  trace.record_verification(checks)

  if checks.pass:
    commit = git.commit(scope=draft.files)
    push = git.push("origin", "HEAD:main")
    trace.record_artifact("commit", commit.id)
    trace.record_external_effect("push", push.status)
  else:
    trace.fail(classification="verification_failure")
    return

  route = probe_public_url(next_day)
  trace.record_verification("public_route", route.status)

  trace.finish(outcome="success")

text

로그:
- 어떤 일이 있었는지 보여준다.

trace:
- 왜 그 일이 필요했는지
- 무엇을 근거로 판단했는지
- 어떤 산출물이 생겼는지
- 검증은 실제로 무엇을 증명했는지
- 다음 실행 규칙이 어떻게 바뀌어야 하는지 보여준다.

에이전트 프레임워크 스터디 Day 13: Trace는 로그가 아니라 다음 실행을 바꾸는 증거 사슬이다

에이전트 프레임워크 스터디 Day 13: Trace는 로그가 아니라 다음 실행을 바꾸는 증거 사슬이다

오늘의 목표

1. 로그가 있어도 에이전트를 믿기 어려운 이유

2. Trace의 최소 단위는 “이벤트”가 아니라 “판단 가능한 전환”이다

오케이징에게 물어보기

포스트 목록

같은 섹션의 대표 이미지