LogoSEO Jing
  • All Posts
  • SEO Jing
  • okayJing
  • KD Team
  • CLab CoreTeam
  • Study

Contact Me

© 2026 SEOJing. All rights reserved.

okayJingmemorylocal-llmevaluationreranking

로컬 LLM worker를 믿기 전에 — summary, classification, reranking 평가 기준

2026년 6월 14일·5분 읽기

0. 로컬 모델을 붙이면 자동으로 똑똑해질까

맥미니에 저장공간과 local inference 여지가 생기면서 자연스럽게 다음 질문이 생겼다. memory warehouse에 local LLM worker를 붙이면 오케이징이 더 똑똑해지지 않을까. summary를 만들고, 문서를 분류하고, 검색 결과를 reranking하면 작업 시작 품질이 좋아질 것처럼 보였다.

그런데 여기서 바로 worker를 믿으면 위험하다. local model이 만든 요약은 그럴듯할 수 있지만, 그럴듯함이 곧 정확함은 아니다. 특히 memory에서 틀린 요약은 일반적인 답변 오류보다 더 오래 남는다. 한 번 잘못 들어간 summary가 다음 context pack의 재료가 되고, 그 다음 작업의 판단 근거가 될 수 있다.


1. 먼저 맡길 일과 맡기면 안 되는 일을 나눈다

local LLM worker에게 처음부터 모든 판단을 맡기면 안 된다. 먼저 deterministic하게 확인할 수 있는 일과, 모델의 보조 판단이 필요한 일을 나눠야 한다.

작업local LLM에 맡길 수 있는가기준
파일 존재, 경로, git 상태아니오도구 결과가 권위다
source chunk 검색보조 가능FTS/path boost가 먼저다
긴 로그 요약가능source_id와 누락 여부 확인 필요
문서 주제 분류가능사람이 만든 label set이 있어야 한다

포스트 목록

/okayJing/memory
파일 10개, 폴더 0개
작업 시작 전에 기억을 먼저 조회한다 — hermes-memory CLI를 붙인 이유기억은 요약이 아니라 증거여야 했다 — local-first Hermes memory를 만든 이유로컬 LLM worker를 믿기 전에 — summary, classification, reranking 평가 기준맥미니 M4 2TB를 산 이유 — 오케이징의 기억은 디스크에서 시작한다Honcho를 다시 검토할 때 — 오케이징의 장기 기억을 어디에 둘 것인가기억이 skill을 자동으로 고치면 안 되는 이유오케이징의 기억은 하나가 아니다 — memory, ticket, session_search의 역할 분담context pack은 요약본이 아니다 — 오케이징 기억에 source_id를 붙인 이유오래된 기억을 어떻게 믿을 것인가 — stale-check와 promotion queue 기준벡터 검색을 지금 붙이지 않는 이유 — FTS와 source discipline 이후의 순서
검색 결과 reranking가능top-k recall을 떨어뜨리면 실패다
memory 승격/삭제단독 불가promotion/review gate가 필요하다

이 표에서 핵심은 모델의 위치다. local LLM은 권위가 아니라 정렬과 압축을 돕는 worker다. 권위는 여전히 source file, transcript, tool output, build result에 있다.


2. summary 평가는 누락을 먼저 본다

summary worker를 평가할 때 흔한 실수는 문장이 자연스러운지만 보는 것이다. 하지만 memory summary에서 더 중요한 것은 누락이다. 핵심 경로, 명령, 실패 원인, 사용자의 결정이 빠지면 문장이 아무리 자연스러워도 쓸모가 없다.

그래서 summary 평가 기준은 이렇게 둔다.
  1. source_id / chunk_id로 원문에 돌아갈 수 있는가?
  2. 작업 재개에 필요한 파일 경로와 명령이 남아 있는가?
  3. 결정과 근거가 같이 남아 있는가?
  4. 불확실한 내용을 확정처럼 쓰지 않았는가?
  5. 요약만 보고 source를 생략하게 만들 정도로 과신을 유도하지 않는가?

좋은 요약은 원문을 대체하지 않는다. 원문으로 돌아가는 길을 짧게 만든다. 이 기준이 없으면 summary는 retrieval aid가 아니라 hallucination cache가 된다.


3. classification은 label set이 먼저다

classification도 마찬가지다. 모델에게 "이 문서가 무슨 내용인지 분류해줘"라고 던지는 것은 쉽지만, label set이 없으면 결과가 매번 흔들린다. 오늘은 workflow, 내일은 ops, 모레는 automation이라고 부르면 검색과 통계가 오히려 지저분해진다.

그래서 local worker를 붙이기 전에 먼저 오케이징의 label set을 작게 잡아야 한다. 예를 들면 memory, workflow, automation, discord, voice, architecture, study, career, academic 정도다. worker는 이 label set 안에서만 고르게 하고, 애매하면 needs_review로 보내는 편이 낫다.


4. reranking은 recall을 망치면 실패다

reranking은 특히 조심해야 한다. 검색 결과를 더 예쁘게 정렬하는 대신, 중요한 source를 아래로 밀어버릴 수 있다. 오케이징 memory에서는 "그럴듯한 문서"보다 "실제로 작업에 필요한 문서"가 더 중요하다.

그래서 reranking 평가에서는 top-1의 자연스러움보다 top-k recall을 먼저 본다. 예를 들어 SEOJing build workflow를 찾는 query라면 package.json, turbo.json, 관련 skill reference가 후보 안에 살아 있어야 한다. 모델이 블로그 글만 위로 올리고 실제 script를 밀어내면 실패다.


5. 이번에 얻은 기준

local LLM worker는 오케이징을 더 빠르게 만들 수 있다. 하지만 memory의 권위를 모델에게 넘기는 순간 구조가 약해진다. 지금 단계에서 worker가 할 일은 source를 대체하는 것이 아니라 source에 더 빨리 도달하게 만드는 것이다.

그래서 먼저 평가 기준을 세운다. summary는 누락을 본다. classification은 label set을 먼저 둔다. reranking은 recall을 지켜야 한다. 이 세 가지를 통과하기 전까지 local LLM worker는 자동 판단자가 아니라 draft worker로만 둔다.