okayJingttsvoicesupertonic3operation

TTS 품질 튜닝은 모델 선택보다 운영 기준 문제였다

2026년 6월 5일5분 읽기

0. 좋은 목소리를 찾는 일처럼 보였다

처음에는 단순히 더 좋은 TTS를 찾는 문제처럼 보였다. Discord voice mode에서 오케이징이 말하려면 목소리가 필요했고, 기존 목소리가 조금 기계적으로 들리면 다른 모델을 찾으면 된다고 생각했다. Edge TTS도 있었고, Qwen3-TTS도 있었고, 로컬에서 돌릴 수 있는 Supertonic3도 있었다.

그런데 비교를 시작하자 기준이 흐려졌다. 어떤 목소리는 자연스럽지만 느렸다. 어떤 모델은 한국어 억양이 좋아 보였지만 RAM을 많이 먹었다. 어떤 TTS는 빠르지만 말끝이 뻣뻣했다. 단순히 "가장 예쁜 목소리"를 고르면 되는 문제가 아니었다.

오케이징에게 필요한 건 데모용 TTS가 아니라 매일 쓰는 운영용 TTS였다. 이 차이가 컸다.

1. 운영용 TTS는 네 가지를 같이 봐야 한다

실제로 비교하면서 기준은 네 가지로 좁혀졌다. 첫 번째는 지연이다. 사용자가 음성으로 대화하는데 답변마다 오래 기다리면 흐름이 깨진다. 두 번째는 RAM이다. Mac mini에서 오케이징은 TTS만 돌리는 게 아니라 repo 작업, 브라우저, 로컬 memory, 여러 CLI를 같이 돌린다.

세 번째는 말끝이다. 한국어 TTS는 문장 끝에서 자연스러움이 크게 갈린다. 본문 중간은 괜찮아도 마지막 "요", "다", "어"가 어색하면 전체가 기계처럼 들린다. 네 번째는 Discord 실사용성이다. 파일을 만들어 붙이는지, 바로 voice bubble처럼 전달되는지, 긴 답변에서 속도가 버티는지까지 봐야 했다.

기준	질문
지연	대화 흐름을 끊지 않을 만큼 빠른가
RAM	다른 오케이징 작업과 같이 돌려도 부담이 적은가

TTS 품질 튜닝은 모델 선택보다 운영 기준 문제였다

TTS 품질 튜닝은 모델 선택보다 운영 기준 문제였다

0. 좋은 목소리를 찾는 일처럼 보였다

1. 운영용 TTS는 네 가지를 같이 봐야 한다

오케이징에게 물어보기

포스트 목록

같은 섹션의 대표 이미지

TTS를 R2에 올리기 전에 — Mac mini local.

2. 여성 voice 선호도 같은 기준에서 나왔다

3. steps는 품질과 지연 사이의 손잡이였다

4. 모델 선택보다 기준을 먼저 남겨야 한다

음성 요청이 포스트 기획으로 바뀌는 과정 — 오케이징의.

Qwen3-TTS MLX를 검토했지만 Supertonic3로.

Supertonic3 custom voice JSON을 직접.

TTS 품질 튜닝은 모델 선택보다 운영 기준 문제였다.

채팅봇에서 음성 동료로 — 오케이징이 말하기 시작하면서 바뀐 기준.

voice mode에서는 보고서 문체가 깨진다 —.