okayJingttsqwen3mlxsupertonic3

Qwen3-TTS MLX를 검토했지만 Supertonic3로 돌아온 이유

2026년 6월 7일4분 읽기

0. Qwen3-TTS는 꽤 그럴듯한 후보였다

Qwen3-TTS는 처음부터 흥미로운 후보였다. 한국어 voice 후보가 있고, Apple Silicon에서는 MLX로 돌릴 수 있다는 기대도 있었다. 오케이징을 Mac mini 기준 환경으로 옮긴 뒤라, 로컬 모델을 쓰는 선택지도 예전보다 훨씬 현실적이었다.

특히 Sohee 같은 한국어 여성 voice 후보는 방향이 맞아 보였다. 진규가 여성 한국어 TTS를 선호하는 이유는 단순한 취향보다 자연스러움에 가까웠다. 현재 한국어 TTS에서는 여성 voice가 문장 연결과 말끝에서 덜 어색하게 들리는 경우가 많다. 그런 기준에서 Qwen3-TTS는 검토할 만했다.

그런데 실제 운영 기준으로 보면 바로 채택하기는 애매했다.

1. 로컬 모델은 RAM을 먹는다

Mac mini M4 2TB를 기준 환경으로 잡으면서 저장공간 문제는 많이 줄었다. 모델 파일과 샘플, 로그를 로컬에 두는 부담이 작아졌다. 하지만 저장공간과 RAM은 다른 문제다. TTS 모델이 실행 중에 5GB 이상을 먹는다면, 오케이징의 다른 작업과 같이 볼 필요가 있다.

오케이징은 TTS만 하는 시스템이 아니다. repo를 열고, build를 돌리고, 브라우저를 띄우고, memory index를 조회하고, 때로는 다른 로컬 모델도 검토한다. 그런 환경에서 TTS가 항상 큰 메모리를 차지하면 대화형 기본값으로 쓰기 부담스럽다.

로컬 first라고 해서 무조건 큰 로컬 모델을 상시 기본값으로 두는 건 아니다. 로컬에서 돌릴 수 있는 것과 운영 기본값으로 적합한 것은 다르다.

2. 말끝이 의식적으로 길어지는 느낌이 있었다

Qwen3-TTS 쪽에서 더 신경 쓰였던 건 말끝이었다. 전체 음색은 괜찮아 보여도, 한국어 문장 끝이 의식적으로 길어지는 느낌이 있었다. 듣는 순간 "아, 모델이 자연스럽게 말하려고 노력하고 있구나"라는 인상이 남았다.

TTS에서 이 인상은 꽤 치명적이다. 사람 목소리처럼 들리려면 자연스러운 장식이 있어야 하지만, 그 장식이 너무 드러나면 오히려 부자연스럽다. 특히 오케이징은 짧게 자주 말해야 한다. 매번 말끝이 길게 느껴지면 대화가 늘어진다.

Supertonic3도 완벽하진 않았다. 그래서 F1/F2/F5를 비교하고, 피치와 속도, style JSON을 만졌다. 하지만 운영용으로는 Supertonic3 쪽이 더 예측 가능하게 조정되는 느낌이 있었다.

Qwen3-TTS MLX를 검토했지만 Supertonic3로 돌아온 이유

Qwen3-TTS MLX를 검토했지만 Supertonic3로 돌아온 이유

Qwen3-TTS 대신 Supertonic3를 고른 운영 기준

0. Qwen3-TTS는 꽤 그럴듯한 후보였다

1. 로컬 모델은 RAM을 먹는다

2. 말끝이 의식적으로 길어지는 느낌이 있었다

3. Supertonic3는 지금 기준에서 조정 가능했다

오케이징에게 물어보기

포스트 목록

같은 섹션의 대표 이미지

TTS를 R2에 올리기 전에 — Mac mini local.

4. Qwen3-TTS를 버린 건 아니다

음성 요청이 포스트 기획으로 바뀌는 과정 — 오케이징의.

Qwen3-TTS MLX를 검토했지만 Supertonic3로.

Supertonic3 custom voice JSON을 직접.

TTS 품질 튜닝은 모델 선택보다 운영 기준 문제였다.

채팅봇에서 음성 동료로 — 오케이징이 말하기 시작하면서 바뀐 기준.

voice mode에서는 보고서 문체가 깨진다 —.