간단한 local llm bench(ollama, qwen3.5)

M1 MAX 64GB 놀리지 말고 AI 돌려서 일시키세요! ( 죠큼 느리긴 합니다..., 기다리다 숨 넘어갈 정도... )

가지고 있는 장비의 성능이 꽤 (았었)습니다.
하지만 게임도 하지 않고, 사용 빈도도 많지 않아 썩히고만 있었는데,
로컬 모델 돌려서 일을 좀 시켜봤습니다.

RUNNER: Ollama
TOOL: PI.DEV (Also tried claude code cli, opencode cli, continue.dev-intellij plugin
Models: qwen3.5 coding variants

뭐 결론은 제 환경에서는
시간은 오래 걸리더라도 만족할 만한 결과를 만드려면
27b-coding + pi.dev / continue.dev
그래도 좀 빨라야 한다 싶으면 35b-a3b-coding + pi.dev / continue.dev 였습니다.
27b는 일 잘하는데 너무 오래 걸리고,
35b는 빨리 하는데 결과가 안좋고
그렇습니다.

뭐 27b는 dense 모델, 35b는 MoE 모델 어쩌고 저쩌고...,

AI 활용이라도 잘 하고 싶은데 그것도 힘드네요.

claude, opencode 이런 놈들은 시스템 프롬프트가 커서...,
첫타임에 느리다고 하고, 아마 캐싱이 되서 그 이후에는 속도가 나와줘야 할 것 같은데...,
계속 너무 느려서요.
kv cache invalidation fix도 적용해봤던거 같긴 한데...,
시켜 놓은 일 마무리하고 다시 테스트 해봐야겠습니다.

아래 모델들은, 일반 qwen3.5는 ollama 사이트에서,
Qwopus는 허깅페이스 Jackrong좌거를 받아서 테스트 했습니다.

ollama run {model_name} --verbose
이후에 대충 긴 텍스트 던져주면 아래처럼 정보가 나오더라구요.

1. qwen3.5:27b-coding-nvfp4

total duration: 23m45.109646125s
load duration: 65.875625ms
prompt eval count: 13677 token(s)
prompt eval duration: 2m34.89660175s
prompt eval rate: 88.30 tokens/s
eval count: 17541 token(s)
eval duration: 21m10.138075542s
eval rate: 13.81 tokens/s

2. qwen3.5:27b-coding-mxfp8

total duration: 7m38.934077292s
load duration: 67.869542ms
prompt eval count: 1686 token(s)
prompt eval duration: 19.185989708s
prompt eval rate: 87.88 tokens/s
eval count: 4540 token(s)
eval duration: 7m19.677098666s
eval rate: 10.33 tokens/s

3. qwen3.5:35b-a3b-coding-nvfp4

total duration: 2m13.311448875s
load duration: 60.206875ms
prompt eval count: 2702 token(s)
prompt eval duration: 4.723935292s
prompt eval rate: 571.98 tokens/s
eval count: 6294 token(s)
eval duration: 2m8.523932292s
eval rate: 48.97 tokens/s

4. qwen3.5:35b-a3b-coding-mxfp8

total duration: 1m47.913993708s
load duration: 49.572916ms
prompt eval count: 633 token(s)
prompt eval duration: 2.894925875s
prompt eval rate: 218.66 tokens/s
eval count: 4597 token(s)
eval duration: 1m44.967681791s
eval rate: 43.79 tokens/s

4. Qwopus3.5-27b-v3-gguf:q4_k_m

total duration: 2m54.13538025s
load duration: 116.329584ms
prompt eval count: 1685 token(s)
prompt eval duration: 16.234109084s
prompt eval rate: 103.79 tokens/s
eval count: 1312 token(s)
eval duration: 2m37.33010485s
eval rate: 8.34 tokens/s

5. Qwopus3.5-27b-v3-gguf:q8_0

total duration: 7m20.6596345s
load duration: 119.58775ms
prompt eval count: 633 token(s)
prompt eval duration: 5.378580667s
prompt eval rate: 117.69 tokens/s
eval count: 3407 token(s)
eval duration: 7m14.053560239s
eval rate: 7.85 tokens/s