post

간단한 local llm bench(ollama, qwen3.5)

M1 MAX 64GB 놀리지 말고 AI 돌려서 일시키세요! ( 죠큼 느리긴 합니다..., 기다리다 숨 넘어갈 정도... )

가지고 있는 장비의 성능이 꽤 좋(았었)~~습니다.~~
하지만 게임도 하지 않고, 사용 빈도도 많지 않아 썩히고만 있었는데,
로컬 모델 돌려서 일을 좀 시켜봤습니다.

RUNNER: Ollama
TOOL: PI.DEV (Also tried claude code cli, opencode cli, continue.dev-intellij plugin
Models: qwen3.5 coding variants

뭐 결론은 제 환경에서는
시간은 오래 걸리더라도 만족할 만한 결과를 만드려면
27b-coding + pi.dev / continue.dev
그래도 좀 빨라야 한다 싶으면 35b-a3b-coding + pi.dev / continue.dev 였습니다.
27b는 일 잘하는데 너무 오래 걸리고,
35b는 빨리 하는데 결과가 안좋고
그렇습니다.

뭐 27b는 dense 모델, 35b는 MoE 모델 어쩌고 저쩌고...,

AI 활용이라도 잘 하고 싶은데 그것도 힘드네요.

claude, opencode 이런 놈들은 시스템 프롬프트가 커서...,
첫타임에 느리다고 하고, 아마 캐싱이 되서 그 이후에는 속도가 나와줘야 할 것 같은데...,
계속 너무 느려서요.
kv cache invalidation fix도 적용해봤던거 같긴 한데...,
시켜 놓은 일 마무리하고 다시 테스트 해봐야겠습니다.

아래 모델들은, 일반 qwen3.5는 ollama 사이트에서,
Qwopus는 허깅페이스 Jackrong좌거를 받아서 테스트 했습니다.

ollama run {model_name} --verbose
이후에 대충 긴 텍스트 던져주면 아래처럼 정보가 나오더라구요.

1. qwen3.5:27b-coding-nvfp4

total duration: 23m45.109646125s
load duration: 65.875625ms
prompt eval count: 13677 token(s)
prompt eval duration: 2m34.89660175s
prompt eval rate: 88.30 tokens/s
eval count: 17541 token(s)
eval duration: 21m10.138075542s
eval rate: 13.81 tokens/s

2. qwen3.5:27b-coding-mxfp8

total duration: 7m38.934077292s
load duration: 67.869542ms
prompt eval count: 1686 token(s)
prompt eval duration: 19.185989708s
prompt eval rate: 87.88 tokens/s
eval count: 4540 token(s)
eval duration: 7m19.677098666s
eval rate: 10.33 tokens/s

3. qwen3.5:35b-a3b-coding-nvfp4

total duration: 2m13.311448875s
load duration: 60.206875ms
prompt eval count: 2702 token(s)
prompt eval duration: 4.723935292s
prompt eval rate: 571.98 tokens/s
eval count: 6294 token(s)
eval duration: 2m8.523932292s
eval rate: 48.97 tokens/s

4. qwen3.5:35b-a3b-coding-mxfp8

total duration: 1m47.913993708s
load duration: 49.572916ms
prompt eval count: 633 token(s)
prompt eval duration: 2.894925875s
prompt eval rate: 218.66 tokens/s
eval count: 4597 token(s)
eval duration: 1m44.967681791s
eval rate: 43.79 tokens/s

4. Qwopus3.5-27b-v3-gguf:q4_k_m

total duration: 2m54.13538025s
load duration: 116.329584ms
prompt eval count: 1685 token(s)
prompt eval duration: 16.234109084s
prompt eval rate: 103.79 tokens/s
eval count: 1312 token(s)
eval duration: 2m37.33010485s
eval rate: 8.34 tokens/s

5. Qwopus3.5-27b-v3-gguf:q8_0

total duration: 7m20.6596345s
load duration: 119.58775ms
prompt eval count: 633 token(s)
prompt eval duration: 5.378580667s
prompt eval rate: 117.69 tokens/s
eval count: 3407 token(s)
eval duration: 7m14.053560239s
eval rate: 7.85 tokens/s

Spring Boot development works in Zed now

If you use Zed and open a Java project, you hit the same wall every time. Java itself is fine thanks to the official Java extension — but nothing knows about Spring. application.yml is just text. Autocomplete doesn't fire inside @Value("${...}"). A typo in the JPQL

Zed에서도 Spring Boot 개발이 됩니다

Zed를 쓰다가 Java/Spring 프로젝트를 열면 늘 같은 벽에 부딪힙니다. 공식 Java 익스텐션 덕분에 Java 자체는 잘 되는데, Spring은 아무것도 모릅니다. application.yml은 그냥 텍스트고, @Value("${...}") 안에서는 자동완성이 안 되고, @Query 안의 JPQL은 오타를 내도 조용합니다. 결국 Spring 작업만 IntelliJ나 VS Code로 넘어가게 됩니다. 그래서 Zed Spring Tools

Right-click a table, get a Mermaid ERD — introducing erdMaid

Every time I needed an ERD for a doc, I was doing the same thing. Open the table schema in DataGrip, transcribe column names and types one by one, trace foreign keys by eye, and hand-write ||--o{ for every relationship. With five tables that's tolerable. With forty

DB 테이블을 우클릭 한 번으로 Mermaid ERD로 — erdMaid 플러그인을 만들었습니다

문서에 넣을 ERD가 필요할 때마다 같은 일을 반복하고 있었습니다. DataGrip에서 테이블 스키마를 열어놓고, 컬럼 이름과 타입을 하나씩 옮겨 적고, FK 관계를 눈으로 따라가며 ||--o{ 를 손으로 그리는 일이요. 테이블이 다섯 개면 참을 만합니다. 마흔 개면 참을 수 없습니다. 그래서 erdMaid 를 만들었습니다. IntelliJ 계열 IDE의 Database 도구 창에서 테이블을 선택하고