크라우니 SLM — 딥리서치: 소형 SLM이 좁은 도메인에서 Opus를 상회하는 기법

개요

크라우니 SLM(젯슨오린 엣지) 구현 트랙의 근거 자료. "사이즈는 작지만 좁은 전문 도메인에서 Opus급을 체감 상회"가 어떤 조건에서 사실이고 어디부터 과장인지, 인용 출처로 교차검증한 연구.

따라잡으며 메모리·전력을 압축하는 것이지 정확도로 능가하지 않는다. (2B4T: 비임베딩 0.4GB, 0.028J/tok, 평균 54.19%) — arXiv 2402.17764 / 2504.12285.

Gorilla-7B>GPT-4 API생성, 증류 Qwen2.5-7B>교사 R1 법률분류. 단 큐레이션 데이터+분포내 한정.

도구사용 + 테스트타임 컴퓨트(3B가 MATH/AIME서 405B 상회). 단 최난도·OOD는 대형 우세.

추락. 따라서 "특화 SLM 단독"이 아니라 SLM+RAG+도구+4상 라우팅/폴백 시스템이어야 함.

→ 셀코어 룰엔진 + 모델저장소(인덱스) + 4상 라우터(검색가능=옴).

도구통합 검증=한선씨 VM 실행. 쉬운~중간 난도 한정(Snell 단서). → 결정.한선 + 한선씨 VM.

외부모델이 약해 특화 우위 큼. → 모델저장소(버전관리) + 크라우니코드 학습DB(intent|rpn|코드).

→ 한선씨 삼진VM/ISA729 백엔드 + 모델저장소(삼진 포맷).

BitNet: arXiv 2402.17764, 2504.12285, HF microsoft/bitnet-b1.58-2B-4T
증류: thinkingmachines.ai/blog/on-policy-distillation, arXiv 2505.09388, 2505.17612
RAG/도구: arXiv 2312.10997, 2502.10993, 2305.18752(Gorilla)
테스트타임: arXiv 2408.03314(Snell), 2504.04718(T1), 2501.19306(SETS)
엣지/Orin: arXiv 2506.09554, 2409.00608(TinyAgent), learnopencv vLLM on Jetson
한계: dontpaniclabs(특화모델), arXiv 2301.12726, 2402.01093, 2510.10541(performance inversion)

1단계 학습법 도구의 삼진학습(곱셈0)·셀코어학습(룰=지식)·4상 라우팅(음 이관)은 위 권고 1·2·5와 직접 정합. 다음 구현은 RAG+룰게이팅과 OOD 폴백을 추론서빙에 넣는 것.