← 목록
기타 2026-06-10 3KB 읽기 3분

크라우니 SLM — 딥리서치: 소형 SLM이 좁은 도메인에서 Opus를 상회하는 기법

개요

크라우니 SLM(젯슨오린 엣지) 구현 트랙의 근거 자료. "사이즈는 작지만 좁은 전문 도메인에서 Opus급을 체감 상회"가 어떤 조건에서 사실이고 어디부터 과장인지, 인용 출처로 교차검증한 연구.

핵심 결론 (정직)

  • BitNet b1.58 삼진({-1,0,1}, 1.58비트/param, 곱셈→add/sub)은 동급 풀프리시전을
따라잡으며 메모리·전력을 압축하는 것이지 정확도로 능가하지 않는다. (2B4T: 비임베딩 0.4GB, 0.028J/tok, 평균 54.19%) — arXiv 2402.17764 / 2504.12285.
  • 좁은 도메인 우위는 실재: TinyAgent-1.1B(80.06%)>GPT-4-Turbo(79.08%) 함수호출,
Gorilla-7B>GPT-4 API생성, 증류 Qwen2.5-7B>교사 R1 법률분류. 단 큐레이션 데이터+분포내 한정.
  • 레버는 조합(곱셈적): 온폴리시 증류(RL 1/10 비용) + RAG(검색품질>모델크기) +
도구사용 + 테스트타임 컴퓨트(3B가 MATH/AIME서 405B 상회). 단 최난도·OOD는 대형 우세.
  • 최대 함정 = OOD 붕괴/performance inversion: 분포 벗어나면 무튜닝 베이스라인 이하로
추락. 따라서 "특화 SLM 단독"이 아니라 SLM+RAG+도구+4상 라우팅/폴백 시스템이어야 함.

크라우니 스택 실행 권고 (우선순위)

  1. RAG + 셀코어 룰 게이팅 (최우선): 도메인 코퍼스 벡터인덱스 + 셀코어 룰로 청크 게이팅.
→ 셀코어 룰엔진 + 모델저장소(인덱스) + 4상 라우터(검색가능=옴).
  1. 4상 테스트타임 검증 루프: 다단계 샘플+자기검증을 티/타/옴(도구검증)/음(이관)으로.
도구통합 검증=한선씨 VM 실행. 쉬운~중간 난도 한정(Snell 단서). → 결정.한선 + 한선씨 VM.
  1. 온폴리시 증류 (Opus trace→한선씨 도메인 SLM): 우리 고유과제(한글RPN→ISA729)는
외부모델이 약해 특화 우위 큼. → 모델저장소(버전관리) + 크라우니코드 학습DB(intent|rpn|코드).
  1. 삼진 가중 서빙: 특화 SLM을 b1.58/INT4로 Orin 서빙. add-sub가 한선씨 삼진VM과 정합.
→ 한선씨 삼진VM/ISA729 백엔드 + 모델저장소(삼진 포맷).
  1. OOD 가드 + 폴백 (필수 안전장치): 분포밖이면 프런티어 폴백 = 음(이관). → 4상 라우터 + 분별.

주요 출처

  • BitNet: arXiv 2402.17764, 2504.12285, HF microsoft/bitnet-b1.58-2B-4T
  • 증류: thinkingmachines.ai/blog/on-policy-distillation, arXiv 2505.09388, 2505.17612
  • RAG/도구: arXiv 2312.10997, 2502.10993, 2305.18752(Gorilla)
  • 테스트타임: arXiv 2408.03314(Snell), 2504.04718(T1), 2501.19306(SETS)
  • 엣지/Orin: arXiv 2506.09554, 2409.00608(TinyAgent), learnopencv vLLM on Jetson
  • 한계: dontpaniclabs(특화모델), arXiv 2301.12726, 2402.01093, 2510.10541(performance inversion)

우리 1단계 결과와의 정합

1단계 학습법 도구의 삼진학습(곱셈0)·셀코어학습(룰=지식)·4상 라우팅(음 이관)은 위 권고 1·2·5와 직접 정합. 다음 구현은 RAG+룰게이팅과 OOD 폴백을 추론서빙에 넣는 것.

잔여 이슈

  • 실제 채택 전 한선씨 도메인 자체 벤치 측정 필요(BitNet 효율우위·특화우위는 일부 [추정]).