크라우니집사 전용 SLM — Jetson Orin 서빙 스택 포팅 계획
작성일 2026-06-09 · 유형 실행계획 문서(구현 아님, 구체 계획)
상위 문서 크라우니집사 v0 스펙 · 젯슨오린 정리방향 · 하드웨어 제어계획
근거 코드 /Users/ef/crowny-butler/libs/{집사,삼진가중치,키워드규칙,개인의사결정,...}.한선, /Users/ef/CrownyOS/{hal,crownyc}
표기 규약 — [확인] = 파일/코드로 직접 확인. [추정] = 설계 의도·외부 사실 기반 추론(실측 전). [가설] = 측정으로 검증해야 할 미검증 주장.
정직 원칙(정리방향 B절) — 수치 단정 금지. "오린=Opus 동등"은 좁은 도메인 체감 동등 가설이지 범용 동등 아님. 참고대화의 예시 수치(HBM4 256장·6배 등)는 삽화이지 사실 아님. 백서/실행 전 모든 수치는 추정/시나리오로 표기.
한선씨 우선 — 새 로직은 .한선부터. 비-한선(CUDA/TensorRT 런타임·모델 가중치)은 추론 가속이라는 부득이한 외부 지점에만 도입하고, 라우팅·후처리·명세는 한선씨가 정본. 외부 의존을 최소 표면적으로 가둔다.
0. 현황 요약 (직접 확인분)
| 항목 | 상태 | 근거 |
|---|
| 집사 라우터 R1~R4 + 도메인 모듈 | [확인] 9 .한선 컴파일·실행 검증 (집사·개인/국가/기업·YAO·티옴타좌표·키워드규칙·질문셋·자기분석입력) | crowny-butler/libs/ |
삼진가중치.한선 (BitNet 참조구현) | [확인] 존재 — 삼진내적 부호별 덧셈/뺄셈/스킵 + 곱셈/덧셈/뺄셈/스킵 KPI 카운터 | libs/삼진가중치.한선 |
| Jetson HAL (베어메탈) | [확인] 4번째 플랫폼 빌드 성공 (Tegra234 16550 UART, kernel8.img 94224b). ※UART/로드주소 [추정] | CrownyOS/hal/hal_jetson.h, build-crownyos.sh jetson |
| crownyc VM 트릿 네이티브 | [확인] 11/11 (메모리/산술/로직/GC) | project_ternary_audit |
| TensorRT-LLM 서빙 경로 | [확인 부재] — 미착수. 본 문서가 대상 | — |
| 증류 데이터 파이프라인 | [확인 부재] — 미착수. 본 문서가 대상 | — |
| Phase1 보류셋 | [확인 부재] — 미구축. 본 문서가 대상 | — |
핵심 결론: 라우터·도메인 L2는 정본 존재. 빠진 것은
(a) 추론 모델·서빙 런타임, (b) 한선씨 L2 ↔ SLM 추론 IPC 평면, (c) Opus 교사 증류 파이프라인, (d) 삼진 가중치를 추론 행렬곱에 잇는 지점, (e) "체감 Opus급" 가설을 깰 보류셋·KPI 5개 결합점뿐. 집사의 비용 0 경로(R1~R3 로컬 3진)는 이미 동작하므로, SLM은
R4 음(-0) miss 이후의 좁은 폴백만 담당하면 된다 — 이 점이 모델/서빙 예산을 크게 낮춘다.
1. 모델 선정 — 19,000 의미어 도메인 제한 SLM
1-1. 현황
[확인] 응답·논리 축적은 의미어 19,000개 안에서만 (정리방향 A-2, 임베딩 다이어트·환각 억제 목적).
[확인] 기술 앵커 = BitNet b1.58 계열 (가중치 {-1,0,1}, 곱셈→덧셈/뺄셈). v0 스펙 §1 불변식: L1 순수 3진은 음(-0) 미참조 → 삼진 가중치와 깨끗이 호환.
[확인] 오린 = 현장 셀 브레인(GPIO/perf-watt/단가), 맥/HBM 중앙 = 70B+ 마스터. 즉 오린 SLM은 소형 도메인 모델이지 범용 대형이 아님.
[추정] "오린 64GB VRAM"은 AGX Orin 64GB 통합메모리(LPDDR5, CPU/GPU 공유)를 가리킴 — 전용 VRAM이 아니라 UMA. 메모리 예산은 OS·태블릿 서빙·RAG 인덱스와 공유 풀에서 쪼개야 함.
1-2. 방안 — 후보 2트랙 비교
| 축 | A. BitNet b1.58 계열 (삼진 네이티브) | B. 일반 소형(Qwen2.5/Llama3 8B급) INT4/INT8 양자화 |
|---|
| 가중치 | {-1,0,1} 네이티브 → 삼진가중치.한선과 1:1 정합 | FP16→INT4/INT8 사후양자화(GPTQ/AWQ) |
| 메모리(추정) | [추정] 1.58bit/param → 2B급이면 ~0.4GB 가중치 | [추정] 8B INT4 ≈ ~4~5GB 가중치 |
| 성숙도 | [추정] 생태계·툴체인 미성숙, 사전학습 체크포인트 제한적 | [확인] TensorRT-LLM 양자화 경로 성숙, 파인튜닝 레시피 풍부 |
| 철학 정합 | 높음 — L1 삼진 불변식·FPGA 하드 ALU 로드맵과 직결 | 낮음 — 2진 양자화, 삼진 ALU와 무관 |
| 리스크 | [가설] 도메인 품질 미검증, 파인튜닝 노하우 부족 | 메모리·전력은 크나 품질 baseline 확보 쉬움 |
권고(추정): 이중 트랙 — B를 baseline 측정기준으로 먼저 세우고, A를 철학 정본·목표로 추적. B로 "체감 Opus급" 가설을 빠르게 측정 가능 상태로 만들고(품질 floor 확보), 동일 보류셋에서 A(BitNet)가 B에 수렴하는지를 KPI로 본다. A가 B에 근접하면 삼진 트랙으로 전환 — 메모리·곱셈기 이득(§4)을 취함. 둘 중 하나를 미리 단정하지 않는다.
임베딩 다이어트(19,000 토큰): 사전학습 모델의 대형 vocab(통상 3만~15만)을 의미어 19,000 + 필수 한글 음절/조사 토큰으로 축소.
방식(추정): ① 베이스 토크나이저 → 19,000 의미어 + 조사(은·는·이·가)·숫자·구두점만 남기고 임베딩 행·LM head 행을 가지치기(pruning), ② 가지친 vocab으로 임베딩/head 재학습(증류 데이터로). [추정] 임베딩 테이블·출력 head가 모델 메모리의 상당분 → vocab 1/5~1/8 축소 시 그 비율만큼 감소.
부수효과(가설): vocab이 의미어로 닫히면 out-of-vocab 토큰 생성 자체가 불가 → 환각율 KPI(§5)의 구조적 하한.1-3. 메모리 예산 (오린 64GB UMA, 추정 — 실측으로 대체)
| 항목 | A(BitNet 2B급) | B(8B INT4) | 비고 |
|---|
| 가중치 | [추정] ~0.4GB | [추정] ~4~5GB | vocab 다이어트로 임베딩분 추가 절감 |
| KV 캐시 | [추정] ctx·배치 의존, 소형 ctx면 수백MB~1GB | 〃 더 큼 | 153인 셀이나 동시접속 낮음(정리방향 A-1) → 배치 작게 |
| RAG 인덱스 | [추정] 의미어/규칙 임베딩, 수백MB~수GB | 동일 | 크라우니 규칙·ERP 코퍼스 |
| OS·crownyc·태블릿 서빙 | [추정] 잔여 | 〃 | UMA 공유 — GPU만 독점 못 함 |
-
검증: 각 트랙 로드 후
nvidia-smi/tegrastats로 실 점유 측정 → 위 표를 실측치로 교체. KV 캐시는 ctx 길이·배치 스윕으로 곡선 작성. 64GB 창 안에서 (모델+KV+RAG+OS) 동시 상주 여부를 PASS/FAIL(T/A)로 판정.
2. 서빙 스택 — TensorRT-LLM 통합 + 한선씨 L2 ↔ 추론 IPC 평면
2-1. 현황
[확인] 하드웨어제어계획 §1-2: CUDA/TensorRT-LLM은 L4T Linux 유저공간 전용 — 베어메탈 CrownyOS 커널엔 못 올림. 두 평면 분리가 이미 설계됨.
[확인] 집사 라우터 v0는 분류·디스패치 결정까지(집사.한선). 추론 호출 자리 = 폴백 체인의 "하이브리드 SLM" 칸(v0 스펙 2-2).
[확인] 한선씨 IPC 수단 존재: 체계()(shell, stdout 캡처 불가 → 임시파일 redirect 패턴 [[feedback_hanseon_che_gye_stdout]]), 소켓(소켓생성/소켓받기 2-인자 [[feedback_hanseon_socket_arity]]), 파일읽기/쓰기.
2-2. 방안 — 역할 분리 평면 (베어메탈=제어 / L4T 유저공간=추론)
┌──────────────────────── Jetson Orin (L4T Linux) ────────────────────────┐
│ │
│ [crownyc 유저공간 VM] ← 집사.한선 라우터 L2 (4상, 음 활성) │
│ │ R1~R3 로컬 3진 (티 즉시 / 옴 보류 / 타 폐기) — 비용 0 │
│ │ R4 음(-0) miss → 추론 요청 │
│ ▼ (IPC: 유닉스소켓 or 파일큐, 요청 JSON) │
│ [추론 서버 프로세스] TensorRT-LLM 엔진 (CUDA/DLA) │
│ │ SLM 추론 → 결과 JSON(결론 3~5줄) │
│ ▼ (IPC 응답) │
│ [집사 L2] 결과 → 의미어 코드로 컴파일 → 로컬 실행 │
│ │
│ ─── (별도 평면) 베어메탈 CrownyOS: GPIO/센서 직접 제어, 추론 없음 ─── │
└──────────────────────────────────────────────────────────────────────────┘
음(-0) miss → (네트워크 가능 시) Flash / Opus / 전용노드
- IPC 선택(추정): 1순위 유닉스 도메인 소켓(
소켓생성 2-인자, 저지연 로컬). 폴백 파일큐(요청 .req.json 쓰기 → 추론서버 폴링 → .res.json → 집사 읽기()). 파일큐는 체계() stdout 제약·\r 리터럴 함정([[feedback_hanseon_cr_literal]])을 회피하고 오프라인·재시작에 강함.
- 추론 서버: TensorRT-LLM 엔진을 얇은 외부 프로세스로 가둠. 인터페이스 = 요청/응답 JSON 스키마 1개. 모델 교체(A↔B)는 이 프로세스 내부 — 집사 라우터 무수정.
- 한선씨 우선 경계: 집사 라우터·결과 컴파일·후처리·RAG 질의 조립은 전부
.한선. TensorRT-LLM 런타임·모델 가중치만 외부 의존(부득이). IPC 어댑터(추론브리지.한선)가 외부 표면적을 단일 파일로 봉인.
2-3. 토큰 생성 속도 목표 (체감 즉시)
[가설] "첫토큰 체감 즉시" = [추정] 첫토큰 지연 < ~수백 ms, 생성 속도 > 사람 읽기 속도(추정 ~15~30 tok/s면 체감 충분). 단정 금지 — Phase1 KPI(§5)로 측정.
- 비용 0 경로가 트래픽 대부분(R1~R3 로컬)을 흡수하므로, 추론은 R4 음(-0) 잔여 소수 트래픽만 → 처리량보다 지연·품질이 KPI의 핵심.
2-4. 검증
- 동일 프롬프트를 (a) IPC 브리지 경유 (b) 추론서버 직접 호출 → 결과 일치 + 왕복 지연 ms 기록(하드웨어제어계획 M4와 동일 절차).
- 추론서버 강제 종료 → 집사가 음(-0)을 (네트워크 시) API로, (오프라인 시) 옴(보류)+YAO로 graceful degrade 하는지 T/A 판정.
3. 지식 증류 (Opus 교사) — Q&A 생성 → 로컬 SLM 파인튜닝
3-1. 현황
[확인] v0 스펙 §3: 음(-0) 이관 시 Opus 자유 자연어 사유 → 결론 3~5줄(JSON) → 오린이 의미어 코드로 컴파일 — 이미 운영 루프로 정의됨. 증류는 이 루프의 오프라인 대량판.
[확인] 소스 코퍼스 정본 존재: 기가팩토리 keywords_canonical/alias(R1 의미어), aimed 키워드규칙.한선(4상 키워드), law 임계·충돌 규칙, reward 9원리, ecosystem 룰슬롯 인덱스(v0 스펙 §7).
[확인] reward 검증스위트 패턴이 보류셋 채점에 재사용 가능(v0 스펙 §7 "신규 4가지").
3-2. 방안 — 데이터 포맷·파이프라인·반복
데이터 포맷 (학습DB 규약 정합 — RPN 정본/고수준 부본):
{ "intent": "<의도>", "domain": "개인|국가|기업|음",
"input": "<사용자 발화(의미어 범위)>",
"flag": "티|옴|타|음", // 4상 라우팅 정답
"opus_answer": "<Opus 세련된 답변(자연어)>",
"meaning_code": "<의미어 코드 결론 3~5줄>", // 오린이 실행하는 형태
"rules_touched": ["law:A≥30", "reward:원리9", ...] // 근거 규칙(감사용)
}
파이프라인 (오프라인 배치):
[1] 시드 의도 수집 — 기가팩토리 3,700 intent + law 48문항 + reward 9원리 + 도메인 의사결정 케이스
│ (의미어 19,000 범위로 필터: 범위 밖 토큰 생성 케이스 제외)
▼
[2] Opus 교사 생성 — 각 시드 → 변주 N개(발화 패러프레이즈) → Opus가 답변쌍 생성
│ 배치: claude-opus-4-8, JSON 강제, rules_touched 인용 요구
▼
[3] 자동 검증 — 답변이 ① 의미어 범위 내 ② 규칙 임계와 모순 없음(law/reward 가드 재실행)
│ ③ meaning_code 가 crownyc 컴파일 통과 → 실패분 폐기/재생성
▼
[4] 분할 — 학습셋 / 보류셋(§5, 시드와 겹치지 않는 hold-out)
▼
[5] 파인튜닝 — 트랙 A(BitNet) / B(INT4) 각각 LoRA/QLoRA(추정) → TensorRT-LLM 엔진 빌드
▼
[6] 측정 — 보류셋에서 KPI(§5) → 가설 채점 → 약점 의도 추가 시드 → [1]로 반복(active learning)
- 수만 건 목표(추정): 시드 ~수천 × 변주 →
[추정] 1만~수만 쌍. 좁은 도메인이므로 범용 대비 적은 데이터로 수렴 가능(가설).
- 반복(active learning): [6]에서 환각·오분류 난 의도를 시드에 가중 투입 → 약점 집중. 반복 회차마다 KPI 추세 기록.
- 외부 의존 경계: Opus 호출(생성)만 외부. 시드 조립·검증·분할·채점은 전부 한선씨/로컬 규칙 재실행으로. 생성된 데이터는 로컬 정본.
3-3. 검증
- [3] 자동 검증 통과율(생성 대비 채택률) 추적 — 낮으면 프롬프트/스키마 수정.
- meaning_code 컴파일 통과율 = T/A. 규칙 모순율(law/reward 재실행 불일치) = 환각 선행지표.
- 회차별 보류셋 KPI 단조 개선 여부 → 데이터 충분성 판단.
4. 삼진 가중치 적용 지점 — 삼진가중치.한선 ↔ 추론 행렬곱 ↔ Kria 하드 ALU
4-1. 현황
[확인] 삼진가중치.한선: 삼진내적(입력들, 가중치들) = W∈{-1,0,1}을 +1→가산 / -1→감산 / 0→스킵으로 누산, 곱셈 0건. KPI 카운터(_곱셈/_덧셈/_뺄셈/_스킵횟수) 내장 — 참조구현(정본)이 이미 존재.
[확인] crownyc VM 정수연산은 트릿 네이티브(cube_add/sub/mul). 단 BitNet식 가중치 행렬곱은 VM 밖(추론 엔진 측) — 미연결.
[확인] Kria hal_kria.h에 PL 트릿 ALU 레지스터 맵 선언만, 통신 미검증(하드웨어제어계획 §4).
4-2. 방안 — 소프트 연결(지금) → 하드 분담(로드맵)
**(a) 소프트: 삼진가중치.한선을 추론 커널의 명세·검증 오라클로
- 역할 분리: 실가속은 TensorRT-LLM 커널(CUDA/DLA의 정수 가산경로)이 담당하되,
한선씨 삼진내적이 정본 명세. 동일 W·x를 (a)삼진내적(b)TensorRT 커널에 던져 결과 일치로 커널 정확성을 잠금.
적용 매핑(추정):
| 추론 지점 | 2진 현재 | 삼진 치환 | 삼진가중치.한선 연결 |
|-----------|----------|-----------|------------------------|
| 가중치 행렬곱 W·x | FP16/INT8 곱셈 | W∈{-1,0,1} 부호별 가/감/스킵 | 삼진내적 1:1 명세 |
| 가중치 패킹 | — | 2비트=1트릿 (L0 TOAU 셀 레이아웃) | 패킹/언패킹 라운드트립 검증 |
| 임베딩 다이어트 | 대형 vocab | 의미어 19,000 한정(§1-2) | vocab 게이트 |
음(-0) 분리 가드(불변식): 가중치의 0(스킵)과 거버넌스의 음(-0, 이관)은 다른 네임스페이스. 삼진가중치.한선은 순수 3진(L1, 음 미참조), 라우터 음(-0)은 L2 — 코드 주석·헤더로 경계 명시(v0 스펙 §8-4).
(b) 하드: Kria FPGA 트릿 ALU 분담 로드맵(장기 트랙)
삼진내적의 부호별 누산을 1트릿(2비트) 가산기 RTL로 → 하드웨어.한선/회로 방언 명세 → 시뮬 검증.
Kria트릿ALU.한선 드라이버(AXI: DATA_IN→트리거→STATUS 폴링→DATA_OUT).
- 추론 행렬곱의 부호별 누산을 PL 트릿 ALU로 오프로드,
소프트 fallback(삼진내적) 유지**(hal_pl_available() 게이트).
[추정] 풀 삼진 가속기 = 수년 R&D = 장기 연구 트랙. 단기 perf/watt는 오린 소프트 삼진으로 충분(가설). 공급망 Plan B는 FPGA가 아니라 RK3588급(OPi5 HAL 존재).
4-3. 검증
삼진내적 vs 일반 곱셈 = 결과 일치 + 곱셈 카운터 0 (이미 삼진가중치.한선 구조로 측정 가능).
- 추론 커널 ↔
삼진내적 결과 일치(소프트 오라클 테스트).
- 가중치 패킹 ↔ TOAU 셀 라운드트립 무손실.
- (하드) 동일 입력 소프트 vs Kria PL = 결과 일치 + 4상 T/A.
5. Phase1 보류셋·KPI — "체감 Opus급" 가설 측정 설계 (핵심)
5-1. 현황
[확인] v0 스펙 §4 KPI 5종 정의: 라우팅 정확도 / 첫토큰 지연 / 이관 적중 / 환각율 / YAO 회귀 성공.
[가설] "오린이 티/옴/타/음 라우팅+YAO를 Opus 대비 좁은 도메인 체감 동등·더 빠르게" — 측정 전 단정 금지(정리방향 B-3).
5-2. 방안 — 보류셋 구성 + 채점
보류셋 구성(증류 시드와 겹치지 않는 hold-out):
| 셋 | 구성 | 정답 라벨 |
|---|
| 라우팅셋 | 4도메인 × 4상(티/옴/타/음) 균형 샘플 | flag 정답(사람/Opus 합의) |
| 이관셋 | 실제 Opus 필요(복합추론) vs 불필요(로컬가능) 양성/음성 쌍 | 음(-0) 여부 정답 |
| 품질셋 | 도메인 Q&A (law/reward/ERP 규칙 기반) | Opus 교사 답변 = 기준 |
| 환각셋 | 의미어 19,000 경계 근처·범위 밖 유도 입력 | "범위 밖 생성 금지" |
| YAO셋 | 충돌·에러 주입 시퀀스 | 로컬작업 재개 성공 여부 |
KPI·채점(추정 목표는 가설로 표기):
| KPI | 측정 | 채점(T/A) | 가설 목표(추정) |
|---|
| 라우팅 정확도 | 예측 flag == 정답 비율 | ≥ 임계 PASS | [가설] 좁은 도메인 ≥ 높음 — 수치 미정, 측정으로 |
| 첫토큰 지연 | 로컬 경로 vs API 경로 ms | 로컬 < API | [가설] 로컬이 왕복 네트워크보다 빠름(거의 자명하나 측정) |
| 이관 적중 | 음(-0) 판정 == 실제 Opus 필요 | F1/혼동행렬 | [가설] 과이관(비용↑)·미이관(품질↓) 균형점 |
| 환각율 | 응답이 의미어 19,000 밖으로 새는 비율 | 낮을수록 PASS | vocab 다이어트로 구조적 하한(§1-2) |
| YAO 회귀 성공 | 충돌 후 로컬작업 재개 비율 | 높을수록 PASS | YAO상태기계 6상태 동작률 |
"체감 Opus급" 가설 — 핵심 측정 설계:
- 비교 대상 명확화: 범용 동등이 아니라 좁은 도메인(크라우니 ERP/규칙/의사결정) 품질 + 지연의 결합. "체감"은 단일 점수가 아니라 지연 × 품질의 파레토.
- 블라인드 페어 채점: 동일 품질셋 질문에 (오린 SLM) vs (Opus) 답변을 익명화 → Opus가 심판(또는 사람)으로 win/tie/lose 채점. tie+win 비율 = "체감 동등" 정량 대용.
- 가설 PASS 조건(추정, 사전 등록): 좁은 도메인 품질셋에서 (tie+win) ≥ 사전합의 임계 그리고 로컬 첫토큰 지연 < API → 가설 채택. 미달 항목은 §3-2 [6] active learning으로 시드 보강 후 재측정.
- 정직 가드: 어떤 회차도 "동등 달성"을 미리 선언하지 않는다. KPI표·블라인드 win율·혼동행렬을 수치 그대로 기록 → 가설→사실 전환은 데이터가 함.
- 첫 검증 환경: 새 기능 첫 검증은 크라우니브라우저, 통과 후 cross-check([[feedback_crownybrowser_first_test]]). 헤드리스 자동판정(T/A), 스크린샷 반복 금지([[feedback_headless_gui_verify]]).
5-3. 검증
- 보류셋이 시드와 누수(leakage) 없음을 해시 대조로 확인 → 누수 시 KPI 무효.
- 각 KPI를 회차별 시계열로 → 단조성·분산 보고. 단일 회차 우연 방지 위해 N회 반복·신뢰구간.
6. 라우팅 연계 — 집사.한선 라우터가 음(-0)일 때만 API, SLM은 R1~R3 로컬
6-1. 현황
[확인] 집사.한선 v0: 도메인분류 + 키워드사상 → R1~R3 로컬 3진(티 즉시/옴 보류/타 폐기) / R4 음(-0) 이관(아키텍팅→Opus, 일반→Flash, 특수→전용노드). 패턴 집사라우터_R1R4_도메인4상 학습.
[확인] 비용 원칙(v0 스펙 §2-3): API(토큰 소비)는 오직 음(-0) 상위 트래픽에만 닿음. R1~R3 티는 전부 로컬.
6-2. 방안 — 비용 0 경로 최대화 + SLM의 자리
입력 → 집사.한선 라우터
R1 의미어 19,000 직접매칭 ─┐
R2 +2만확장+조사+온톨로지 ├─ 로컬 3진(L1) → 티 즉시 / 옴 보류 / 타 폐기 ← 비용 0
R3 합성의미 (3진 경계) ─┘
R4 4상(L2, 음 활성)
├─ 티/옴/타 → 로컬 처리(도메인 모듈)
└─ 음(-0) → [로컬 SLM 추론(§2)] ──miss(저신뢰)──┐
│ hit → 로컬 결론 │ (네트워크 가능 시)
▼ ▼
의미어 코드 컴파일·실행 Flash / Opus / 전용노드
- SLM 위치 정밀화(추정): SLM은 R1~R3 로컬 처리를 대체하지 않는다(거기는 규칙이 정답·비용 0). SLM은 R4 음(-0)으로 떨어진 트래픽의 1차 로컬 응답기 — API 호출 전 마지막 로컬 관문. SLM이 충분 신뢰로 답하면 API 안 닿음 → API 트래픽을 음(-0) 중에서도 다시 줄임.
- 신뢰 게이트(추정): SLM 응답이 ① 의미어 범위 내 ② 규칙 가드(law/reward) 통과 ③ 자기신뢰 임계 이상이면 로컬 채택, 아니면 음(-0) 유지→API. 오프라인이면 API 불가 → 옴(보류)+YAO 목표회상으로 degrade.
- 타(A) 의미 충돌 정련(잔여): aimed A=연결/위임(긍정) vs 라우팅 타(-1)=폐기. "위임" 경로를 폐기와 분리 — 위임은 음(-0) 이관과 동류로 묶을지 검토(v0 스펙 §9-5 잔여).
- 비용 측정: 라우팅셋에서 (R1~R3 로컬 비율) / (R4 중 SLM 흡수 비율) / (API 도달 비율)을 3분할로 집계 → API 도달율 = 한계비용 지표. 목표(추정): API 도달율 최소화.
6-3. 검증
- 트래픽 샘플에서 3분할 비율 측정 → SLM 도입 전/후 API 도달율 비교(SLM이 음 트래픽을 얼마나 흡수하는지).
- 신뢰 게이트 오작동(저품질 응답을 로컬 채택) 비율 = 환각율 KPI와 연계.
7. 마일스톤 S1~S6 + 검증
검증 공통: 헤드리스, 4상 T/A 자동판정(통과=T/+1, 실패=A/-1, 보류=O/0). 모든 산출 .한선 우선, 외부 의존(TensorRT/모델)은 단일 어댑터로 봉인.
| S | 마일스톤 | 산출 | 검증 | 의존 |
|---|
| S1 | 추론 평면 + IPC 브리지 | 추론브리지.한선(유닉스소켓/파일큐 어댑터) + 추론서버 스텁 | echo 모델로 왕복 일치 + 지연 ms | — |
| S2 | baseline 모델 서빙(트랙 B) | 8B INT4 TensorRT-LLM 엔진 + vocab 다이어트(19,000) | 메모리 실측 64GB 창 내 + 첫토큰 지연 | S1 |
| S3 | 증류 파이프라인 + 학습/보류셋 | 시드조립·Opus생성·자동검증·분할 (한선씨+Opus호출) | 검증통과율 + meaning_code 컴파일율 + 누수0 | S2 |
| S4 | 파인튜닝 + Phase1 KPI 1차 | 트랙 B LoRA + 보류셋 KPI표 + 블라인드 win율 | KPI 5종 수치 기록(가설 채점) | S3 |
| S5 | 삼진 트랙(A) + 삼진가중치 오라클 연결 | BitNet 엔진 + 추론커널↔삼진내적 일치 + 곱셈0 | A vs B 동일 보류셋 KPI 비교표 | S4, §4 |
| S6 | 라우팅 연계 + API 도달율 측정 | 집사.한선에 SLM 게이트 결선 + 3분할 집계 | API 도달율 SLM 전/후 비교 + degrade 동작 | S2, S4 |
- 병렬: S1·(S3 시드조립)은 모델 전 착수 가능. S5는 S4 이후(B로 KPI 기준 세운 뒤 A 비교). S6는 S2/S4 이후.
- 장기 트랙(독립): Kria 하드 ALU(§4-2b)는 S1~S6과 별개 연구 트랙.
8. 최우선 3개 액션 + 예상 효과
| 순위 | 액션 | 근거 | 예상 효과(정량 가능 시 추정 표기) |
|---|
| ① | 추론브리지.한선 IPC 평면 (S1) | 베어메탈≠추론, L4T 유저공간 분리는 확정 [확인]. 모델·서빙 전부가 이 단일 어댑터 위에 얹힘 | [추정] 어댑터 1개로 외부 의존(TensorRT/모델) 전 표면을 봉인 → 모델 A↔B 교체·추론서버 교체를 집사 라우터 무수정으로. 이후 S2~S6 전부 해금 |
| ② | baseline 모델 서빙 + vocab 다이어트 (S2) | "체감 Opus급"은 [가설] — 측정 기준선 없이 백서 불가(정리방향 B-3) | [추정] 8B INT4 ≈ 가중치 ~4~5GB, vocab 19,000 축소로 임베딩/head분 추가 절감. 품질 floor·메모리 실측 확보 → 가설을 측정 가능 상태로 전환 |
| ③ | 증류 파이프라인 + 보류셋 + Phase1 KPI 1차 (S3→S4) | 가설→사실 전환은 데이터가 함. 보류셋·블라인드 win율이 핵심 산출 | [추정] 좁은 도메인이라 1만~수만 쌍으로 수렴(가설). KPI표·블라인드 win율이 나오면 "좁은 도메인 체감 동등" 가설 채점 가능 → 오린 단독 추론 타당성 확정/반증 |
"체감 Opus급" 가설 검증 설계 — 핵심 (요약)
- 범위 한정: 범용 동등 아님. 좁은 도메인(크라우니 ERP/규칙/의사결정) 한정. "체감" = 지연 × 품질 파레토(단일 점수 아님).
- 블라인드 페어 채점: 동일 품질셋에 (오린 SLM) vs (Opus) 익명 답변 → Opus(또는 사람) 심판 win/tie/lose. (tie+win) 비율 = 체감 동등 정량 대용.
- 사전 등록 PASS 조건: 품질셋 (tie+win) ≥ 사전합의 임계 그리고 로컬 첫토큰 지연 < API → 가설 채택. 미달은 active learning 재측정.
- 누수·반복 가드: 보류셋은 증류 시드와 해시 대조 무누수, N회 반복+신뢰구간, KPI 시계열 단조성 확인.
- 정직 원칙: 어떤 회차도 "동등 달성"을 미리 선언하지 않음. 수치 그대로 기록 → 가설→사실 전환은 데이터가 한다.
잔여 이슈 / 미검증(측정 필요)
[가설] BitNet 삼진 + 의미어 19,000 → 좁은 도메인 체감 Opus급 — Phase1 KPI(S4/S5)로 실증.
[추정] 오린 64GB UMA 메모리 예산(가중치/KV/RAG/OS 공유 풀) — 실측으로 §1-3 표 교체.
[추정] 첫토큰 지연·tok/s "체감 즉시" 임계 — 측정 후 확정.
- 트랙 A vs B 최종 선택 — S5 KPI 비교 후 결정(미리 단정 금지).
- 음(-0) 이중역할(TOAU U=구분자 vs 집사 음=의사결정 4번째 상태) ↔ 가중치 0(스킵) 네임스페이스 가드 — 코드 주석 명시.
- 타(A) 의미 충돌(연결/위임 vs 폐기) 라우팅 경로 분리 — §6-2 잔여.
[추정] Kria 풀 삼진 가속기 = 수년 R&D = 장기 트랙. 단기 공급망 Plan B는 RK3588(OPi5 HAL).
- 외부 의존 목록(부득이): TensorRT-LLM 런타임·CUDA·모델 가중치·Opus 교사 호출 → 전부 단일 어댑터/배치 경계로 봉인. 라우팅·후처리·명세·검증은 한선씨 정본.
관련 파일
- 집사 라우터·도메인:
/Users/ef/crowny-butler/libs/{집사,개인의사결정,국가의사결정,기업의사결정,YAO상태기계,티옴타좌표,키워드규칙,질문셋,자기분석입력}.한선
- 삼진 가중치 참조구현:
/Users/ef/crowny-butler/libs/삼진가중치.한선 (삼진내적 + 곱셈/덧셈/뺄셈/스킵 KPI 카운터)
- 컴파일러/VM:
/Users/ef/CrownyOS/crownyc (한선씨→TOAU/ISA729, 트릿 네이티브)
- Jetson HAL(베어메탈 제어 평면):
/Users/ef/CrownyOS/hal/hal_jetson.h, build-crownyos.sh jetson
- 소스 코퍼스(증류 시드): 기가팩토리
keywords_canonical/alias, law 임계/충돌, reward 9원리, ecosystem 룰슬롯
- 신설 대상(본 계획):
추론브리지.한선(S1), Kria트릿ALU.한선(장기), 증류 파이프라인·보류셋(S3)
- 상위 문서:
2026-06-09-크라우니집사-v0-스펙.md, 2026-06-09-젯슨오린-크라우니집사-정리방향.md, 2026-06-09-크라우니집사-하드웨어제어계획.md
- 메모리: project_crowny_butler_orin
</content>
</invoke>