거대SLM2.한선 — 웨이브4 완성
개요
거대SLM 웨이브1~3 검증 모듈을 한 대형 파이프라인으로 묶어 "거대 LLM급 SLM" 스케일을 증명하는 통합 진입점 파일 작성 완료.
산출물
/Users/ef/crowny-butler/libs/거대SLM2.한선 (736줄)
함수 목록 (접두 대2_)
대2_어휘준비() — 어휘_생성(200)+시드충전(30)+자체추가(20)=50+어휘, 멀티블록진입 보장
대2_문장인코딩(어휘맵, 문장) — 공백 토큰화 → 어휘_조회 → OR집계, 미지어=음플래그
대2_교사집합(어휘맵) — 긍정15+부정15=30샘플, 평탄810슬롯≤1023 안전
대2_큐브OR합(큐브A, 큐브B) — 슬롯별 OR, 비음(0/1) 규약
대2_문맥풀생성(어휘맵, N) — 앞N개 어휘→키·값 평탄배열(N≤37 배열상한 안전)
대2_추론(준비맵, 망, 문장) — 7단계 파이프(인코딩→음단락→멀티헤드→OR합→깊은순전파→판정→역조회)
대2_추론결과출력(추론결과, 문장, 기대상) — 출력 헬퍼
대2_데모() — E2E 8단계 검증, 파일 끝 활성 호출
파이프 단계
인코딩(토큰화) → 음단락(미지어) → 멀티헤드어텐션(H=3,k=2) → OR합산 → 6층깊은순전파(깊이=4) → 4상판정 → 어휘역조회 → 이관결정
웨이브1 대비 스케일 증가
| 항목 | 웨이브1 | 웨이브4 |
|---|
| 어휘 | 65 | 50+(200최대, 멀티블록진입) |
| 망층 | 3층 | 6층 (2배) |
| 어텐션 | 단일헤드 | H=3 멀티헤드 T/O/A 독립 |
| 증류 | 직접루프 | 확장_증류에폭+배열힙+맵힙 양쪽회수 |
| 추론깊이 | 1패스 | 깊이=4 잔차반복 |
아레나회수 적용 지점
- 증류(학습) 루프: 확장_증류에폭 내 에폭당 회수_복원(배열힙) 이미 적용
- 데모: 학습 전 배열마커+맵마커 → 학습 후 마커 소모량 출력 + 회수_맵복원 시범
기대 데모 결과
- 학습 전→후 정확도 향상 (정도는 시드에 따라 달라짐)
- 추론A(긍정): 상=티, 이관=0
- 추론B(부정): 상=타, 이관=0
- 추론C(미지어 "미래 양자 암호"): 상=음, 이관=1 ← 핵심 추론서빙 결합점
- 추론D(혼합): 상=옴 또는 타
- 배열힙 소모 <200(15에폭, 아레나안정)
잔여 위험
- 맵힙 회수_맵복원 opcode 735 연결 여부: 폴백 시 무시(마커<=0 가드)
- 교사집합 중복단어("충돌"이 긍정단어들에 없는지 확인 — 부정단어들에만 있음): OK
- 어휘_역조회가 망입력큐브(OR합 결과)를 받으므로 다수 슬롯이 켜진 상황 → 가장 유사한 단어 반환(점수 기반 선형스캔)
- 문맥풀맵이 준비맵에 보관되어 맵복원 후 접근 시 무효화 위험: 회수_맵복원을 증류 후에만 수행 → 추론 시에는 복원 없으므로 안전
메인 세션 검증 명령
bashcd /Users/ef/CrownyOS/crownyc
./hanseonc_high /Users/ef/crowny-butler/libs/거대SLM2.한선 > /tmp/거대SLM2.toau 2>/dev/null && ./crownyc run /tmp/거대SLM2.toau