크라우니 SLM dense-input 인코더 — 형태소 공유 + 실험 블록(VM 행)
개요 (autoloop tick, 2026-06-15)
망강화에서 6층 3진망이 영역개념을 학습(미학습 큐브 일반화)함을 입증했으나, 거대SLM2는 어휘기반이라 미지어=빈 큐브 → 망이 분류할 신호 없음. 망 일반화를 실가치로 쓰려면
모든 단어가 비어있지 않은 큐브(dense-input)여야 함. 그 첫 단계로 문자해시 dense 인코더 구축 + 형태소 일반화 가설 실험.
산출 (밀집입력.한선)
- 밀집_단어큐브(단어): 각 문자 코드값%27 → 슬롯 켜기(추가로 구성, 설정 손상 회피). 모든 단어 → 비어있지 않은 큐브. 같은 문자=같은 슬롯(코드값 결정적) → 공유 형태소=공유 슬롯(구성상 보장).
- 검증: "성공" 큐브 활성슬롯 2개(dense, 비어있지 않음). 성공/성취는 "성"(코드값 49457) 동일 슬롯 공유.
- 밀집_집합/병합/데모: 교사(긍6 성·향·발 / 부6 실·위·손) + 홀드아웃(미학습 형태소공유: 성취·발견·향기 / 위축·손상·실종)으로 형태소 일반화 측정 설계.
블록 (정직)
- 확장_증류에폭이 dense 큐브에서 아레나 행(hang) — 14샘플·12샘플 모두 20~25초+ 미완(망강화는 동일 호출 12샘플 sparse 큐브로 수초 내 완료). dense 큐브(활성슬롯↑) 데이터가 아레나 상태의존 행버그를 유발(멀티블록 행·설정손상과 동일 계열, [[feedback_crownyc_mem_arena_oom]]·[[feedback_hanseon_set_cube_corrupt]]).
- 즉 형태소 일반화 가설은 아직 미검증 — ML 한계가 아니라 VM 행으로 학습 루프가 막힘. 인코더 자체는 작동.
다음 (블록 우회 후보)
- 확장_증류에폭 대신 수동 심층_증류스텝 루프 + per-step 아레나회수(회수_복원/맵복원)로 행 우회 시도 → dense 학습 완주 후 형태소 일반화 측정.
- dense 큐브 활성슬롯 수 축소(단어당 1~2슬롯)로 아레나 부담 경감.
- VM 아레나 행 근본수정(상태의존이라 장기 트랙).
관련 파일
- /Users/ef/crowny-butler/libs/밀집입력.한선 (+.rpn.한선) — 인코더 작동, 실험 블록
- 망강화: docs.crowny.org/docs/2026-06-14-crowny-slm-망강화
추가 진단 (autoloop tick 2, 2026-06-15)
dense 학습 행 우회 시도·정밀 진단:
- U 슬롯 가설 기각: 코드값%27→%24(U영역 24~26 회피)도 동일 행. U 슬롯 원인 아님.
- 단일 증류스텝은 정상: 심층_증류스텝 1~2회 dense 큐브 호출 즉시 완료(A·B·C). 행은 480스텝(12샘플×40에폭) 누적에서만 발생.
- 수동 루프+스텝별 배열힙 회수(회수_복원)도 행: 망강화(sparse)는 확장_증류에폭으로 작동하나, 밀집(동일 구조)은 수동 per-step 배열회수로도 안 풀림.
- 결론: 행은 맵힙 누적 또는 더 깊은 아레나 상태의존 손상(망이 맵힙에 있어 맵힙은 회수 불가, 단일스텝은 안전, 누적만 행). 배열힙 회수로 해결 안 됨 = VM 근본 트랙(tick 단위로 안전 수정 불가).
판단: dense-input 학습 실험은 VM 아레나 행으로 블록(인코더는 작동). 토끼굴 회피. 진짜 해결 경로 2: ①VM 아레나/맵힙 누적 손상 근본수정(상태의존, 장기·고위험) ②sparse 표현 유지(망강화 방식)로 dense 회피 — 단 그러면 미지어 일반화 가치 제한. 현 시점 dense-input은 VM 안정화 선행 필요.
결과 + 행 임계 (autoloop tick 3, 2026-06-15)
- 맵힙 소진 가설도 기각: 행 직전 "[MAP] 힙 부족" 미출력(48M 아레나 충분). U·배열소진·단일스텝·맵소진 전부 배제 → 깊은 C레벨 디버깅 필요(상태의존 무한루프).
- 행 임계 확인: 12×5=60스텝 완주, 12×40=480스텝 행. 누적 임계는 60~480 사이.
- 실험 결과(5에폭, 행 회피 budget): 학습 후 훈련 50%·홀드 50%·향상 0%p. 순수 문자해시 dense 인코딩으로는 망이 형태소→극성을 학습 못 함(5에폭 무학습; 망강화 sparse는 40에폭 필요했으나 dense는 40에폭서 행).
- 결론(음성 결과의 가치): char-hash dense 인코딩은 망 일반화를 주지 못한다 = dense-input엔 학습된/구조화된 표현(임베딩)이 필요(raw 해시 불가). 원래 정직 예측("순수 해시는 의미구조 부족") 확증. dense-input 방향은 ①형태소 임베딩 학습 ②VM 행 근본수정(상태의존) 둘 다 substantial — 사용자 결정 영역.
lldb 결정타 + 회귀 (autoloop tick, 사용자 "계속")
- lldb backtrace로 행 정체 확정:
cube_to_int ← exec_opcode+109756 ← execute = VM이 무한 한선씨 동안 루프(매 반복 조건을 cube_to_int로 평가). 여러 틱 추측을 종결 — 행=무한루프(메모리 고갈 아님).
- 단일/2큐브는 완주, 12큐브 다양성+다스텝서만 행: 데이터 패턴 의존. 블록탐색
(b+1)*행per블록<=행번호가 강후보(행per블록 음수/0이면 무한).
- str GC 가설 기각: str_gc(crownyc.c 1725)는 힙 영역(맵 키 슬롯)을 마크(1755)+remap(1805) 둘 다 정확히 함 → 맵키 stale 아님.
- 행per블록<1 가드 시도 → 회귀: 트릿텐서 6 site에 가드 추가했더니 통과하던 대량텐서가 행 → 즉시 perl로 원복, 대량텐서 5/5 복구 확인. (가드가 왜 회귀를 냈는지는 미상 — 추가 조사 필요)
- 거대SLM2 회귀: 이전 10/10이었으나 현재 증류 단계서 행(2/2 일관). 같은 무한루프 VM 버그. 내 변경(어휘 샤딩 등)이 아레나 상태를 tip했는지/원래 flaky였는지는 불확정.
- 다음 정밀작업(권고): 행 프로세스에서 VM
pc(바이트코드 PC) 읽어 → 디스어셈블/소스맵으로 정확한 동안 루프 1줄 특정 → 근본수정. dense-input·대규모 학습의 키스톤. 코어 VM이라 신중·전담 필요.