크라우니코드 학습DB 일원화 — 최종 (7차 RPN 검증 완료)
개요
분산된 3개 학습DB (~85,000)를 7단계 정화로 단일 정본DB 통합 완료. 헌법 반영: RPN 정본 트랙도 hanseonc_std 정밀 검증으로 분류.
최종 결과
~/.crownycode/일원화/5차_머지/
├── 정본.dat 2,998 T 검증완료 (han 1800 + rpn 1198)
├── 보류.dat 7,922 O 보류 (han 2241 + rpn 5681)
└── 격리.dat 925 A 격리 (han 719 + python 153 + js 33 + go 17 + 기타 3)
─────────────────────
합계 11,845 (원본 85K → 86% 잡음/중복 제거)
정화 7단계 결과 누적
| 단계 | 처리 | 결과 |
|---|---|---|
| 1차 재조립 | 멀티라인 복구 | 81,911 (han 69K + rpn 9.9K + 격리 2.5K) |
| 2차 정규화 | 옛표기/식별자 | 64,170 정규화 |
| 3차 컴파일검증 | 6 청크 병렬 | T 15,840 (51% 거짓양성 ★ 진단버그) |
| 4차 통일복구 | recover.pl + 에이전트 | T 추가 1,324 |
| 4차A 재검증 | 디코딩 수정 | 진짜 OK 0.07% — 잔여는 진짜 손상 |
| 5차 정화+머지 | 정규화+재검증+머지 | T 3,323 / O 7,597 / A 925 |
| 6차 정본정제 | 의미보증 필터 | T 3,323 → 1,800 (격하 1,523) |
| 7차 RPN검증 | hanseonc_std + 의미분석 | RPN 9,950 → T 1,567 / O 8,383 |
핵심 발견 — 진단 인코딩 버그
- 3차/4차 검증: Python
decode('unicode_escape')가 UTF-8 한글 손상 - hanseonc_high가 RPN 모드 fallback → returncode=0 → 거짓 양성
- 재검증: 3차/4차 T 17,164 중 진짜 OK 72.4% (12,432) — 4,732은 거짓
- A 격리 47,190 진단: 진짜 OK 0.07% — 5차 복구로 31건만 살림
7차 RPN 정밀 검증
기준: hanseonc_std 컴파일 OK + 스택내용 + 함수정의 + 토큰 20+
RPN 9,950 → T 1,567 (15.7%) / O 8,383 (84.3%)
T_정본 1,567 함수정의 + 충분토큰 + 채워진스택
O_단순 6,811 컴파일 OK + 빈 스택
O_의미부족 1,572 연산자 없음
A_격리 0 RPN은 char별 처리라 컴파일 실패 거의 없음
정본DB 형식
intent|버전|상태|코드
- 버전:
han(고수준) |rpn(저수준/정통) |python|js|go(격리) - 상태:
T검증완료 |O보류 |A격리 - 코드:
\n/\t/\"이스케이프
보류 트랙
보류 7,922 중:
- RPN 5,681: hanseonc_std 컴파일 OK지만 의미 약함 — 컨텍스트 갖춰지면 사용
- han 2,241: 라이브러리 의존 / 6차 격하 (빈함수/짧음/intent깨짐)
격리 트랙 (재도전 대상)
격리 925 중:
- python/js/go 203: 트랜스파일 자동화 트랙
- han 719: 1차 손상/한선씨인데 ver 잘못 표기 — 8차에서 재진단 후보
잔여 이슈
- 8차 한선씨 격리 719 재진단 — RPN 코드 잘못 표기된 것 분류
- 외국어 203 트랜스파일 — Python/JS/Go → 한선씨 자동 변환 트랙
- 보류 RPN 5,681 의미 강화 — 입력 컨텍스트 제공 시 정본 격상 가능
백업 / 위치
- 정본DB:
~/.crownycode/일원화/5차_머지/{정본,보류,격리}.dat - 통계:
~/.crownycode/일원화/5차_머지/통계.txt - 6차 결과:
~/.crownycode/일원화/6차_정제/ - 7차 결과:
~/.crownycode/일원화/7차_RPN검증/ - 백업:
~/.crownycode/backup-20260522/(58MB 원본) - 스크립트:
/tmp/{정화5차,정제6차,RPN_정밀검증,분리_저장,진단_대규모,머지_최종}.{py,sh}