← 목록
기타 2026-05-28 3KB 읽기 3분

크라우니코드 학습DB 일원화 — 최종 (7차 RPN 검증 완료)

개요

분산된 3개 학습DB (~85,000)를 7단계 정화로 단일 정본DB 통합 완료. 헌법 반영: RPN 정본 트랙도 hanseonc_std 정밀 검증으로 분류.

최종 결과

~/.crownycode/일원화/5차_머지/
├── 정본.dat   2,998   T 검증완료 (han 1800 + rpn 1198)
├── 보류.dat   7,922   O 보류    (han 2241 + rpn 5681)
└── 격리.dat     925   A 격리    (han 719 + python 153 + js 33 + go 17 + 기타 3)
─────────────────────
합계         11,845   (원본 85K → 86% 잡음/중복 제거)

정화 7단계 결과 누적

단계처리결과
1차 재조립멀티라인 복구81,911 (han 69K + rpn 9.9K + 격리 2.5K)
2차 정규화옛표기/식별자64,170 정규화
3차 컴파일검증6 청크 병렬T 15,840 (51% 거짓양성 ★ 진단버그)
4차 통일복구recover.pl + 에이전트T 추가 1,324
4차A 재검증디코딩 수정진짜 OK 0.07% — 잔여는 진짜 손상
5차 정화+머지정규화+재검증+머지T 3,323 / O 7,597 / A 925
6차 정본정제의미보증 필터T 3,323 → 1,800 (격하 1,523)
7차 RPN검증hanseonc_std + 의미분석RPN 9,950 → T 1,567 / O 8,383

핵심 발견 — 진단 인코딩 버그

  1. 3차/4차 검증: Python decode('unicode_escape')가 UTF-8 한글 손상
  2. hanseonc_high가 RPN 모드 fallback → returncode=0 → 거짓 양성
  3. 재검증: 3차/4차 T 17,164 중 진짜 OK 72.4% (12,432) — 4,732은 거짓
  4. A 격리 47,190 진단: 진짜 OK 0.07% — 5차 복구로 31건만 살림

7차 RPN 정밀 검증

기준: hanseonc_std 컴파일 OK + 스택내용 + 함수정의 + 토큰 20+

RPN 9,950 → T 1,567 (15.7%) / O 8,383 (84.3%)
  T_정본    1,567  함수정의 + 충분토큰 + 채워진스택
  O_단순    6,811  컴파일 OK + 빈 스택
  O_의미부족  1,572  연산자 없음
  A_격리       0  RPN은 char별 처리라 컴파일 실패 거의 없음

정본DB 형식

intent|버전|상태|코드
  • 버전: han (고수준) | rpn (저수준/정통) | python|js|go (격리)
  • 상태: T 검증완료 | O 보류 | A 격리
  • 코드: \n/\t/\" 이스케이프

보류 트랙

보류 7,922 중:

  • RPN 5,681: hanseonc_std 컴파일 OK지만 의미 약함 — 컨텍스트 갖춰지면 사용
  • han 2,241: 라이브러리 의존 / 6차 격하 (빈함수/짧음/intent깨짐)

격리 트랙 (재도전 대상)

격리 925 중:

  • python/js/go 203: 트랜스파일 자동화 트랙
  • han 719: 1차 손상/한선씨인데 ver 잘못 표기 — 8차에서 재진단 후보

잔여 이슈

  1. 8차 한선씨 격리 719 재진단 — RPN 코드 잘못 표기된 것 분류
  2. 외국어 203 트랜스파일 — Python/JS/Go → 한선씨 자동 변환 트랙
  3. 보류 RPN 5,681 의미 강화 — 입력 컨텍스트 제공 시 정본 격상 가능

백업 / 위치

  • 정본DB: ~/.crownycode/일원화/5차_머지/{정본,보류,격리}.dat
  • 통계: ~/.crownycode/일원화/5차_머지/통계.txt
  • 6차 결과: ~/.crownycode/일원화/6차_정제/
  • 7차 결과: ~/.crownycode/일원화/7차_RPN검증/
  • 백업: ~/.crownycode/backup-20260522/ (58MB 원본)
  • 스크립트: /tmp/{정화5차,정제6차,RPN_정밀검증,분리_저장,진단_대규모,머지_최종}.{py,sh}