← 목록

크라우니코드 기가팩토리 — 다국어 색인 엔진 구축

개요

크라우니코드 에이전트의 영어 intent를 한글 canonical로 100% 변환하는 4층 자기학습 다국어 색인 엔진을 구축했다. 테슬라 기가팩토리 5대 원칙(수직통합, 자동화, 규모, 피드백 루프, 실패 회복)을 적용해 13년 장기 성장 가능한 구조로 설계했다.

문제

해결: 4층 아키텍처

L0: canonical 한글 intent  (keywords_canonical.dat)   — 유일한 진실
L1: alias 매핑 테이블      (keywords_alias.dat)        — 영어→한글
L2: 단어 사전 + 조어 규칙  (translation_dict/rules.dat) — 자동 확장
L3: 학습 피드백 루프        (translation_learned.dat)    — 컴파일 검증 통과분

구축 과정

1단계: 스키마 + 데이터 분리

2단계: 사전 시드 + 조어 규칙

3단계: 변환기 + 컴파일 검증

4단계: 기가팩토리 자동화

커버리지 추이

단계커버리지증가분
초기 (L1+L2 only)25.3%
사전 1차 확장 (337 단어)36.6%+11.3%
Claude 배치 1 (200 단어)59.3%+22.7%
Claude 배치 2 (200 단어)70.3%+11.0%
Claude 배치 3 (300 단어)88.2%+17.9%
Claude 배치 4 (94 단어)94.5%+6.3%
특수 토큰 스윕 (47 단어)98.8%+4.3%
최종 (vm 추가)100%+1.2%

최종 수치

L0 canonical:   2,154
L1 alias:       2,216
L2 사전단어:    1,222
L2 조어규칙:    96
L3 학습승격:    1,169
실패 후보큐:    0

1,402개 영어 intent → 한글 canonical 100% 변환, 전원 크라우니어 컴파일 검증 통과.

O→A 단절 수리 (선행 작업)

agent.shsemantic_resolve_intents() 개선:

  1. 셀코어 입력 시 내부 모듈 키워드 우선 추출
  2. 동작 동의어 확장 (생성→새/만들/초기)
  3. 카테고리 정밀 필터 (fn_셀코어_XXX에서 XXX 매칭)
  4. FAB 경로에서 셀코어 입력 O→A 직결
검증: 셀생성, 감사기록, 에이전트생성, 보안설정, 룰엔진실행 전부 O→A 경로 정상.

관련 파일

신규 생성

수정

13년 장기 성장 보장

  1. 자가 확장: 새 intent → 실패 큐 → 세션마다 rescue/refine → 사전 자동 성장
  2. 유전형질: 1,222 단어 + 96 규칙 = 신규 2-3단어 복합 intent 대부분 자동 처리
  3. 다국어 확장: alias 추가만으로 일본어/중국어 입력 지원 가능
  4. 컴파일 검증: 한선씨 컴파일러가 품질 게이트 — 잘못된 번역 자동 거부
  5. 한글 정체성: canonical은 순수 한글만, 영어는 alias에만 존재

세션 시작 시 실행

bash~/.claude/scripts/crownycode-gigaline.sh cycle  # rescue + refine
~/.claude/scripts/crownycode-gigaline.sh stats   # 현황 확인

잔여 이슈

후속 작업 (2026-04-16 동일 세션)

크라우니코드 학습 (7건)

셀코어 규칙 표현

agent.sh 통합

메모리 기록

한선씨 컴파일러 이슈 발견

Phase A+B+P0+P1+P2 전체 완료 (2026-04-17~18)

P0: 현업 투입 최소 조건

P1: 운영 가시성

P2: 품질 + 배포

  • 품질 검증: gigafactory_quality.sh (충돌/중복/짧은번역/일관성/컴파일)
  • 충돌 3건 (동의어), 중복 3건 (impl/implementation 짝), 컴파일 20/20 통과
  • API 서버: server-translate.js (포트 4874)
  • GET /translate, /batch, /stats, /health, /audit
  • POST /promote, /add_word
  • 게이트웨이 등록: translate.crowny.org → localhost:4874 (CORS, 캐시 1시간)
  • 신규 파일

    Phase P3 완료 (2026-04-18)

    P3-1: LaunchAgent 자동화

    P3-2: 다국어 확장

    P3-3: 웹 대시보드

    최종 인프라 현황

    파일용도
    gigafactory.dbSQLite 메인 DB (WAL, 884KB)
    gigafactory_db.shDB 관리 CLI (14개 서브커맨드)
    gigafactory_monitor.sh모니터링 (collect/dashboard/alert/trend/health)
    gigafactory_quality.sh품질 검증 (6개 검사)
    gigafactory_cron.shLaunchAgent 크론
    server-translate.jsHTTP API + 웹 대시보드
    translate_intent.shCLI 변환기
    translate_batch_fast.awk고속 배치 엔진
    expand_dict.sh자가 확장 로봇
    augment_input.shagent.sh 전처리
    test_gigafactory.sh회귀 테스트 (27건)
    extract_canonical.sh초기 추출기
    keywords_canonical.datL0 한글 정체 (3,292)
    keywords_alias.datL1 영→한 (2,216+80 다국어)
    translation_dict.datL2 사전 (1,238)
    translation_rules.datL2 규칙 (96)
    translation_learned.datL3 학습 (1,169)
    backups/일일 백업 (SHA256, 7일 보관)
    han_companion/한선씨 동반 파일
    std/기가팩토리.한선한선씨 검증판