← 목록
기타 2026-06-11 4KB 읽기 4분

책 작성 규칙기반·의미어 정량 분석 — 300쪽/버전 도달 준비량

질문: ① 현재 책 작성에 규칙기반이 얼마나 작동? ② 의미어 분석 재구성 적용률? ③ 일반판 300쪽 수준에 규칙기반을 얼마나 더 준비하면 수월한가? (2026-06-11)

① 규칙기반 작동률 (현재)

영역규칙기반LLM근거
생성0%100%파이프라인=Flash/Haiku 초벌 + Opus 마감. crownycode 의미어/패턴엔진 미사용
분석(필력)100%(결정적 7지표)의미어 구조=LLM추정필력하드.한선: 문장수·평균길이·표준편차·CV·단/장문비·접속밀도
사실 일관성규칙적(캐논 고정)세계관 캐논 문서를 모든 집필에 주입
  • 헌법("규칙이 주체, LLM은 윤활유") 대비: 생성은 현재 윤활유 100% = 이상과 정반대.
  • 대조: crownycode 전역 비중 58%(직접매칭 50,234 + 규칙변환 26,049 vs 클로드 32,044) — 단 코드 생성용이라 산문에 미적용.

② 의미어 분석 재구성 적용률

  • 생성 재구성: 0% (의미어로 문장을 조립/재구성하지 않음).
  • 설계/분석에만: 필력 엔진 스펙에 의미어 EDU 분해 개념 반영. 런타임은 한선씨 하드지표 + LLM 추정.
  • 보유 의미어 ≈ 64,917(학습DB) — 코드 의미어. 산문 의미어 ≈ 0.

③ 300쪽/버전 — 격차 + 규칙기반 준비량 (정량)

분량 격차

  • 페이지 환산: 신국판 일반서 650~750자/쪽 → 300쪽 ≈ 195K~225K자(중앙 210K).
  • 현재 일반판: ilove-om 51.6K(74쪽) · crownyai-general 47.3K(68쪽) · book3-general 32.6K(47쪽) → 평균 43.8K자 ≈ 63쪽.
  • 격차 = 4.8배 (210K / 43.8K). 구조: 300쪽 ≈ 20장×10.5K자 또는 15장×14K자 (현재 ~10장×4.7K자).

시드 코퍼스 (이미 보유)

  • 3책 119장 = 561,543자 · 8,345문단 · 19,397문장 · 1,596소제목. → 산문 의미어 추출 시드로 충분.

규칙기반 '수월도' 모델 (산문 의미어 코퍼스 → 규칙 기여%)

단계산문 의미어규칙 기여내용300쪽 시 LLM 신문장
현재00%100% LLM210K자
Phase1 시드수확~1,000~22%119장→의미어 추출 + 7 하드지표를 생성규칙으로 역전(목표 문장길이·CV·접속밀도 강제)164K자
Phase2 캐논+수사~2,000~40%도메인사실 의미어 ~800 + 수사패턴 ~500 + 문체규칙 ~150 → 챕터 골격을 규칙이 생성126K자
Phase3 확장~10,000~65%전환·비유·근거 대부분 규칙 조립, LLM은 윤활74K자
헌법이상~100,000~90%의미어 10만 = LLM 독립
  • "수월" 임계 = Phase2 (~2,000 산문 의미어, 규칙 40%): 규칙이 골격·사실·전환·분량제어를 담당해 300쪽도 LLM 부하 60%로.
  • 시드 충분성: 8,345문단 → 추가 집필 없이 Phase2 부트스트랩 가능.

권고 — 산문 의미어 트랙 신설 (현재 0)

crownycode는 코드 전용이므로 산문 의미어 harvest+조립 트랙을 새로 만든다:
  1. Phase1(즉시): 119장 8,345문단 → 산문 의미어 추출기(한선씨) + 필력하드.한선 7지표를 생성 제약 규칙으로 역전. → 규칙 ~22%, 분량/리듬 자동 보장.
  2. Phase2: 캐논 사실 의미어 ~800 구조화 + 수사패턴 ~500 + 버전 문체규칙 ~150 → 규칙 ~40%, 챕터 골격 자동 생성.
  3. Phase3: 산문 의미어 1만 → 규칙 65%, 300쪽 규칙 조립.
결론: 지금은 책 생성의 규칙기반 0%(헌법 정반대). 그러나 이미 쓴 119장(561K자, 8,345문단)이 강한 시드라, 산문 의미어 ~2,000 + 문체규칙 ~150만 준비하면(추가 집필 불요, 시드 수확으로 가능) 규칙 40%로 올라 300쪽 일반판도 수월해진다.