의미어팩 웨이브2b — 가산 어휘팩 모듈
개요
거대SLM 웨이브2b 어휘 대량화 작업. 기존 의미어임베딩.한선(시드 65개)을 수정하지 않고, 가산 방식으로 ~140개 의미어를 추가하는 팩 모듈을 작성.
무엇을 했는지
/Users/ef/crowny-butler/libs/의미어팩.한선 신규 작성
팩_확장사전(): 임베딩_사전생성() 기반 + 140개 추가 → 총 205개 반환
팩_도메인목록(): 팩이 추가한 7개 도메인 이름 배열 반환
팩_데모(): 확장사전 검증 (레코드수 출력, 5개 라운드트립, 4상 경향 확인)
추가 의미어 140개 / 7개 도메인
| 도메인 | ID 범위 | 수 | 슬롯 설계 |
|---|
| 감정 | 101~120 | 20 | T[0,1,2]=긍정감정, A[0,1]=부정감정 |
| 시간 | 121~140 | 20 | T[0,3]=현재·미래, A[2]=과거·종료 |
| 공간 | 141~160 | 20 | T[4,5]=근접·확장, A[2,3]=격리·차단 |
| 수량 | 161~178 | 18 | T[5,6]=증가·다수, A[3,4]=감소·부족 |
| 관계 | 179~195 | 17 | T[1,7]=연결·협력, A[0,4]=단절·갈등 |
| 행위 | 196~212 | 17 | T[2,6,8]=실행·생성, A[1,5]=삭제·차단 |
| 상태 | 213~240 | 28 | T[3,4,8]=활성·정상, A[2,5]=비활성·손상 |
슬롯 규약 준수
- T구역 [0..8]: 긍정/활성 슬롯. 최대 위치 8 (9개 슬롯)
- A구역 [18..23]: 부정/비활성 슬롯. 내부 위치 0..5 (6개 슬롯) — 6 초과 없음 검증 완료
- O구역 [9..17]: 항상 0 유지 (벡터인코더 규약)
- U구역 [24..26]: 미지어에만 임베딩_조회가 이관켜기 — 팩에서 직접 사용 안 함
관련 파일
/Users/ef/crowny-butler/libs/의미어팩.한선 (신규)
/Users/ef/crowny-butler/libs/의미어임베딩.한선 (수정 없음)
/Users/ef/crowny-butler/libs/벡터인코더.한선 (수정 없음)
잔여 이슈
- 도메인간 슬롯 공유로 시간(T[0,3])과 감정(T[0])이 T[0] 겹침 — 역조회 시 거리가 동점일 수 있음. 웨이브3에서 도메인 비트 슬롯 분리 고려.
- 105("만족")과 102("행복")이 T[0,1] 동일 → 역조회 첫 매칭 반환(id 낮은 쪽). 구별을 원하면 슬롯 추가 필요.
- 팩_데모 컴파일/실행은 메인 세션이 담당.