삼진 신경망 커널 4종 병렬 구축 — CUDA 대응 2단계

개요

1단계(삼진 행렬곱)에 이어, Workflow 13에이전트 병렬로 삼진 신경망 4커널을 한선씨+VHDL 동반 구축하고 적대검증·통합했다. 모델분업: 한선씨=소넷, VHDL=하이쿠, 적대검증·통합=오푸스.

4커널 각각 [한선씨 커널+VM검증 → VHDL RTL+GHDL → 오푸스 적대검증] 파이프라인 + 통합 forward.

커널	VM	GHDL	판정	VM↔VHDL	비고
삼진_컨볼루션	PASS	PASS	PASS	일치	완전 1:1 (나눗셈 없음)
삼진_어텐션	PASS	PASS	PASS	데모한정	정규화 *100 곱셈, 일반입력 발산
삼진_레이어놈	PASS	PASS	PARTIAL	발산	round vs truncate/floor sqrt
삼진_활성	PASS	PASS	PARTIAL	데모한정	gelu 게이트 x=1,2 발산

통합: CPU VM 삼진 SLM 1레이어 forward E2E 실증.

입력 X(1x4)=[6,-3,9,1] → 선형1=[14,-12,-8,16] → 레이어놈=[4,-4,-3,4]
→ gelu=[4,0,0,4] → 선형2 OUT(1x3)=[0,4,-4]   (4단계 손계산 일치, 음성대조 확인)

순수 부호누산 MAC(나눗셈 無) = 완전 1:1 하드웨어 등가. matmul/conv가 여기. CUDA 대응의 정통 무기.
나눗셈/sqrt 커널 = 발산: VM=균형3진 round-to-nearest vs VHDL native /=truncate, Newton int_sqrt=floor. 데모입력 나머지0이면 우연 일치로 발산 은폐 → 적대검증이 적발(-7/4 VM=-2/VHDL=-1, 루트(159) VM=13/floor=12).
교정: 나눗셈/sqrt RTL을 균형3진 round-to-nearest로 짜야 1:1.

적대검증이 저장 메모리 오류 적발: 루트(x)는 floor가 아니라 round-to-nearest(루트(7)=3, 루트(159)=13). 직접 재실측 확인 후 feedback_hanseon_root_floor 정정. VM 자연반올림 철학과 일관.