GPT-4를 학습시키는 NVIDIA H100 GPU는 — TSMC와 Samsung 공장에서 만들어진다. 그 공장은 14주에 걸쳐 200개 이상의 공정을 거쳐 한 wafer를 완성한다. 매 단계마다 사람이 지켜본다고? 아니다. 그 안에서도 AI가 굴러가고 있다.
한 장의 wafer에는 수백 개의 layer가 쌓인다. 각 layer마다 두께·CD(critical dimension)·저항·결함 검사. 만약 모든 wafer를 모든 단계에서 측정한다면 — 측정에만 14주가 더 걸린다. 처리량이 절반 이하로 떨어진다.
그래서 현실은 "표본 측정"이다. 25장 중 1장만 측정. 운 나쁘면 — 측정 안 한 24장 중에 결함이 있어도 한참 후에 발견된다. 이미 다음 단계까지 진행된 후. 손실이 누적된다.
여기에 AI가 들어왔다. "센서 데이터는 어차피 모든 wafer에서 다 수집된다. 그 데이터로 측정값을 예측할 수 없을까?" 이게 가상 계측 (Virtual Metrology, VM)의 출발점이다. 그리고 이 분야의 글로벌 첫 양산 시스템이 한국에서 나왔다.
이름은 그리스 신화의 100개 눈을 가진 거인 'Argus Panoptes'에서 따왔다. "모든 wafer를 100% 본다"는 의미. SK하이닉스 자회사 Gauss Labs가 개발했고, 핵심 알고리즘은 Patch + Channel Independent Time-series Transformer (PatchTST 패턴). 각 센서를 독립 채널로 patch화해서 학습.
SK하이닉스 이천·청주 fab의 일부 layer에서 양산 적용. 2024 SPIE에서 발표된 후속 — Cross-Tool Attention: 같은 종류 챔버 여러 대 사이의 공통 패턴과 도구별 특이성을 동시에 학습. 한 도구에서 학습한 모델이 다른 도구로 transfer 가능해짐.
현장 검증 · 양산 적용EUV 리소그래피의 핵심 단계 중 하나가 OPC(Optical Proximity Correction). 마스크 패턴을 빛이 회절하는 효과를 보정해서 그릴 — 한 마스크당 CPU 클러스터로 2주가 걸리는 작업. NVIDIA가 2023년 3월 GTC에서 발표한 cuLitho — 500대의 NVIDIA DGX H100 시스템이 4만 대의 CPU 서버 작업량을 대체하며 한 마스크 OPC를 2주 → 약 8시간으로 단축. 약 40× 가속.
2023년 GTC 발표 당시 TSMC, Samsung, ASML이 도입 협업 파트너로 공식 공개됐다. 2024-25년 TSMC가 cuLitho를 양산 OPC 흐름에 통합하기 시작했고, Samsung·ASML도 같은 방향으로 작업 중. GPU가 AI를 만든 후, 이제 그 AI 칩 자체를 만드는 단계의 속도까지 GPU가 결정한다.
2주 → 8시간 (40× 가속)한 fab을 통째로 디지털 트윈으로 만든다는 발상. 라인의 장비·배관·로봇 동선을 가상 공간에서 시뮬레이션. 새 wafer가 들어오면 어느 도구를 통해 어떤 순서로 가는지 — 가상에서 미리 시뮬레이션 → 가장 효율적인 경로 선택 → 실제 fab에 반영하는 방향. Samsung은 NVIDIA Omniverse를 활용해 이런 시도를 공개적으로 진행 중.
이상 상황 시뮬레이션도 가능. 한 EUV 노광기가 서비스로 빠지면 fab 전체 처리량이 어떻게 변하는지 — 1초 만에 계산. 인간이 일정을 다시 짜기 전에 AI가 먼저 차선을 제시한다.
디지털 트윈 + 실시간 최적화광학 검사(빠르지만 정확도 낮음)와 SEM(느리지만 정밀) 사이의 격차를 메우는 active learning loop. 모델이 불확실하다고 판단한 결함만 SEM으로 검증 → 모델 재학습. 정확도는 SEM 수준, 속도는 광학 수준.
한 lot의 수율이 떨어지면 — chamber·tool·recipe·lot 같은 여러 종류의 노드로 그래프를 만들고, 각 타입별로 다른 attention/embedding을 두고 학습. 어느 챔버 × 어떤 lot 조합에서 결함이 누적됐는지를 자동으로 찾아낼 수 있다. 인간이 사후 분석으로 며칠 걸리던 RCA(root cause analysis)를 짧게 단축하는 방향성으로 학계·산업 모두 활발히 연구.
한 결함을 찾을 때 단일 RGB 이미지가 아니라 여러 각도의 회절·편광 채널을 동시에 입력. CNN이 4-7개 채널을 같이 처리. 자세한 알고리즘은 비공개지만 — Multi-Perspective DL이라는 명칭은 KLA 공식 마케팅 자료에 등장.
이 시리즈를 EP01부터 따라온 사람은 알아챘을 거다. 모든 알고리즘이 여기에 모인다. EP01 backprop, EP02 CNN(검사), EP03 Transformer(VM·RCA), EP04 LLM(공장 코파일럿), EP05 Diffusion(결함 데이터 합성), EP06 GPU/CUDA(cuLitho).
한 가지 더 — 이 모든 적용은 학술 SOTA가 아니다. 2017년 Transformer 논문 → 2024년 SK하이닉스 양산 적용까지 7년. 학술 → 산업 양산까지 평균 3-5년의 격차가 있다. 지금 학계에서 화제인 모델(Mamba, FlashAttention 3)은 — 2027-2030년쯤 fab에 들어갈 거다.
다음 편(EP08, 마지막 편)에선 이 모든 모델을 일반 회사가 자기 데이터에 적용하는 방법 — RAG (Retrieval-Augmented Generation)를 다룬다. 2020년 Patrick Lewis 논문에서 시작된 한 아이디어가, 2026년 모든 회사의 사내 코파일럿의 표준이 된 이야기.