한국어
이 페이지는 ENN-PyTorch를 실행할 때 자주 확인하게 되는 운영 설정과 환경변수 범주를 요약한 참조 자료다.
본문에서는 모델 구조와 런타임 흐름을 설명한다. 이 페이지는 문제가 생겼을 때 어떤 설정 축을 먼저 확인해야 하는지 빠르게 찾기 위한 용도다. 전체 환경변수 사전이 아니라, 운영과 디버깅에서 자주 보는 범주와 대표 설정만 정리한다.
환경변수는 실행 경로와 재현성에 영향을 줄 수 있다. 값을 바꿨다면 실행 로그나 실험 기록에 함께 남기는 것이 좋다.
English
This page summarizes operational settings and environment variable categories that are often checked when running ENN-PyTorch.
The main chapters explain model structure and runtime flow. This page is for quickly finding which configuration axis should be checked first when a problem occurs. It is not a complete environment variable dictionary; it summarizes the categories and representative settings most often used during operations and debugging.
Environment variables can affect execution paths and reproducibility. If a value is changed, it should be recorded together with execution logs or experiment notes.
한국어
운영 설정은 문제를 좁히기 위한 도구다. 여러 설정을 한 번에 바꾸면 원인을 파악하기 어려워진다.
English
Operational settings are tools for narrowing down a problem. If multiple settings are changed at once, it becomes difficult to identify the cause.
1. 먼저 기본 설정으로 문제를 재현한다.
2. 증상이 어느 계층에서 발생하는지 좁힌다.
3. 한 번에 하나의 설정 축만 바꿔 비교한다.
4. 변경한 환경변수와 실행 결과를 기록한다.
5. 설정 변경 후 raw output, calibrated output, checkpoint, manifest 같은 artifact를 함께 확인한다.
1. Reproduce the problem with the default settings first.
2. Narrow down which layer the symptom comes from.
3. Change only one configuration axis at a time.
4. Record the changed environment variables and execution results.
5. After changing settings, inspect artifacts such as raw output, calibrated output, checkpoints, and manifests together.
| 증상 / Symptom | 먼저 확인할 설정 축 / First Configuration Axis | 같이 확인할 것 / Check Together |
|---|---|---|
| 예측값이 거의 동일함 | ||
| Predictions are almost identical | prediction fallback, precision tail | raw/calibrated/denorm output, fp32 retry |
| 학습 중 NaN/Inf | ||
| NaN/Inf during training | precision/autocast, nonfinite diagnostics | scale statistics, loss, gradient, optimizer state |
| attention이 느림 | ||
| Attention is slow | attention backend, KernelManager | 실제 backend path, math fallback 여부 |
| actual backend path, whether math fallback is used | ||
| CUDA OOM | OOM/autobatch, prefetch, checkpoint staging | effective batch size, microbatch, pinned memory |
| GPU 사용률이 낮음 | ||
| Low GPU utilization | data pipeline, prefetch, H2D transfer | loader throughput, filesystem, CPU quota |
| checkpoint가 느림 | ||
| Checkpointing is slow | DCP writer, filesystem, lane | .done/.failed, writer threads, storage path |
| distributed hang | rank/world/local rank, process group lane | barrier, DCP participation, backend timeout |
| export 실패 | ||
| Export failure | export-safe path, dynamic shape, backend dependency | sample input, sidecar metadata, ONNX graph |
| tmpfs/RAM 압박 | ||
| tmpfs/RAM pressure | temp/cache directory, memmap path | /tmp, Inductor/Triton cache, checkpoint path |