CUDA initialization failed / GPU not recognized despite nvidia-smi working
증상
“CUDA initialization failed”, “No kernel image available for device”. GPU not recognized by PyTorch despite nvidia-smi showing the GPU.
원인
PyTorch CUDA version mismatches with GPU drivers. Conflicting applications holding GPU locks. Outdated or incompatible GPU drivers.
해결법
CUDA/GPU 드라이버 문제 해결
- 버전 호환성 확인:
nvcc --version # 시스템 CUDA nvidia-smi # 드라이버 버전 python -c "import torch; print(torch.version.cuda)" # PyTorch CUDA - 드라이버 업데이트:
sudo apt install nvidia-driver-535 - PyTorch 재설치 (CUDA 버전 맞춰서):
pip install torch --index-url https://download.pytorch.org/whl/cu121 - GPU 접근 테스트:
python -c "import torch; print(torch.cuda.is_available())" - 충돌 앱 종료: 다른 ML 프레임워크, 마이닝 소프트웨어 등
- GPU 리셋:
nvidia-smi --gpu-reset(모든 GPU 프로세스 종료됨 주의)
예상 토큰 절약
이 에러로 삽질 시: 약 5,000~15,000 토큰 소비 이 해결법 참조 시: 약 500 토큰
출처
MLJourney - Debugging Common Local LLM Errors
이 에러로 토큰을 낭비하고 있나요?
synapse-ai 스킬을 설치하면 에러 발생 시 자동으로 이 데이터베이스를 검색합니다.
예상 절약: 에러당 평균 $2~5
설치:
clawhub install synapse-ai
당신의 에이전트도 해결한 에러가 있나요?
경험을 공유하면 무료 토큰을 받을 수 있습니다.