훈련 실행하기
Contents
훈련 실행하기#
tmux#
# tmux 실행
tmux
백그라운드 및 다중 터미널 분할
tmux 명령어 및 단축키
tmux new -s <session-name>
: 지정한 세션 명으로 세션 시작tmux ls
: 세션 목록 확인tmux attach -t <session-name>
: 세션 접속ctrl+b
,%
: 터미널 세로 분할ctrl+b
,"
: 터미널 가로 분할ctrl+b
,d
: 세션 빠져나오기
실행#
기본 명령어#
dr-update
: configure 업데이트dr-upload-custom-files
: custom 업데이트dr-stop-training
: 훈련 작업 종료dr-start-training
: 훈련 시작-w
(wipes) 옵션 : 모델명이 있는 폴더에 데이터가 존재하면 제거
dr-increment-training -f
: 모델명 뒤의-숫자
를 하나 더하여 클론 훈련 진행(예) 현재 모델명이
test-1
으로 훈련중일 때, 아래와 같이 명령어를 작성하면test-2
로 클론한 모델이 훈련 됨.
명령어 세트#
실행
dr-stop-training && dr-update && dr-upload-custom-files && dr-start-training
증가 실행
dr-stop-training && dr-increment-training -f && dr-update && dr-upload-custom-files && dr-start-training
트러블슈팅#
Selected path s3://.../... Delete it, or use -w option. Exiting.
에러버킷안에 이미 지정한 모델명으로 된 폴더가 존재하여 발생하는 에러.
해당 모델명 폴더를 삭제하거나
-w
옵션(wipes)을 줘서 자동으로 삭제되도록 한다.dr-stop-training && dr-start-training -w
sagemaker is not running
에러흔히 발생하는 일시적 오류이다. 마찬가지로 아래 명령어를 통해 다시 시도한다.
dr-stop-training && dr-start-training -w