DRfC 시작하기#

개요#

  • DeepRacer for Cloud 공식 홈페이지

  • DRfC(Deepracer for Cloud)는 딥레이서를 콘솔이 아닌 클라우드 및 로컬에서 훈련시키는 것을 말합니다.

    이러한 방식은 훈련 비용 절감 및 자유도가 높은 훈련 환경을 제공합니다.

  • 이 강의에서는 AWS Spot Instance를 활용한 모델 훈련 방법에 대해 소개합니다.

    Spot Instance 란, 경매 방식으로 EC2의 남는 자원을 저렴한 비용으로 이용하는 것을 말합니다.

  • AWS EC2, S3, Ubuntu, Docker 등 다양한 배경지식이 필요로 합니다.

스팟 인스턴스 요금 예시 (실시간 변동)#

type

spot price (변동)

vCPU

Memory

GPU

동시훈련 가능 수

c5.2xlarge

$0.173

8

16GB

1개

c5.4xlarge

$0.268

16

32GB

3개

g4dn.2xlarge

$0.2256

8

32GB

T4 16GB

1개

g4dn.4xlarge

$0.3612

16

64GB

T4 16GB

3개

g4dn.8xlarge

$0.6528

32

128GB

T4 16GB

8개

Service Quotas#

  • GPU 인스턴스를 활용하면 훈련 속도가 훨씬 더 빠릅니다.

  • 그러나 AWS 개인 계정의 경우 GPU 인스턴스를 spot(경매) 방식으로 요청할 수 있는 할당량이 주어져있지 않습니다.

  • 만약, 개인 게정에서 GPU 인스턴스를 spot(경매) 요청을 하고자 한다면 Service Quotas 에서 할당량 증가를 요청해야 합니다.

    • Service Quotas > AWS 서비스 > EC2 > All G and VT Spot Instance Requests > 할당량 증가 요청 > 할당량 값 변경 (32개 정도면 충분)

  • 할당량 증가 요청을 하면 검토 후 승인이 나야합니다. 그러나 승인이 거절되는 경우가 많습니다.

사전 준비 사항#

  1. S3 버킷 생성 (2개) –region us-east-1

    • local 용도의 버킷 (예) drfc-….-local

    • upload 용도의 버킷 (예) drfc-….-upload

  2. EC2 Role 생성

    • S3 FullAccess

  3. Security Group 생성

    • SSH : 22

    • Web Monitoring : 8080-8100

    • ~~VNC : 5900-5910~~

    • ~~Jupyter : 8888~~

  4. 키페어 생성