상세 모니터링 활용하기

새롭게 추가된 상세 모니터링 기능을 통해 내 머신의 상태를 실시간으로 정밀하게 점검할 수 있습니다. 작업 중 서버가 느려지거나 학습 속도가 저하될 때, 이 기능을 통해 원인을 쉽고 빠르게 파악해 보세요.

1. 상세 모니터링이란?

상세 모니터링은 현재 실행 중인 머신의 CPU, GPU, 메모리(RAM), 디스크, 네트워크의 상태를 시각화된 그래프로 제공하는 기능입니다.

단순한 수치 확인을 넘어, 시간 흐름에 따른 변화 추이를 확인할 수 있어 시스템의 부하 시점이나 리소스 부족 현상을 파악하는 데 유용합니다.

📌 확인 방법

상세 모니터링 페이지는 다음 경로를 통해 접속할 수 있습니다.

  1. [대시보드]에서 모니터링을 원하는 머신을 선택하여 상세 페이지로 진입합니다.

  2. 사용률 그래프 우측에 위치한 [상세 모니터링] 버튼을 클릭합니다.

2. 데이터 조회 기준

그래프를 확인하기 전, 데이터가 어떻게 수집되고 조회되는지 확인해 보세요.

  • 갱신 주기: 모든 데이터는 30초마다 자동으로 새로고침되어 별도의 조작 없이도 최신 상태를 모니터링할 수 있습니다.

  • 조회 기간: 필요에 따라 최근 1일, 3일, 7일 간의 데이터 흐름을 선택하여 조회할 수 있습니다.

3. 어떤 데이터를 볼 수 있나요?

공통 제공 데이터

두 서비스 모두 AI 모델 학습 및 추론에 필수적인 핵심 지표를 제공합니다.

  • 시스템 리소스: CPU 사용률, 메모리(RAM) 사용량

  • 저장 공간: 디스크 사용량 및 여유 공간

  • 네트워크: 데이터 업로드/다운로드의 데이터양

  • GPU 상태: GPU 메모리, 연산 사용률, 온도, 전력, 클럭 속도

서비스별 차이점

  • 온디맨드 (On-Demand): 사용자가 주로 사용하는 작업 공간 위주의 직관적인 데이터를 보여줍니다. (예: 전체 다운로드/업로드 속도 합산 표기)

  • 리저브드 (Reserved): 베어메탈 급의 성능을 제공하므로, 더 세분화된 하드웨어 정보를 보여줍니다. (예: 디스크의 각 파티션별 경로(/, /home 등) 구분, 물리적 랜카드별 트래픽 구분)

4. 그래프, 어떻게 읽으면 되나요?

① CPU & 메모리

  • CPU 사용률 (CPU Usage): 현재 할당된 CPU 자원을 얼마나 점유하여 연산을 수행하고 있는지 나타내는 지표입니다. 수치가 100%에 근접할수록 CPU 부하가 높아 처리 대기 시간이 발생할 수 있음을 의미합니다.

  • 메모리 사용률 (Memory Usage): 현재 작업대가 얼마나 꽉 찼는지 보여줍니다.

② 저장 공간 (Storage)

하드디스크가 얼마나 채워져 있는지 확인합니다.

  • 온디맨드: 전체 용량 중 몇 %를 썼는지, 실제 몇 GB를 차지하고 있는지 보여줍니다.

  • 리저브드: 리눅스 시스템의 구조에 따라 선(Line)이 여러 개로 나뉠 수 있습니다.

  • / (루트): 운영체제가 설치된 공간

  • /home: 사용자 데이터가 저장되는 공간

  • /var: 로그 파일 등이 쌓이는 공간

내가 데이터를 저장하는 경로(주로 /home)의 그래프가 꽉 차지 않았는지 확인하세요.

③ 네트워크 (Network Traffic)

데이터를 외부에서 가져오거나, 외부로 보낼 때의 속도입니다.

  • 다운로드 (Receive): 데이터를 받아들이는 데이터의 총합입니다.

  • 업로드 (Transmit): 데이터를 내보내는 데이터의 총합입니다.

{{device}}_receive 처럼 표시된다면, 서버에 연결된 여러 인터넷 선(랜카드) 중 해당 장치의 속도를 의미합니다.

④ GPU 상세 분석 (AI 학습의 핵심)

AI 모델 학습 시 가장 중요한 GPU 상태를 5가지 관점에서 보여줍니다.

  1. GPU Memory (VRAM):

  • 모델과 데이터가 GPU 메모리에 얼마나 올라가 있는지 보여줍니다.

  • 활용: Out of Memory 에러가 난다면 이 그래프가 Total(한계선)에 도달했는지 확인하세요.

  1. GPU 연산 유닛 사용률 (Utilization):

  • GPU의 코어들이 실제로 얼마나 일을 하고 있는지(%) 나타냅니다.

  • 팁: VRAM 점유율은 높으나 연산 사용률이 현저히 낮을 경우, 데이터 로딩이나 전처리 과정에서의 병목 현상으로 인해 GPU가 유휴 상태일 가능성이 있습니다.

  1. GPU 온도 (GPU Temperature):

  • GPU가 얼마나 뜨거운지 보여줍니다. 온도가 너무 높으면 성능이 강제로 낮아질 수 있습니다.

  1. GPU 전력 (GPU Power Usage):

  • 현재 소모하고 있는 전력량입니다. 학습이 활발히 돌고 있다면 전력 소모량도 같이 올라갑니다.

  1. GPU 클럭 속도 (GPU Streaming Multiprocessor):

  • GPU의 심장 박동 속도입니다. 일반적으로 부하가 걸리면 속도가 빨라집니다.

모니터링 활용 팁

Last updated

Was this helpful?