반응형

AI/Infrastructure 119

Ubuntu에서 `nvidia-smi` 설치 및 CUDA 테스트 가이드

Ubuntu에서 nvidia-smi 설치 및 CUDA 테스트 가이드설명: Ubuntu에서 NVIDIA 드라이버 설치로 nvidia-smi를 사용 가능하게 만들고, CUDA Toolkit 설치 후 nvcc와 간단한 커널 및 deviceQuery로 테스트하는 방법을 단계별로 정리합니다. Jammy(22.04), Noble(24.04) 기준으로 동작하며, 20.04도 유사합니다.개요 (Introduction)이 글은 “ubuntu에서 nvidia-smi 설치 및 cuda 테스트” 방법을 처음부터 끝까지 안내합니다. 기본 흐름은 다음과 같습니다.GPU 인식 확인 → 2) 권장 NVIDIA 드라이버 설치(nvidia-smi 포함) → 3) CUDA Toolkit 설치 → 4) 환경변수 설정(필요 시) → 5) 샘..

AI/Infrastructure 2025.09.01

AI 개발 환경 구성: Anaconda, Jupyter Notebook, GPU 설정하기

1. 왜 AI 개발 환경 구성이 중요한가?AI 프로젝트를 시작하기 전, 개발 환경을 올바르게 설정하는 것은 모델 학습만큼 중요합니다.환경 구성이 잘못되면 다음과 같은 문제가 발생할 수 있습니다.라이브러리 버전 충돌GPU가 인식되지 않아 학습 속도 저하코드 실행 환경이 다른 팀원과 달라 재현 불가능1.1 환경 구성 목표독립된 Python 실행 환경 구성필수 라이브러리 설치GPU(CUDA) 설정코드 작성과 실행을 편리하게 하는 도구 준비2. 필수 도구 개요2.1 AnacondaPython 환경과 패키지 관리를 한 번에 할 수 있는 툴프로젝트별 가상환경을 만들어 라이브러리 충돌 방지2.2 Jupyter Notebook웹 브라우저에서 Python 코드를 작성·실행할 수 있는 대화형 환경데이터 분석과 실험 기록에..

AI/Infrastructure 2025.08.13

머신러닝 기본 개념: 지도·비지도·강화학습 쉽게 이해하기

1. 머신러닝(Machine Learning)이란?머신러닝은 컴퓨터가 데이터를 학습하여 스스로 규칙을 찾아내고 예측을 수행하는 기술입니다.즉, 사람이 ‘규칙’을 직접 알려주는 대신, 컴퓨터가 ‘예시 데이터’를 보고 규칙을 스스로 찾아냅니다.1.1 일상 속의 머신러닝 예시스팸 메일 필터: 스팸과 정상 메일의 패턴을 학습하여 자동 분류음성 인식: 수많은 음성 데이터로 발음을 학습추천 시스템: 시청·구매 이력 기반 상품 추천자율주행 자동차: 도로 영상·센서 데이터로 주행 패턴 학습2. 머신러닝의 세 가지 학습 방식머신러닝은 크게 지도학습, 비지도학습, 강화학습으로 나눕니다.2.1 지도학습 (Supervised Learning)**정답(Label)**이 있는 데이터로 학습입력(X) → 모델 → 출력(y) 예측예..

AI/Infrastructure 2025.08.11

Kubernetes Secret: 민감 정보 안전하게 관리하기

개요Kubernetes에서는 다양한 애플리케이션 설정과 정보를 저장하고 전달해야 합니다. 이 중에서도 비밀번호, API 키, 토큰 등 민감한 정보를 안전하게 다루는 방법이 바로 Secret 리소스입니다. 이 문서에서는 Secret의 개념, 생성 방법, Pod와의 연동 방식, 실무 적용 팁까지 깊이 있게 살펴봅니다.1. Secret이란?Kubernetes Secret은 암호화되거나 인코딩된 상태로 민감 데이터를 저장하고 Pod에 주입하는 리소스입니다.보안 강화를 위해 ConfigMap과 분리되어 사용base64 인코딩으로 저장되며, 암호화는 etcd 레벨에서 적용 가능Pod에 환경변수나 Volume 형태로 주입 가능2. Secret의 주요 사용 사례DB 접속 비밀번호 저장 및 주입외부 API 인증 토큰 관..

AI/Infrastructure 2025.08.09

Kubernetes Job: 완전 종료 보장형 일회성 작업 관리

개요Kubernetes에서 Job 리소스는 일회성(One-time) 작업 또는 반복되지 않는 작업을 실행할 때 사용됩니다. 배치 처리, 마이그레이션, 데이터 변환 등 반드시 완료되어야 하는 작업에 매우 유용합니다. 이 문서에서는 Job의 개념부터 동작 방식, 구성 예제, 실무에서의 모범 사례까지 자세히 설명합니다.1. Job이란 무엇인가?Job은 하나 이상의 Pod를 생성해 작업을 수행하고, 그 작업이 완료될 때까지 감시하는 리소스입니다.Pod가 성공적으로 완료되면 Job도 완료로 간주됨실패한 경우 재시도 정책에 따라 다시 실행주로 일회성 데이터 처리에 사용✅ 예시 상황DB 마이그레이션 스크립트 실행통계 처리용 파이썬 배치비정기적으로 수행되는 백업 또는 리포트 생성2. Job의 동작 방식Job은 다음과 ..

AI/Infrastructure 2025.08.08

Kubernetes CronJob 완전 정복 : 정해진 스케줄에 반복 실행되는 작업을 안정적으로 관리하는 방법

목차CronJob이란?CronJob이 필요한 이유기본 구조와 동작 방식Job vs CronJob 비교기본 YAML 구성 예제스케줄 표현식(Cron 식) 이해하기실행 이력 관리(JobHistoryLimit)ConcurrencyPolicy & RestartPolicy실전 사용 시나리오운영 시 주의사항 및 팁자주 묻는 질문 (FAQ)요약 정리1. CronJob이란?Kubernetes CronJob은 정해진 일정에 따라 Job을 자동으로 실행하도록 설계된 컨트롤러입니다.리눅스 crontab처럼, 특정 작업을 주기적으로 자동 실행하며 백업, 로그 정리, 데이터 수집 등에 활용됩니다.2. 왜 CronJob이 필요한가?일회성 실행 이후 자동으로 종료되는 Job과 달리, 반복적인 작업을 자동으로 수행해야 하는 경우에 ..

AI/Infrastructure 2025.08.07

Kubernetes Secret 완전 정복 : 민감한 데이터를 안전하게 저장하고 관리하는 방법

목차Secret이란?ConfigMap과 Secret의 차이Secret의 주요 특징Secret 타입 종류Secret 생성 방법Secret을 Pod에서 사용하는 방법Secret 관리와 보안 패턴실제 사용 시나리오운영 환경에서의 보안 고려사항자주 묻는 질문 (FAQ)요약 정리1. Secret이란?Kubernetes Secret은 비밀번호, 인증 토큰, TLS 인증서처럼 민감한 데이터를 안전하게 저장하고, Pod나 다른 Kubernetes 리소스에서 참조할 수 있도록 하는 리소스입니다.데이터는 Base64 인코딩 형태로 저장됩니다.API 서버와 etcd에 저장되며, 필요 시 암호화 설정 가능Pod에 환경변수 또는 볼륨 파일 형태로 주입 가능중요: Base64는 암호화가 아닌 단순 인코딩입니다. 암호화 저장을 원..

AI/Infrastructure 2025.08.06

Kubernetes Job 완전 정복

25차시: Kubernetes Job 완전 정복일회성 작업과 배치 작업을 컨테이너로 안전하게 실행하는 방법목차Kubernetes Job이란?왜 Job이 필요한가?Job의 주요 특징Job vs CronJob vs Deployment기본 YAML 구성 예제Job 실행 및 모니터링 방법실패 처리 및 재시도 전략병렬 처리(Parallelism)와 Completions실제 사용 시나리오운영 시 주의사항자주 묻는 질문 (FAQ)요약 정리1. Kubernetes Job이란?Kubernetes Job은 한 번 또는 지정된 횟수만큼 실행되는 작업을 안정적으로 수행하는 Kubernetes 워크로드 리소스입니다.Deployment와 달리, Job은 지속적인 서비스를 제공하지 않고, 작업이 완료되면 종료됩니다.대표적인 예:데..

AI/Infrastructure 2025.08.05

Kubernetes DaemonSet 완전 정복: 모든 노드에 Pod를 자동 배포하는 방법

목차DaemonSet이란 무엇인가?왜 DaemonSet이 필요한가?DaemonSet의 주요 특징기본 YAML 구성 예제실제 사용 시나리오 예시DaemonSet vs Deployment vs StatefulSetDaemonSet 수정 및 삭제 방법자주 발생하는 오류와 해결 방법자주 묻는 질문 (FAQ)요약 정리1. DaemonSet이란 무엇인가?DaemonSet은 Kubernetes에서 제공하는 워크로드 리소스 중 하나로, 클러스터의 모든 노드에 동일한 Pod를 하나씩 배포하는 역할을 합니다.예를 들어, 클러스터의 모든 노드에 로그 수집 에이전트(fluentd), 모니터링 에이전트(prometheus node exporter) 등을 배포해야 할 때 유용합니다.특징 요약항목설명배포 대상모든 노드(또는 조건에..

AI/Infrastructure 2025.08.04

Kubernetes Deployment 완전정복: Pod 배포와 업데이트 자동화의 핵심 리소스

Kubernetes Deployment: 무중단 배포를 위한 핵심 리소스Kubernetes에서 Deployment(디플로이먼트) 는 실제 운영 환경에서 가장 많이 사용되는 Pod 관리 리소스입니다.단순히 Pod를 실행하는 것에 그치지 않고, 버전 업데이트, 롤백, 스케일링, 자동 복구 기능까지 포괄합니다.이번 글에서는 다음과 같은 내용을 다룹니다:Deployment란 무엇인가?왜 ReplicaSet보다 Deployment를 사용해야 하는가?YAML 예시와 명령어 실습롤링 업데이트와 롤백실전 운영 팁 및 자주 묻는 질문1. Deployment란?Deployment는 내부적으로 ReplicaSet을 생성하고 관리하며, 사용자에게는 상위 레벨의 배포/운영 기능을 제공합니다.쉽게 말해,"Deployment는 내..

AI/Infrastructure 2025.08.03
반응형