반응형

AI/Technical 49

Ollama로 로컬 LLM 실행하기: API·Modelfile·RAG 흐름(mermaid 도식화)

TL;DROllama는 로컬에서 LLM을 실행하고 REST API로 호출할 수 있게 해주는 런타임/서버다. (기본 예시는 http://localhost:11434)핵심 엔드포인트는 /api/generate, /api/chat, /api/embed이며, 임베딩(/api/embed)은 RAG 파이프라인의 출발점이다.Modelfile로 FROM, PARAMETER, SYSTEM, TEMPLATE 등을 선언해 "업무 목적"에 맞춘 커스텀 모델을 패키징할 수 있다.OpenAI 호환 API는 공식 문서/블로그에 안내돼 있으나, 시점에 따라 지원 범위가 변해왔으므로(예: 과거 이슈) 실제 버전 기준으로 확인이 안전하다.본문1. Ollama 개념: "로컬 실행 + API 서빙"Ollama는 로컬에서 모델을 실행하고, ..

AI/Technical 2025.12.31

LangChain 실무 가이드: v1 아키텍처, LCEL, LangGraph·LangServe·LangSmith까지

TL;DRLangChain은 LLM 기반 애플리케이션과 에이전트를 빠르게 조립하기 위한 오픈소스 프레임워크(및 생태계/플랫폼)다.핵심 조립 방식은 LCEL(LangChain Expression Language)과 Runnable 중심이며, 스트리밍/배치/비동기 같은 실행 특성을 일관되게 다루는 방향으로 발전했다.LangGraph는 "상태를 갖는(stateful) 장기 실행 에이전트"를 그래프 형태로 오케스트레이션하는 저수준 프레임워크다.LangServe는 LangChain의 runnable/chain을 FastAPI 기반 REST API로 배포하는 도구다.보안/운영 측면에서 최근(2025-12) 직렬화(Serialization) 주입 취약점(CVE-2025-68664/68665)이 공개되어, 영향 버전은..

AI/Technical 2025.12.30

바이브코딩(Vibe Coding) 하는 방법: 프롬프트·테스트·가드레일로 빠르게 만들기

TL;DR바이브코딩은 코드를 자세히 읽기보다 자연어 지시→실행 결과→수정 요청을 반복해 빠르게 결과물을 만드는 방식입니다.프로토타입/개인 도구/데모에는 강력하지만, 운영·보안·유지보수가 필요한 제품에는 그대로 적용하면 위험합니다.실무에서는 "완전한 바이브코딩"보다는 바이브(속도) + 엔지니어링(검증)을 섞는 하이브리드가 안정적입니다.Cursor/Replit Agent/Codex/Claude Code 같은 에이전트형 도구는 여러 파일 편집·명령 실행까지 자동화해 반복 비용을 줄여줍니다.본문1. 바이브코딩(바이브 코딩) 정의와 “어디까지가 바이브인가”바이브코딩(vibe coding)은 Andrej Karpathy가 2025년 2월에 "코드가 존재하는 걸 잊고 자연어로 밀어붙이는" 방식으로 언급하며 확산된 개..

AI/Technical 2025.12.28

프롬프트 설계 전략: 상황별 실무 예시 10종(템플릿·출력계약·보안까지)

TL;DR“상황”을 먼저 분류하고(요약/추출/분류/생성/에이전트), 그에 맞는 출력 계약 + 제약 + 검증 규칙을 붙이면 품질이 안정된다.아래 예시는 전부 레이어 분리(System/Developer/User) 형태로 작성했고, 운영에 필요한 JSON 스키마/형식 규칙을 포함한다.에이전트/도구 호출 시에는 프롬프트 문구보다 권한 최소화 + 출력 검증 + 컨텍스트 격리가 핵심이다.각 예시의 “예상 출력”은 실제 모델 출력이 아니라, 계약이 잘 지켜졌을 때의 샘플 형태를 보여준다.본문0) 상황별 프롬프트 선택 가이드(요약 표)상황1차 목표추천 전략출력 형태문서 요약정보 손실 최소 + 규칙 준수제약 강화 + 구조화 요약Markdown/JSON텍스트/표 추출(ETL)파싱 안정성스키마 강제 + 검증JSON분류/라우..

AI/Technical 2025.12.27

MoE(Mixture of Experts) 쉽게 이해하기: 라우팅, Top-1/Top-2, Mixtral 서빙과 K8s 체크

TL;DRMoE(Mixture of Experts)는 토큰마다 일부 Expert만 선택해 계산하는 "희소(조건부) 계산" 구조다.트랜스포머에서는 주로 Dense FFN(MLP)을 MoE FFN(Experts+Router)으로 교체하는 형태가 표준이다.라우팅은 운영 친화적인 Top-1(Switch)과, 표현력 여지가 있지만 비용이 커지는 Top-2(Mixtral)가 대표 선택지다.실제 병목은 라우팅 쏠림·capacity overflow(드롭)·all-to-all 통신·메모리 대역폭에서 자주 발생하므로 "서빙 엔진 + 관측(모니터링) + K8s 토폴로지 튜닝"을 함께 봐야 한다.본문1) MoE를 한 문장으로: "전문가들 + 배분자(라우터)"MoE는 이름 그대로 여러 전문가(Experts)가 있고, 입력(토큰..

AI/Technical 2025.12.27

Anthropic의 Bloom 프레임워크: AI 모델 행동 자동 평가의 새로운 표준

TL;DRAnthropic이 2025년 12월 18일 오픈소스 에이전틱 프레임워크 Bloom을 발표했습니다. Bloom은 researcher가 지정한 단일 행동을 입력하면, 자동으로 평가 시나리오를 생성하고 AI 모델이 해당 행동을 얼마나 자주(빈도), 얼마나 심하게(심각도) 나타내는지 정량적으로 측정합니다. 4단계 에이전틱 파이프라인(이해, 아이디어, 롤아웃, 판정)으로 작동하며, 16개 프론티어 모델을 대상으로 망상적 순응, 자기 보존, 지시된 사보타주, 자기 선호 편향 등 4가지 행동을 벤치마킹했습니다. 판정 모델(Claude Opus 4.1)은 인간 평가자와 0.86의 높은 스피어만 상관계수를 보여 신뢰성을 검증했습니다.서론: 행동 평가의 확장성 위기전통적 AI 평가 방식의 한계프론티어 AI 모델..

AI/Technical 2025.12.23

A2UI(Agent-to-User Interface): Google의 오픈 표준으로 AI 에이전트가 맞춤형 UI를 즉석에서 생성하다

TL;DRGoogle이 2025년 12월 공개한 A2UI (Agent-to-User Interface)는 AI 에이전트가 텍스트가 아닌 선언적 JSON으로 사용자 인터페이스를 동적으로 생성하는 오픈소스 프로토콜입니다. 기존의 "텍스트 기반 다중 턴 상호작용" 문제를 해결하며, 보안 우선 (Data, not Code), LLM 친화적 구조, 프레임워크 독립적 세 가지 핵심 철학으로 설계되었습니다. 현재 v0.8 안정 버전으로 Google Opal, Gemini Enterprise 등에서 프로덕션 운영 중입니다.본문1. 왜 A2UI인가? 기존 텍스트 기반 상호작용의 한계오늘날 대부분의 AI 에이전트는 사용자 질문에 긴 텍스트로 응답합니다. 간단한 식당 예약만 해도 불필요하게 많은 대화 턴(Turn)이 발생합..

AI/Technical 2025.12.23

구글 FunctionGemma: 스마트폰에서 100% 로컬 실행되는 270M 초경량 에이전트 모델

TL;DR구글이 2025년 12월 17일 FunctionGemma를 공개했습니다. Gemma 3 270M 기반 초경량 모델로, 자연언어 명령을 실시간으로 도구(함수) 호출로 변환합니다. 스마트폰과 브라우저에서 인터넷 없이 100% 로컬 실행되어 완벽한 개인정보 보호와 즉각 응답 속도를 보장합니다. Fine-tuning으로 정확도를 58%에서 85%로 끌어올릴 수 있으며, 모든 배포 도구(LiteRT, Ollama, vLLM 등)가 지원됩니다.본문FunctionGemma란 무엇인가?FunctionGemma는 구글 DeepMind가 개발한 Gemma 3 270M 기반의 특화 모델입니다. 기존 대형 언어 모델이 '대화'만 하는 데 그친 반면, FunctionGemma는 자연언어를 구조화된 함수 호출로 변환하여..

AI/Technical 2025.12.19

CPU와 GPU, TPU의 차이를 완벽하게 이해하기

TL;DRCPU, GPU, TPU는 서로 다른 작업에 최적화된 프로세서다. CPU는 일반적인 작업에 다재다능하게 대응하는 반면, GPU는 병렬 연산에 강해 딥러닝 훈련에 사용되고, TPU는 구글이 개발한 AI 전용 칩으로 행렬 연산에 특화되어 있다. TPU는 추론 작업에서 최대 4배 뛰어난 성능 대비 가격을 제공하며, 에너지 효율에서도 GPU 대비 60-65% 적은 전력을 소비한다. 각 프로세서는 용도에 따라 최적의 선택이 결정되므로, 워크로드의 성격을 이해하는 것이 중요하다.본문1. CPU(중앙처리장치): 다목적의 뇌CPU는 컴퓨터의 중추신경계로, 거의 모든 계산과 제어 작업을 담당한다. 현대 CPU는 일반적으로 4~64개의 코어를 가지고 있으며, 서버급 프로세서는 128개 이상의 코어를 탑재하기도 한..

AI/Technical 2025.12.17

마크다운에서 머메이드(Mermaid) 사용법 완벽 가이드

TL;DR머메이드(Mermaid)는 마크다운 문법처럼 텍스트로 다이어그램을 정의하는 JavaScript 라이브러리다. 마크다운의 코드 블록에 ```mermaid를 선언하면 브라우저가 자동으로 다이어그램을 렌더링한다. GitHub(2022년 이후), GitLab(13.0+), Notion, Obsidian 등 주요 플랫폼에서 기본 지원한다. 순서도, 시퀀스 다이어그램, 간트 차트, ER 다이어그램, 클래스 다이어그램 등 10가지 이상의 다이어그램 타입을 지원한다.본문머메이드란?머메이드는 마크다운 영감을 받은 텍스트 문법으로 다이어그램과 차트를 동적으로 생성하는 JavaScript 기반 도구다. Knut Sveidqvist가 주도하며 CommonMark 커뮤니티와 함께 표준화 작업을 진행 중이다.가장 큰 장..

AI/Technical 2025.12.16
반응형