반응형

전체 글 597

Crawl4AI: LLM 시대의 웹 스크래핑을 위한 AI 친화적 데이터 수집 가이드

TL;DRCrawl4AI는 LLM 기반 애플리케이션(RAG, AI 에이전트)을 위해 특별히 설계된 오픈 소스 웹 크롤러 및 스크래퍼입니다. 기존 스크래퍼와 달리, 웹 페이지를 LLM이 이해하기 쉬운 깨끗한 Markdown 형식으로 변환하는 것이 핵심 기능입니다. Playwright 기반의 비동기 아키텍처를 통해 빠른 성능과 고급 브라우저 제어(프록시, 세션 관리)를 제공하며, CSS/XPath뿐만 아니라 LLM 기반 추출 전략까지 지원합니다. 실무자들은 Crawl4AI를 Docker 이미지나 Python 라이브러리로 쉽게 배포하여 AI 데이터 파이프라인의 Ingestion 단계를 크게 단순화할 수 있습니다.1. Crawl4AI 개요: AI 중심 웹 크롤러1.1. Crawl4AI의 등장 배경 및 정의Cra..

개발 창고/AI 2025.10.26

Anything LLM: 로컬 중심 올인원 AI 애플리케이션

TL;DRMintplex Labs가 개발한 Anything LLM은 오픈소스이자 온디바이스 친화형 AI 애플리케이션으로, 문서 대화(RAG), AI 에이전트, 다중 모델을 단일 클라이언트에서 운용할 수 있는 점이 특징이다.맥·윈도우·리눅스용 네이티브 앱과 도커 배포를 동시에 제공하며, 기본 내장 LLM과 임베딩(DB·벡터DB)을 모두 로컬 환경에서 실행할 수 있다.v1.9.0(2025-10-09)에서는 실시간 스트리밍 에이전트, 웹에서 직접 파일 다운로드·처리 기능 등이 새롭게 추가되었다. Anything LLM 개요제품 정의Anything LLM은 “AI 활용의 모든 것을 하나의 애플리케이션에 담는 것”을 목표로 하는 Mintplex Labs의 대표 제품이다.데스크탑 클라이언트, 셀프호스트 서버, 클..

개발 창고/AI 2025.10.24

리스케일, AI용 데이터 인텔리전스 앞세워 디지털 엔지니어링 플랫폼 확장 나서

AI 기반 데이터 인텔리전스 활용, 디지털 엔지니어링 혁신 가속화 플랫폼TL;DR리스케일은 AI가 결합된 데이터 인텔리전스를 새롭게 도입하여 디지털 엔지니어링 플랫폼을 확장했다. 이 플랫폼은 모델링과 시뮬레이션 데이터를 자동으로 통합·관리하며, AI와 자동화 도구를 통해 R&D 효율성과 혁신 속도를 크게 높인다. 자연어 쿼리 기반 분석과 디지털 쓰레드 추적, 에이전트 자동화 등이 핵심 기능이며 항공우주, 자동차, 에너지 등 다양한 산업에서 활용되고 있다. 리스케일 플랫폼 개요리스케일은 클라우드 기반 고성능 컴퓨팅 리소스와 AI, 지능형 데이터 관리 도구를 통합해 모델링과 시뮬레이션 속도를 높이는 디지털 엔지니어링 플랫폼이다. 엔지니어와 과학자는 리스케일을 통해 복잡한 시뮬레이션 워크플로우를 자동화하고, ..

개발 창고/AI 2025.10.24

Sentient AGI의 OML 1.0: 오픈소스 AI의 경제적 지속 가능성을 위한 AI 지문 기술

TL;DRSentient AGI는 NeurIPS 2025에서 4편의 논문을 수락받으며, 오픈소스 AGI의 윤리적·경제적 문제 해결에 대한 혁신을 제시했다.그중 대표작인 OML 1.0(Open-Monetizable-Loyal)은 LLM에 24,576개의 비가역 지문(fingerprint)을 손실 없이 삽입하는 기술이다.이 기술은 모델 소유권 증명, 불법 복제 방지, 정당한 수익 배분을 가능케 하며 AI 경제 생태계의 기틀을 마련했다.OML 1.0은 암호학적 구조와 온체인 계약 시스템을 결합해, “열린(Open) 동시에 충성도 있는(Loyal)” AI 모델을 구현한다. Sentient AGI와 NeurIPS 2025의 성과2025년 NeurIPS에서 Sentient AGI는 총 4편의 연구 논문이 채택되었다..

개발 창고/AI 2025.10.24

Krea Realtime 14B 공개: 실시간 Text-to-video의 도약

TL;DRKrea Realtime 14B는 140억 파라미터를 가진 오픈소스 실시간 text-to-video 모델이다.단일 B200 GPU로 초당 11fps의 장편 비디오 생성이 가능하다.Self-Forcing 기법을 이용해 Wan 2.1 14B로부터 증류(distillation)되었다.기존 오픈소스 모델보다 10배 이상 크며, 실시간 편집·프롬프트 변경이 지원된다.Apache 2.0 라이선스로 HuggingFace에서 제공된다.Krea Realtime 14B란 무엇인가Krea AI는 2025년 10월 14일, Krea Realtime 14B를 공식 공개했다. 이 모델은 140억 파라미터 규모의 자동회귀(Auto-regressive) Text-to-video 생성기이며, Self-Forcing이라는 변환..

개발 창고/AI 2025.10.23

DeepSeek-OCR: 중국발 AI OCR 혁신 - 텍스트를 이미지로 10배 압축한 문맥 엔진

TL;DRDeepSeek AI가 2025년 10월 공개한 DeepSeek-OCR은 기존 OCR을 넘어 텍스트-이미지 변환 기반 압축 알고리즘으로 주목받고 있다.이 모델은 텍스트를 시각화하여 최대 10배(최대 20배) 압축 효율을 달성하며, A100 GPU 한 개만으로 하루 200,000페이지 이상을 처리한다.정확도는 97%, 오픈소스로 공개되어 HuggingFace와 GitHub에서 즉시 활용 가능하다.이 기술은 LLM의 컨텍스트 윈도 확장과 메모리 효율 최적화 측면에서 획기적인 변화를 제공한다.본문DeepSeek-OCR의 기술 개요DeepSeek-OCR은 중국 항저우 기반 스타트업 DeepSeek AI가 개발한 오픈소스 OCR 모델로, “Contexts Optical Compression”이라는 개념을..

개발 창고/AI 2025.10.22

AI 버블, 현실인가 과열인가 - 안드레이 카파시와 투자자들의 경고

TL;DR2025년 10월, 투자자 로런 테일러 울프와 오픈AI 공동 창립자 안드레이 카파시가 각각 "AI 버블"을 공개적으로 언급했다.울프는 "AI는 지금 명백한 버블 상태"라고 CNBC 인터뷰에서 밝히며, 수익성 없는 기업들에 대한 과도한 자본 유입을 지적했다.반면 카파시는 Fortune 인터뷰에서 "AI 모델은 아직 도달하지 못했다"며 기술 발전 속도가 과대평가되고 있다고 비판했다.AI 산업은 혁신과 과열의 경계에서 '기대 대비 현실'을 직면하고 있다.AI 버블 논의의 배경2025년 들어 전 세계 AI 시장은 폭발적인 자금 유입과 스타트업 난립 현상을 보이고 있다. 파운더스펀드, 안드리센 호로위츠, 세콰이아 등 대형 VC가 AI 인프라와 LLM(대규모 언어모델) 관련 기업에 수십억 달러 규모의 투자..

개발 창고/AI 2025.10.22

Magistral Small 24B: Mistral의 Apache 2.0 오픈소스 강화학습 모델

TL;DRMagistral Small(24B)은 Mistral이 소개한 강화학습 중심 LLM으로, 상용 모델과 견줄 만한 수학·코드 추론 능력을 보여주면서도 완전 오픈소스로 공개된 점이 핵심입니다. 자체 RL 스택으로 훈련되어 reasoning, multilingual, multimodal 처리 성능이 향상되었으며 Apache 2.0 라이선스 덕분에 재사용 자유도가 높습니다.본문Magistral 모델 개요Mistral의 Magistral 프로젝트는 "pure RL from scratch" 접근법으로, SFT(지도학습) 없이 강화학습(Reinforcement Learning, RL)만으로 모델을 훈련하는 새로운 파이프라인입니다.Magistral Medium은 상위 모델로, 이러한 RL 기반 학습을 통해 A..

개발 창고/AI 2025.10.21

Google AI, Gemma 기반 C2S-Scale 27B 모델 공개: 단일 세포 데이터 '언어'를 해독하다

TL;DR: Google AI는 2025년 10월 중순, Yale University와의 협력을 통해 Gemma-2 27B 아키텍처를 기반으로 하는 Cell2Sentence-Scale 27B (C2S-Scale 27B) 모델을 오픈소스로 발표했습니다. 이 모델은 고차원 단일 세포 유전자 발현 데이터를 LLM이 이해 가능한 '세포 문장' 형태로 변환하여 생물학적 추론을 가능하게 합니다. C2S-Scale 27B는 특히 '차가운 종양'을 면역 시스템에 보이게 하는 새로운 암 치료 경로에 대한 가설을 제시했으며, 이는 실제 살아있는 세포를 대상으로 한 실험에서 약 50%의 항원 제시 증가 효과로 검증되었습니다. 이는 AI가 단순 분석을 넘어 새로운 과학적 가설을 생성하고 실험을 가이드하는 이정표로 평가됩니다...

개발 창고/AI 2025.10.21

OML: AI 모델의 개방성과 소유권 통제를 조화시키는 새로운 원시 개념 (Open, Monetizable, Loyal)

TL;DR (Too Long; Didn't Read)OML(Open-access, Monetizable, and Loyal)은 AI 모델을 로컬에서 자유롭게 실행할 수 있도록 배포하면서도, 모델 소유자가 각 추론(inference)에 대한 사용 권한을 암호학적으로 적용하여 통제하고 수익을 창출할 수 있도록 설계된 새로운 원시 개념입니다. 이는 모델의 개방성(Openness)과 소유자 통제(Owner Control)라는 상충되는 목표를 조화시키려는 시도입니다. 초기 버전(OML 1.0)은 모델 자체에 고유한 디지털 지문(Fingerprinting)을 삽입하고 경제적 담보 시스템을 결합하여 무단 유출이나 오용을 적발하고 금전적 위험을 부과하는 방식으로 작동합니다. 2025년 10월에 발표된 아카이브 논문을 ..

개발 창고/AI 2025.10.20
반응형