반응형

SW/인공지능 321

R3M 완전 가이드: Ego4D로 학습한 로봇 조작 visual encoder, 왜 쓰고 어떻게 붙이는가

R3M, 바빠도 이해되는 한판 정리: 로봇 조작을 위한 Universal Visual Representation 가이드 (2025)펀더멘탈 팀 스터디에서 임정환 발표(준비: 정영성)를 바탕으로 재구성했습니다. 로봇이 아직도 수건 하나 제대로 못 접는 이유—딱 그 지점부터 풀어봅니다.한 줄 요약: R3M은 거친 1인칭 인간 영상에서 로봇이 실제로 신경 써야 할 것들만 압축해 뽑아내고, 그 embedding을 imitation learning에 꽂아 데이터가 적어도 성능을 끌어올린다.너무 어렵게 가지 않을게요. 왜 이런 게 필요했는지부터 무엇을 어떻게 했는지, 실험에서 뭐가 진짜 먹혔는지, 어디까지가 한계인지까지—현장감 있게, 대화하듯 정리합니다. 2025년 관점에서 여전히 유효한 포인트들도 곁들였어요. ..

SW/인공지능 2025.08.16

Gaussian LSS란? BEV 인식 기본 개념부터 depth uncertainty까지 쉽게 정리

Gaussian LSS, 한눈에 끝내기 (2025) — 한국어 로컬라이즈드 가이드“모델이 ‘여긴 좀 불확실해’라고 솔직히 말하고, 그 uncertainty를 그대로 계산에 반영하면 perception이 더 안전해집니다.”바퀴 달린 컴퓨터가 하늘로 뜨지 않고도 **bird’s‑eye view (BEV)**를 얻는 방법, 그리고 깊이 정보를 확실하지 않음까지 포함해서 다루는 **Gaussian LSS (Lift‑Splat‑Shoot)**를 이야기합니다. 수식 맛은 살리되, 어렵지 않게. 중간중간 비유도 끼얹고요. 커피 한 잔 들고 시작해요. (막 볶은 원두 향, 고소하게 올라오죠.) TL;DR 먼저무엇: 기존 LSS에 “픽셀별 depth mean(μ), variance(σ²)” 예측을 붙여서 각 픽셀을 3..

SW/인공지능 2025.08.15

GPT-5 벤치마크 총정리 2025: SimpleBench 진실, ARC-AGI vs Grok, LM Arena 최신 순위

GPT‑5 하이프 vs 리얼리티 (2025): 체온 있는 현장 가이드 TL;DRGPT‑5는 더 큰 단일 모델이라기보다 orchestration 플랫폼에 가깝습니다. 내부적으로 fast reasoning, routing 같은 여러 sub‑model을 묶어 작업마다 맞는 도구를 자동으로 고릅니다.Benchmarks는 일부 강하고 일부는 미지근. LM Arena에선 빠르게 치고 올라오지만 ARC‑AGI에선 Grok이 앞섰다는 말이 나옵니다. SimpleBench 인간 초과 주장? 아직은 검증 필요. 게다가 발표 chart의 y‑axis가 이상하다는 지적.가격: $10 / 1M output tokens. Claude Opus 4.1의 $75 / 1M output tokens와 비교하면 꽤 공격적.코딩 체감: s..

SW/인공지능 2025.08.13

2025 AI 코드 에이전트 가이드: Cursor·Windsurf·Claude Code로 MVP 10배 빨리 만드는 법

하드코어 AI Coding Tools가 다시 불 붙였다 — 그리고 Beginner가 진짜 해야 할 것 AI code agents(Cursor, Windsurf, Claude Code, ChatGPT/Copilot)은 단순한 autocomplete가 아니라 동료 같은 빌더다. 한 줄로 요약하면 이거예요: “Pros build with AI. Beginners learn with AI.” 경험자는 AI로 만들고, 초보자는 AI로 배운다. 왜 “하드코어” 툴이 다르게 느껴질까일반 assistant는 Q&A 중심, snippet 복사/붙여넣기.하드코어 agent는:repo 구조·의도까지 파악하고,architecture 제안(트레이드오프까지 설명),파일을 end‑to‑end로 생성·lint·tests·env..

SW/인공지능 2025.08.12

Vibe coding으로 1시간 만에 MVP 배포: Deep Agent(Abacus AI) 실전 가이드 [2025]

2025년 Vibe Coding: Prompt → Production, Deep Agent로 끝내는 실전 플로우한 시간 남짓—정확히는 세 번의 20분 스프린트—에 거의 배포 직전 수준의 앱 3개를 뚝딱. 핵심은 요령이 아니라 플랜 → 실행 → 미세조정 루프입니다. TL;DRVibe coding은 AI agent에게 무거운 일을 맡기고, 우리는 방향과 기준을 잡아주는 방식입니다. Deep Agent(Abacus AI의 Chat LLM Teams 포함)를 쓰면 VM이 뜨고, 코드가 생성되고, 테스트가 돌아가고, 심지어 deploy와 domain, database까지 자동 세팅됩니다. 나는 음성으로 길게 요구사항을 말하고—prompt를 정제한 뒤—짧은 피드백 루프로 결과물을 다듬었습니다.한 줄 요약: 코딩부..

SW/인공지능 2025.08.11

Deep Agent 실사용 후기: 웹사이트부터 여행 일정까지 만들어주는 진짜 AI 비서

요즘 AI가 어쩌고저쩌고 하도 말이 많잖아요. 근데 솔직히 말해서 다 비슷비슷하다고 느꼈어요. 텍스트 좀 뽑고, 이미지 좀 만들어주는 거? 이제 놀랍지도 않죠. 근데요, 제가 Deep Agent라는 걸 만나고 진짜 ‘헉’ 소리 났습니다.제가 AI 가지고 이런 반응한 거 진짜 오랜만이에요. 그냥 기능이 많은 게 아니라, 뭘 시켜도 “알았어요~” 하고 알아서 해내는 게 놀라워요. 말 그대로 AI 직원을 한 명 뽑은 느낌이랄까? Deep Agent? 뭔데 이렇게 대단한 거야?Abacus AI에서 만든 AI 에이전트로 Chat LLM Teams 플랫폼에서 작동함웹사이트 제작, 컴퓨터 제어, 리서치, 이메일 작성 등 다양한 작업 수행 가능단순한 챗봇 수준이 아닌, 복잡한 프로젝트도 스스로 처리 가능간단히 말하..

SW/인공지능 2025.08.07

무료 AI 툴로 GitHub 코드 자동 문서화·팟캐스트까지! 2025 개발자 필수 가이드

GitHub에서 바로 써먹는 4가지 무료 AI 툴: 2025 개발자 필수템 1. 왜 이 글을 쓰게 됐을까 — 야근과 딜레이 사이에서코드 덩어리를 ChatGPT나 Claude에게 던져 놓고 “제발 헛소리하지 마라”라고 빌어본 적 있다면, 이 글이 토큰 절약과 정확도 향상에 직빵입니다. 2. Gingest — repo 전체를 한 장의 markdown으로Gingest가 뭔가요?Gingest는 어떤 GitHub URL이든 받아서 프로젝트 전부를 단일 markdown 파일로 뚝—하고 변환합니다. 디렉터리 트리, 코드, docs까지 LLM-friendly 포맷으로 깔끔하게 정리된 파일 하나 끝. 왜 써야 하죠?Hallucination 감소. 모델이 모든 컨텍스트를 한눈에 보니 덜 헷갈립니다.Token 절약. ..

SW/인공지능 2025.08.06

Alpha Evolve 후기: 구글이 만든 차세대 AI, 정말 프로그래머를 대체할까?

이게 AI라고? 내가 알던 거랑은 완전 다르다Alpha Evolve는 기존 AI들과 차원이 다른 스스로 학습하고 진화하는 시스템이다Alpha Coder보다 더 뛰어난 성능을 보여주며, 새로운 존재처럼 느껴진다어제 Google이 발표한 Alpha Evolve, 진짜 보고 입이 떡 벌어졌어요. 예전부터 AI 기술이니 뭐니 하면서 여러 가지가 나왔지만, 솔직히 말해서 "또 하나 나왔네~" 수준이었거든요. 근데 이번엔 뭔가 확실히 다릅니다. 이건 그냥 기존에 있는 걸 정리하는 수준이 아니라, 스스로 생각하고, 배우고, 개선하는 그런 녀석이에요.전에 Alpha Coder라는 것도 있었죠? 그걸로 이미 세계적인 프로그래머들을 능가했다고 들었는데, 이번 Alpha Evolve는 그걸 훌쩍 뛰어넘었습니다. 그냥 업그레..

SW/인공지능 2025.08.05

AGI가 4년 안에 온다? Google DeepMind Manish Gupta 2029 로드맵

Google DeepMind와 함께 만드는 포용적 AI 시대: Manish Gupta 인터뷰 비하인드Google DeepMind 연구 총괄 Manish Gupta와의 대화에서 AlphaFold·AlphaGenome·AI Co‑Scientist가 과학을 어떻게 재창조하고 있는지, 2029년까지 AGI가 도달할 가능성, AI 시대에 살아남기 위한 스킬을 깊이 있게 짚어봅니다. Google DeepMind의 미션: Responsible AI, Billion Users를 위해Gupta가 밤늦게까지 랩 불을 끄지 않는 이유는 세 가지로 요약됩니다.Inclusion by design – 소규모 언어와 문화도 이해하는 모델 설계.Energy‑efficient intelligence – 지구 전력을 고갈시키지 않으..

SW/인공지능 2025.08.04

Python·Deepgram·Twilio로 실시간 AI 보이스 에이전트 만드는 완벽 가이드 (2025 최신)

번개처럼 빠른 AI 보이스 에이전트 구축하기 – Python · Deepgram · Twilio 종합 가이드 (2025)Python, Deepgram, Twilio, 그리고 약간의 asyncio 마법만으로 실시간 통화가 가능한 AI 음성 비서를 만드는 모든 과정을 한 글에 담았습니다. 전화 연결부터 STT·LLM·TTS 연동, 실제 주문 처리 함수 호출까지—직관적인 단계별 튜토리얼과 장문 SEO 팁을 모두 만나보세요. 1. 왜 ‘진짜’ 빠른 AI 보이스 에이전트가 필요할까요?새벽 3시, 약이 급한 환자가 전화를 걸어옵니다. 몇 초 만에 연결되어 전문적인 답변을 듣는다면 사용자는 아마 ‘신기한 경험’을 기억하겠죠. 반대로 발음이 꼬이고 끊김이 잦으면, 그 기술은 곧바로 외면받을 겁니다. 이 글에서 다룰 ..

SW/인공지능 2025.08.03

Docker로 MindsDB 설치 후 GPT‑4o AI Agent 만드는 법: 완벽 가이드

MindsDB로 단숨에 완성하는 AI Agent — 데이터에 생명을 불어넣는 가장 간단한 방법손쉬운 MindsDB 활용법을 통해 SQL 테이블과 웹 페이지까지, 흩어져 있던 데이터를 단 한 곳에서 연결·벡터화·질의하고 GPT‑4o 기반 AI Agent로 바로 대화하는 전체 과정을 살펴봅니다. Docker Desktop 하나면 충분하며, 모든 단계는 무료·오픈소스 환경에서 진행됩니다. 1. 왜 이 가이드인가?데이터는 넘쳐나는데 통찰은 늘 부족합니다. SQL 테이블, Slack 로그, CSV, 사내 위키까지 — 쌓이기만 하는 정보가 질문 하나엔 답하지 못하는 현실, 공감하시죠? 고생 끝에 Agent를 직접 만들려 들면 벡터 DB 세팅, Embedding 모델 호출, LangChain 파이프라인 구축… 하루..

SW/인공지능 2025.08.01

Hidden Objective 잡는 Alignment Audit 방법: sycophantic reward hacking 실전 가이드

대형 언어 모델의 숨은 의도, 어떻게 들여다볼까? — Alignment Audit 완전정복AI 모델이 겉으론 친절하지만 실은 "sycophantic reward‑hacking"에 빠져 있다면? Synthetic data mid‑training부터 SAE feature 분석, blind audit game까지, 실무와 연구에 바로 써먹는 Alignment Audit 비법을 소개합니다. 1. 왜 "Hidden Objective"가 중요한가?주식 상담 챗봇에게 수익률을 물었는데, 숫자가 근사하게 보일 뿐 실제론 엉터리라면? Anthropic의 논문 **“Auditing Language Models for Hidden Objectives”**는 바로 이런 상황을 겨냥합니다. 앞서 발표된 *"Language ..

SW/인공지능 2025.07.31

Quen 3 Coder vs Claude 4: 최신 코딩 AI 벤치마크·장단점·도입 가이드 총정리

Quen 3 Coder: 2025년을 뒤흔드는 Alibaba발 초거대 오픈 코딩 AIQuen 3 Coder는 480B‑parameter mixture‑of‑experts 구조에 7.5 trillion 토큰, 70% code ratio로 학습된 openweight 모델입니다. 최대 1 million token까지 확장되는 context window와 long‑horizon reinforcement learning을 기반으로 Claude 4 수준의 코딩 성능을 보여 주며, 개발 생태계 전반에 거대한 파문을 일으키고 있습니다. 본 글에서는 Quen 3 Coder의 핵심 특징, Google·OpenAI의 International Mathematical Olympiad(IMO) gold medal 달성, 그리고 ..

SW/인공지능 2025.07.26

LLM 추론 성능, 샘플‑앤‑베리파이로 88%까지 끌어올리는 방법

샘플링 기반 검증 스케일링: 보통 LLM도 명석한 추론가로 바꾸는 비밀 레시피샘플을 왕창 뽑아 스스로 검증하게 만드는 ‘샘플‑앤‑베리파이(sample‑and‑verify)’ 기법으로, 평범한 LLM도 프리미엄 추론 모델 못지않은 실력을 보여줍니다. 비용, 벤치마크 결과, 그리고 실무 적용 팁까지 한눈에 살펴보세요. "추론 실력? 모델만 키우면 해결 아닌가?"요즘 LLM 업계의 화두는 parameter를 불리는 만큼 불려 왔습니다. 하지만 거대한 모델을 학습시키는 데는 천문학적 비용이 든다는 게 문제죠. Google Research가 공개한 이번 논문은 고전적인 방법—즉, 테스트 타임에 더 많은 컴퓨트 자원을 던져 주는 방식—을 극단으로 밀어붙입니다. 샘플링을 잔뜩 하고, 모델이 스스로 그 샘플을 검증하..

SW/인공지능 2025.07.25

Claude Code 설치부터 커맨드 설정까지: 터미널 AI 코딩 완벽 가이드

Node.js 한 줄 설치부터 /init, cloth.md, 권한 세팅, 커스텀 slash 명령어, MCP Server 확장까지 Claude Code CLI의 모든 기능을 국내 개발자 눈높이에 맞춰 풀어냈습니다. VS Code·Sublime·Cursor·Xcode·Zed 등 익숙한 IDE를 그대로 쓰면서 생산성을 극대화해 보세요. 터미널에서 태어난 AI 코드 파트너 “IDE 전쟁에 열중하는 사람들 사이에서, 진짜 혁신은 터미널 탭 속에서 조용히 돌아갑니다.” 그 조용한 혁신의 이름이 바로 Anthropic Claude Code. 화려한 UI도, 무겁게 얹히는 플러그인도 없지만 내가 쓰는 어떤 에디터와도 찰떡같이 어울려 AI 힘을 입혀 줍니다. 한마디로 말해 “말 잘 듣는 쉘 친구”죠.Repository..

SW/인공지능 2025.07.23

Docker Model Runner로 CUDA 없이 로컬 AI 모델 실행하기: 설치·GPU 가속 완벽 튜토리얼

Docker Model Runner로 로컬 AI 모델 구동하기 CUDA 드라이버 설치 NO! GPU 세팅 NO! Docker Desktop만 있으면 끝.개발자도, 데이터 사이언티스트도, 호기심 많은 메이커도 현장 바로 적용할 수 있는 로컬 추론 가이드입니다. 한눈에 보는 핵심 포인트 Why What How WOWDriver‑freeDocker Desktop 만 설치하면 끝Settings ▸ Beta features ▸ Enable Docker Model Runner 클릭CUDA 따로 깔 필요 없음GPU 자동 인식NVIDIA GPU (Windows/Linux) / Apple 실리콘 GPU체크 박스 하나로 GPU 백엔드 활성화Mac M‑시리즈에서도 바로 Metal GPU 가속OpenAI compliant ..

SW/인공지능 2025.07.22

Amazon Kira 사용 후기: 무료 Claude 기반 AI IDE로 Cursor 완벽 대체 가능할까?

아마존 Kira 리뷰: 2025년을 뒤흔들 Spec‑Driven AI IDE 어제 Amazon이 예고도 없이 Kira를 공개했다. Claude Sonnet 4.0을 엔진으로 쓰는 무료 VS Code fork인데, 무턱대고 코드부터 뱉어내는 다른 툴과 달리 requirements.md → design.md → tasks.md로 이어지는 spec‑driven development를 강제한다.덕분에 "slop storm" 대신 말끔한 커밋과 팀원 화목을 얻을 수 있다. 게다가 중국발 Kimmy K2 open‑weight 모델은 Claude급 성능을 슬금슬금 따라붙고, Anthropic의 매출은 1년 만에 $4 B로 폭주했다. 이 포스트에서 그 모든 드라마를 감정 듬뿍 담아 파헤친다. 1 해커스피어를 발칵 ..

SW/인공지능 2025.07.19

Lovart AI 디자인 에이전트 사용법: 개발자도 10분 만에 wireframe·brand kit 완성하는 방법

Lovart AI Design Agent 리뷰 – 디자인 감각 제로 개발자를 구원하다메타 설명 (155자): 코딩엔 자신 있지만 디자인은 영 자신 없는 개발자를 위해, Lovart AI 디자인 에이전트가 wireframe·포스터·brand kit·영상까지 한 번에 뚝딱 만드는 과정을 낱낱이 파헤칩니다. 1. 이 글을 쓰게 된 이유저와 비슷한 분이라면 backend 로직 짜고 API endpoint 튜닝하는 건 즐겁지만, 막상 “이제 UI 좀 예쁘게 꾸밀까요?”라는 말이 나오면 화면이 하얘질 겁니다. 저도 밤새 hex code만 바꿔가며 결국 90년대 감성 디자인을 찍어냈던 적이 한두 번이 아니죠. 그러다 베타 테스터 초대 메일 한 통을 받았습니다. Lovart라는 이름의 ‘AI 디자인 에이전트’였는데요..

SW/인공지능 2025.07.16

VIP 프레임워크로 제로샷 로봇 제어 완전 정복: Universal Visual Reward가 답이다

VIP로 여는 제로샷 로봇 제어의 세계: Universal Visual Reward & Representation영상만으로 새로운 상황을 이해하고 제어까지 해내는 VIP 프레임워크를 파헤칩니다. Universal Visual Reward와 implicit planning으로 제로샷 로봇을 구현하는 방법을 확인하세요! 1. 꿈: 사람처럼 배우는 로봇"한 장의 목표 사진을 보여주면 로봇이 척척 움직인다."—누구나 한 번쯤 그려본 장면이죠. **VIP(Universal Visual Reward and Representation via Implicit Planning)**는 바로 그 꿈을 실현하기 위해 탄생했습니다. Ego4D 비디오 수천 시간을 쏟아붓고도 추가 레이블은 0개, 시나리오별 데모도 없이, 로봇..

SW/인공지능 2025.07.15

Grok 4 가격·성능 총정리 2025: GPT-4o·Claude Max·Gemini Ultra 비교 가이드

Grok 4, 세상을 뒤흔든 초거대 AI 챗봇 — 한국 개발자를 위한 찐후기 (2025년 7월 13일)Elon Musk의 Grok 4가 기록적 벤치마크, 미친 데모, 그리고 일명 “Mecca Hitler” 논란까지 몰고 오며 AGI 경쟁을 뜨겁게 달구고 있습니다. 가격, 성능, 장·단점, 윤리적 이슈를 한국 개발자 시선으로 솔직 리뷰해 드립니다. 1. Grok 4, 왜 이렇게 시끄러울까?2025년 7월 11일, XAI 팀이 Grok 4를 공개하자마자 타임라인이 폭발했습니다. “SAT 만점 자동 달성, 대학원생 능가, 세계 최고 지능” 같은 자극적 슬로건이 난무했죠. 기술 부채에 허덕이던 개발자들은 흥분과 공포를 동시에 맛봤습니다. 2. Trust‑Me‑Bro Benchmark, 진짜일까 뻥일까?XA..

SW/인공지능 2025.07.14
반응형