반응형

전체 글 3162

LAPA란 무엇인가? 액션 라벨 없이 로봇을 학습하는 새로운 VLA 프리트레이닝 방법

조금 과감하게 말해보자면, LAPA는 ‘로봇 학습의 출발선’을 다시 그려버린 접근이다. 실제 로봇에서 수집한 action label 없이도, 인터넷에 널린 방대한 비디오 데이터만으로 로봇 foundation model을 Pretraining할 수 있다는 점에서다. 그 결과는 꽤 인상적이다. 기존 VLA 계열 모델 대비 평균 6.2% 높은 성능, 그리고 Pretraining 효율은 무려 30배 이상.핵심은 단순하다. LAPA는 Ground Truth action에 기대지 않는다. 그래서 특정 로봇, 특정 데이터셋에 과도하게 맞춰지는(overfitting) 문제를 피하고, Cross-embodiment 환경에서도 surprisingly 안정적인 성능을 보여준다.무엇보다 흥미로운 대목은, 사람이 물건을 다루는..

SW/인공지능 07:30:14

Ring 카메라로 차량 속도 측정하기: driveway에서 vehicle detection과 YOLO로 속도 계산하는 방법

아이들 노는 걸 보다 보면, 가끔 심장이 철렁 내려앉는 순간이 있다.이 이야기는 바로 거기서 시작한다.조카들과 조카 손주(?)들이 집에 놀러 오면 어김없이 시작되는 이벤트가 있다. 장난감 자동차 레이싱이다. 상상 속 엔진 소리는 요란하고, 속도감은 거의 F1급이다. 문제는 브레이크다. 아직 그 개념이 손에 잘 안 붙어 있다. 경쾌하게 웃다가도, 어느 순간 ‘이거 진짜 위험한데…’라는 생각이 스친다.그러다 문득 이런 질문이 떠올랐다.“카메라로 이걸 감지할 수 있지 않을까?”장난감 차든, 실제 자동차든, 진입 속도가 빠르면 미리 알 수 있다면 어떨까. 그렇게 생각이 꼬리를 물었고, 결국 하나의 프로젝트가 됐다.이번 이야기는 평소 하던 system design 분석과는 좀 다르다. 훨씬 생활 밀착형이고, 개인..

일상/IT 2026.02.03

NVIDIA GR00T란 무엇인가? 휴머노이드 로봇을 위한 파운데이션 모델 완전 정리 (2025)

GR00T: NVIDIA가 던진 조금은 낯설고, 꽤 인간적인 휴머노이드 로봇의 승부수 (2025)로봇 팔이 컵을 집기 직전에 아주 잠깐 멈칫하던 장면을 처음 봤을 때가 아직도 기억납니다. 완벽하지도 않았고, 미리 짜인 동작처럼 보이지도 않았어요. 그런데 묘하게… 생각하는 것처럼 느껴졌죠. NVIDIA가 GTC 2025에서 GR00T를 공개했을 때, 그때의 감각이 다시 떠올랐습니다. 아, 뭔가 달라졌구나 하고요.GR00T는 단순히 또 하나의 로봇 모델이 아닙니다. 이건 NVIDIA가 꽤 오랫동안 묵혀왔을 질문에 대한 본격적인 답변에 가깝습니다. “로봇이 세상을 이해하고, 그 안에서 행동하려면 대체 무엇이 필요할까?” 조금 숨을 고르고, 차근차근 풀어보죠. GR00T가 정확히 무엇인지, 왜 중요한지, 그리고..

SW/인공지능 2026.02.02

왜 로블록스는 지금 가장 강력한 게임 플랫폼이 되었을까

처음 Roblox Studio를 열었을 때가 아직도 기억난다.개발을 하려고 한 건 아니었다. 그냥… 궁금해서였다. 솔직히 말하면 반신반의도 있었다.화면은 단순했다. 너무 단순해서 장난감 같아 보일 정도였다.그런데 이상했다. 조금만 들여다보니, 그 투박한 화면 뒤에 엄청나게 거대한 무언가가 숨어 있었다. 조용한 창고 문을 열었는데, 안쪽이 끝없이 이어지는 느낌이랄까.그래서 먼저 이 말부터 해야겠다.로블록스는 게임이 아니다.정확히 말하면, 게임을 넘어선다.이건 하나의 경제 시스템이고, 창작 도구이며, 동시에 사람들이 배우고, 실험하고, 돈을 벌어보는 미래형 놀이터에 가깝다.2025년 기준, 로블록스는 하루 평균 1억 명이 넘는 사용자가 접속한다.월간도 아니다. 매일이다.CS2, Fortnite, League..

일상/게임 2026.02.01

FastAPI + React + Clerk로 B2B SaaS 애플리케이션 구축하기 (2025 SEO 최적화 가이드)

FastAPI와 React, Clerk를 활용해 인증·조직·권한·구독·청구까지 포함한 실전형 B2B SaaS 애플리케이션을 구축하는 완전 가이드. 실제 서비스 구조 기준으로 2025년 최신 패턴을 정리합니다. 이 글이 다루는 핵심 키워드 (SEO Target)B2B SaaS 애플리케이션 구축FastAPI B2B SaaS 예제React SaaS 프런트엔드Clerk 인증 조직 권한 관리SaaS 구독 결제 Stripe ClerkFastAPI React SaaS 아키텍처 왜 FastAPI + React + Clerk 조합이 B2B SaaS에 강력한가B2B SaaS 개발에서 가장 어려운 건 CRUD가 아닙니다. 진짜 난이도는 조직 단위 사용자 관리, 역할·권한 분리, 구독과 기능 잠금, 그리고 이 모든 걸 유..

SW/Python 2026.01.31

Cursor 2.0 완벽 가이드: AI agent 기반 code editor를 처음 쓰는 개발자를 위한 설명

어느 날 밤이었어요.커피는 이미 식어 있었고, 키보드는 하루 종일 두드린 흔적으로 살짝 끈적했죠. 그때 무심코 에디터에 이런 말을 던졌습니다.“그냥… 이거 알아서 만들어 줄 수 있어?”Cursor 2.0은 망설이지 않았어요.그 순간, 아—뭔가 달라졌구나 싶더군요. Cursor 2.0 한 줄 요약? 아니, 두 줄 정도Cursor 2.0은 AI-first code editor입니다. VS Code를 기반으로 만들어졌지만, 단순히 AI 기능을 ‘붙인’ 수준이 아니라 처음부터 AI와 함께 일하도록 설계된 도구예요. 코드 한 줄부터 전체 project 구조까지, AI agent들과 대화하듯 만들 수 있죠.기본 사용은 무료고, 더 많은 AI credit이 필요하면 유료 플랜도 있습니다. 그런데요, 실행해보는 순간..

SW/인공지능 2026.01.30

parallel scaling이란? LLM 성능을 키우는 새로운 방법을 쉽게 설명

처음 그 느낌을 받았던 순간이 아직도 또렷합니다. 새벽 두 시쯤, GPU 메모리 사용량 그래프를 멍하니 보고 있었죠. 빨간색으로 꽉 찬 막대, 요란하게 돌아가는 팬 소리. 그런데도 모델은… 기대만큼 똑똑하지 않았습니다. 모델을 더 키우자니 너무 무겁고, reasoning token을 늘리자니 너무 느렸죠. 열, 비용, 그리고 슬슬 쌓이는 짜증 사이에서 이런 생각이 떠올랐습니다.“다른 길은 없을까?”이 글은 바로 그 ‘다른 길’에 대한 이야기입니다.이름은 parallel scaling.요즘 AI 스케일링 논의에서 생각보다 덜 주목받고 있지만, 방향을 바꿀 수 있는 아이디어라고 느꼈습니다. 한 줄 요약 (왜 사람들이 주목하는가)parallel scaling은 parameter를 무작정 늘리거나 infere..

SW/인공지능 2026.01.29

2026년 기준 LLM 로컬 실행 방법 정리: Ollama와 Docker Model Runner 비교

2026년에 LLM을 로컬에서 돌린다는 것: Ollama와 Docker Model Runner 이야기처음으로 내 노트북에서 LLM을 직접 실행했을 때를 아직도 기억한다.키보드를 치자마자 팬이 윙— 하고 돌기 시작했고, 화면이 잠깐 멈췄다가… 답변이 튀어나왔다. 클라우드도 아니고, 서버도 아니고, 결제 알림도 없는 상태에서 말이다.그 순간 묘하게 전율이 왔다. “아, 이게 바로 내가 컨트롤하고 있다는 느낌이구나.”만약 당신이 이런 질문을 해본 적 있다면, 이 글은 딱 맞다.왜 요즘 개발자들이 LLM을 로컬에서 돌리는 데 집착할까?ChatGPT 같은 hosted solution이 있는데 굳이 왜?그리고… 막상 하려면 뭘 써야 하지? 2025년 기준으로, 로컬 LLM 실행 방법은 사실상 두 갈래로 정리된다.O..

SW/인공지능 2026.01.28

Python Requests로 API 호출하는 방법 한 번에 정리하기 (GET·POST·인증까지)

Python Requests로 API 호출, 감으로 끝내지 말고 제대로 이해해보자처음 API를 접했을 때를 떠올려보면… 솔직히 말해서 머리가 좀 복잡해집니다. URL이니 endpoint니, status code에 GET·POST·PATCH까지. 하나하나 보면 아는 단어 같은데, 막상 연결하려니 손이 멈추죠. 저도 그랬습니다. 노트북 앞에 앉아 커피는 식어가고, 공식 문서는 열려 있는데 집중은 안 되고요.그래서 이 글은 번역체 설명이 아니라, 한국 개발자가 자연스럽게 이해할 수 있는 흐름으로 정리했습니다. 목표는 단순합니다. Python Requests 모듈로 API 요청을 보내고, 응답을 안정적으로 처리하는 핵심을 짧은 시간 안에 체득하는 것. 15분이면 충분합니다. “API는 어렵다기보다, 아직 익숙하..

SW/Python 2026.01.27

2026년 기준 Machine Learning Engineer 로드맵 총정리: 입문부터 MLOps까지

2026년을 향한 Machine Learning Engineer 로드맵 — 현업 감각으로 풀어낸 이야기새벽 두 시쯤이었어요. 노트북 팬 소리가 유난히 크게 들리고, 식어버린 커피 냄새가 방 안에 맴돌던 그 순간. 처음으로 training loop가 제대로 돌지 않던 날이었죠. 그때 문득 이런 생각이 들었습니다.“아… 이게 내가 생각하던 머신러닝이 맞나?”아마 이 글을 읽고 있는 당신도 비슷한 질문을 마음속에 품고 있을지 모릅니다. 그래서 오늘은, 포장된 말 말고 현실적인 이야기를 해보려고 합니다. Machine Learning Engineer는 단순히 model을 만드는 사람이 아닙니다.ML을 ‘돌아가게’ 만드는 Software Engineer에 가깝죠. 그리고 2026년을 기준으로 보면, 이 차이는 더..

SW/머신러닝 2026.01.26

2025년 AI website builder로 웹 개발 에이전시 시작하는 방법 (white label 모델 정리)

어느 날 오후였어요. 커피는 식어가고, 할 일 목록은 반쯤만 지워진 채 화면에 떠 있었죠. 문득 이런 생각이 들었습니다.“프로그래머라면 사이드 프로젝트로 웹사이트 만들어 주는 게 최고지.”맞는 말이긴 한데… 솔직히 지치지 않나요? 수정 요청은 끝이 없고, 범위는 계속 커지고, 새벽에 버그 잡는 일은 일상이 되고요.그러다 우연히 어떤 모델을 접했는데, 순간 멈칫했습니다.2025년에 우리가 아직도 이 방식으로 일해야 할까?결론부터 말하면 이렇습니다. AI website builder를 white label로 활용하면, 직접 software를 만들지 않고도 몇 분 만에 ‘내 브랜드’ 웹 개발 에이전시를 시작할 수 있습니다. 과장이 아닙니다. 이건 요즘 실제로 굴러가는 비즈니스 구조예요. 이 글의 핵심을 아주..

SW/인공지능 2026.01.25

Genspark란 무엇인가? ChatGPT와 뭐가 다른지 기능부터 실제 활용까지 정리

ChatGPT가 세상을 흔들어 놓았던 그 이후—Genspark는 조용히 판을 바꿨다.솔직히 말하면, 그 순간이 아직도 생생하다.늦은 밤이었다. 커피는 이미 식어 있었고, 브라우저 탭은 스무 개가 넘게 열려 있었다. ChatGPT, 슬라이드 툴, 이미지 생성기, Google Sheets, 그리고 반쯤 망가진 no-code builder 하나까지. 머릿속은 포스트잇으로 덕지덕지 붙은 책상 같았다. 쓸모는 있었지만, 정리는 전혀 안 된 상태.그때 Genspark를 만났다.요란하지도 않았고, 과장된 소개도 없었다. 대신 이런 생각이 스쳤다.“어… 왜 여기엔 다 있는 거지?”혼란이 정렬되는 느낌. 이 글은 바로 그 지점에서 시작한다. 10초 요약 (길게 말하기 싫을 때를 위해)Genspark는 여러 AI 도구를..

SW/인공지능 2026.01.24

같은 강의인데 가격이 다르다? IP 주소에 따라 달라지는 온라인 강좌 가격의 비밀

인터넷이 조용히 가격을 바꾸는 순간어느 늦은 밤이었어요. 화면에서는 파란 빛이 계속 튀어나오고, 커피는 이미 식어 있었죠. 분명 어제까지만 해도 120달러였던 온라인 강좌 하나가, 해외에 있는 지인이 접속하자 절반 가격으로 뜨는 걸 본 순간—묘하게 등골이 서늘해졌습니다.같은 강좌, 같은 페이지, 같은 콘텐츠인데… 가격만 달랐어요.그때 깨달았습니다. 인터넷은 모두를 똑같이 대하지 않는다. 이 글은 그런 ‘느낌’이나 음모론 얘기가 아닙니다. 실제 코드로, 실제 요청을 보내고, 20개가 넘는 국가의 IP 주소에서 같은 웹사이트를 열어본 실험 이야기입니다. 그 결과는 생각보다 노골적이었고, 솔직히 말해 꽤 충격적이었습니다.우리는 이 글에서 이런 이야기를 합니다.웹사이트는 어떻게 사용자의 위치를 알아내는지VPN..

일상/IT 2026.01.23

Deepgram Saga 리뷰: 실시간 음성 받아쓰기와 AI 음성 에이전트, 뭐가 다른가?

이 AI 음성 워크스페이스, 솔직히 말해서 좀 충격적이다 (Deepgram Saga 리뷰, 2025)대부분의 AI 음성 도구를 더 이상 믿지 않게 된 순간이 아직도 또렷하다.늦은 밤이었다. 커피는 이미 식어 있었고, 마이크는 켜져 있었다. 평범한 문장을 하나 말했을 뿐인데, 결과로 나온 텍스트는… 마치 작은 사고를 겪은 것처럼 엉망이었다. 단어는 빠지고, 의미는 틀어지고, 내가 말하려던 의도는 어디론가 사라졌다.그래서 Tech With Tim의 **“This New AI Voice Workspace Is Insanely Powerful”**라는 영상을 처음 봤을 때도, 솔직히 기대보다는 의심이 앞섰다. 또 하나의 과장된 데모겠지—라는 마음으로 말이다. 그런데 영상을 끝까지 보고, 몇 부분은 다시 돌려보고..

SW/인공지능 2026.01.22

Anthropic의 Bun 인수, AI 네이티브 소프트웨어 시대를 여는 신호

조용했지만 결코 작지 않았던 발표AI 연구 회사 Anthropic이 JavaScript와 TypeScript 올인원 툴킷 Bun을 인수했다는 소식은 개발자 커뮤니티 전반에 은근하지만 깊은 파장을 남겼습니다. Claude 모델로 잘 알려진 Anthropic이 이런 결정을 내렸다는 점도 흥미로웠지만, 더 놀라웠던 건 이 발표가 *“소프트웨어 엔지니어링의 시대가 끝나가고 있다”*는 Claude 3 기술 스태프의 발언이 나온 지 얼마 지나지 않아 나왔다는 사실이었습니다.겉으로 보면 다소 모순처럼 느껴질 수도 있습니다. 하지만 조금만 들여다보면, Anthropic은 소프트웨어 엔지니어링을 포기한 것이 아니라 완전히 다른 기반 위에서 다시 정의하려 하고 있다는 점이 분명해집니다.이 글에서는 Anthropic이 왜 ..

SW/인공지능 2026.01.21

DB 없이 수억 건 검색? 메모리 다이어트의 마법, 블룸 필터 파헤치기!

램(RAM) 가격이 치솟고, 서비스 규모가 커질수록 데이터베이스(DB)에 가해지는 부하를 감당하는 것은 모든 엔지니어의 숙제입니다. 이럴 때, '어떻게 하면 DB 없이도, 혹은 DB 부하를 최소화하면서 데이터를 초고속으로 찾아낼 수 있을까?'라는 질문에 대한 실전적인 해답이 바로 블룸 필터(Bloom Filter)입니다. 이 자료구조는 데이터를 놀랍도록 압축하고 겹쳐 저장함으로써 용량을 획기적으로 줄이고, 검색 속도를 극대화하는, 실무자들이 사랑하는 '메모리 다이어트의 마법사'입니다. 1. 블룸 필터의 심장: 비트 배열과 해시 함수의 조화블룸 필터의 구조는 겉보기보다 훨씬 단순하면서도 우아합니다. 오직 0과 1만을 저장하는 긴 비트 배열과 이 배열을 채우는 여러 개의 해시 함수가 핵심 요소입니다. ..

일상/IT 2026.01.20

깃허브 정상화 이후 개발자들이 떠나는 이유 3가지와 대안 플랫폼 비교 가이드

깃허브 정상화 이후: 개발자들이 탈주하는 진짜 이유와 대안의 물결최근 몇 년 사이, 개발자 커뮤니티의 심장부였던 깃허브(github)에서 느껴지는 미묘한 균열을 감지하고 계십니까? 한때 모든 코드가 모여드는 거대한 디지털 대성당(Cathedral) 같았던 이 공간이, 알 수 없는 이유로 '정상화'라는 이름 아래 개발자들의 등을 돌리게 만드는 역설적인 상황에 직면해 있습니다. 우리는 겉으로 보이는 변화가 아닌, 그 깊은 곳에서 일어나는 협업의 본질에 대한 불신이 이 거대한 흐름을 만들고 있음을 이해해야 합니다.우리는 이 사태를 에릭 레이몬드(Eric S. Raymond)가 제시한 '성당과 시장(The Cathedral and the Bazaar)' 모델의 관점에서 조망해 볼 필요가 있습니다. 깃허브는 그 ..

SW/Git 2026.01.19

React2Shell(CVE-2025-55182)란? React Server Components 취약점 원인과 대응 방법 총정리

“JavaScript world”가 진짜로 shell-shocked… React2Shell 이야기요즘 JavaScript world 쪽 소식 좀 본 사람이라면, 솔직히 한 번쯤은 “어… 이거 진짠가?” 싶었을 거예요. 갑자기 10.0 maximum pwnage급, 그러니까 사실상 “끝판왕” 수준의 critical vulnerability가 발견됐다는 얘기가 터졌거든요.문제의 중심은 ReactJS framework—그중에서도 server components의 Flight protocol 코드 쪽입니다.이게 왜 더 무섭냐면요. 흔히 보는 “누가 쓰는지 알 수도 없는 플러그인 하나”가 아니라는 점이에요. 이건 이미 millions of modern React apps에 깊게 섞여 있고, Next.js 같은 대..

SW/JavaScript 2026.01.18

Transformer Architecture, 이렇게 한 편의 논문이 AI 지형을 갈아엎었다

— “Attention Is All You Need”가 남긴 진짜 변화“단 한 편의 논문이 AI 판을 바꿨다”는 말, 좀 과장처럼 들리죠? 그런데 2017년에 Google이 발표한 Attention Is All You Need는 진짜로 그랬어요. 모델이 똑똑해진 게 아니라(물론 그것도 있지만), 정보가 모델 안에서 움직이는 방식 자체가 확 바뀌었습니다.오늘은 그 핵심인 Transformer를 아주 자연스럽게—그러면서도 디테일 하나 안 놓치고—풀어볼게요.먼저, 한 문장만 기억해도 됩니다.Transformer는 마법이 아니라, 입력들이 서로 “대화”할 수 있게 만든 네트워크다.그러니까… communication이 전부였던 거죠. ML의 본질은 결국 “입력 → 출력” 매핑이다Machine Learning이 ..

SW/인공지능 2026.01.17

EOMT란 무엇인가? ViT 기반 이미지 세그멘테이션을 단순화한 최신 모델 정리

프로젝터에서 은근하게 울리는 팬 소리, 따뜻해진 전자기기 특유의 냄새—이상하게도 그런 순간이 오면 긴장과 기대가 동시에 올라옵니다. 이 글은 바로 그 분위기에서 출발했습니다. 하나의 연구 발표 스크립트를 바탕으로, **EOMT(Encoder-Only Mask Transformer)**라는 모델이 왜 등장했는지, 어떻게 작동하는지, 그리고 왜 우리가 당연하게 여겨왔던 복잡한 구조들에 물음표를 던지는지까지 전부 풀어낸 긴 이야기입니다.혹시 이런 생각, 해본 적 있으신가요?“세그멘테이션을 잘하려면… 정말 저렇게까지 복잡해야 할까?”그 질문에 대한 꽤 설득력 있는 대답이 바로 여기 있습니다. 한 줄 요약부터 (진짜로)먼저 이 문장 하나만 기억하셔도 충분합니다.충분히 잘 pretraining된, 충분히 큰 Vi..

SW/인공지능 2026.01.16
반응형