SW/인공지능

GPT-5.2 vs Gemini 3: “Code Red” 이후, ARC AGI가 뒤집어 놓은 분위기와 2026년까지 이어질 AI 열차

얇은생각 2026. 1. 13. 07:30
반응형

GPT-5.2 vs Gemini 3: “Code Red” 이후, ARC AGI가 뒤집어 놓은 분위기와 2026년까지 이어질 AI 열차

 

AI 업계는 가끔 “하루 사이에 판이 바뀐다”는 말이 과장이 아니게 느껴질 때가 있어요. 이번이 딱 그랬습니다.

지난주만 해도 Sam Altman이 “code red”를 선언했고, 농담처럼 “threat level midnight” 같은 표현까지 꺼냈죠. 분위기가 그렇게까지 치달은 이유는 분명했습니다. OpenAI가 쥐고 있던 AI 레이스 선두 이미지가, 생각보다 훨씬 강하게 치고 올라온 Google의 Gemini 3에 의해 흔들려 버렸거든요. 그래서인지 여기저기서 “OpenAI는 2020년대의 Netscape가 되는 거 아니냐”는 말이 슬금슬금 나오기 시작했습니다. 초반에 앞서가다가, 결정적인 순간에 흐름을 놓치는 그 시나리오요.

그런데… 어제 상황이 확 바뀝니다.

OpenAI가 Gemini에 대한 답으로 GPT-5.2를 공개했거든요. 그 순간부터, AI “hype wheel”이 다시 OpenAI 쪽으로 굴러가기 시작했어요. 각종 “Trust Me Bro benchmarks”에서 압도적이라는 말이 쏟아졌고, Claude Opus 4.5software engineeringreasoning 영역에서 이겼다는 얘기도 빠르게 퍼졌습니다.

하지만 사람들이 진짜로 크게 반응한 포인트는 따로 있었어요. 바로 ARC AGI benchmark에서의 성과입니다.

오늘 이 글에서는 그 얘기를 끝까지 따라가 볼 거예요. ARC가 정확히 뭐고, 왜 이 테스트가 유독 의미 있게 받아들여지는지, 그리고 “390x efficiency improvement”라는 말이 왜 사람들 머리를 멈추게 만들었는지까지요. 결국 핵심 질문은 하나로 모입니다.

우리가 정말 AGI threshold 근처까지 온 걸까요?
아니면 2026년까지 AI hype train을 계속 달리게 하려는 또 하나의 연막일까요?

참고로 이 이야기의 기준 시점은 2025년 12월 12일입니다.
그리고 네, 누군가는 이렇게 말하더군요. Artificial intelligence has already ruined my Christmas this year.

 

 


Gemini 3가 던진 충격: “OpenAI 끝난 거 아냐?” 분위기가 만들어진 이유

AI 뉴스는 속도가 너무 빨라서, 한 모델이 “미래”라고 불리다가도 금방 “구시대” 취급을 받곤 하죠. Gemini 3가 등장했을 때 딱 그런 장면이 연출됐습니다.

Gemini 3는 단순히 “경쟁력 있다” 수준이 아니라, 많은 사람 눈에 “예상 밖의 dominance”처럼 보였어요. 그래서 반응도 감정적으로 커졌습니다. 사실 기술 비교만이 아니라, 사람들이 본능적으로 떠올리는 불안이 있잖아요.

  • “선두는 영원하지 않다”
  • “다음 릴리즈 한 번에 뒤집힐 수 있다”
  • “지금 강해 보여도, 내일은 모른다”

그래서 “code red” 같은 말이 단지 과장된 밈이 아니라, 조직 전체가 느끼는 압박의 상징처럼 들렸던 거죠. 그리고 이 시대는 한 번 더 말하지만, “몇 달 뒤”가 아니라 “다음 날” 바로 다음 장이 열려요.

 

 


GPT-5.2 등장: 분위기 반전의 트리거가 된 포인트들

OpenAI가 GPT-5.2를 내놓자마자, 반응은 빠르게 쏟아졌습니다.

  • “Trust Me Bro benchmarks”를 싹 쓸었다
  • “Claude Opus 4.5”를 software engineering, reasoning에서 눌렀다

다만 여기서 많은 사람들이 늘 하던 고민도 같이 꺼냈어요. 요즘 benchmark는 도움이 되기도 하지만, 마케팅 도구처럼 쓰일 때도 많거든요. 선택적으로 보여주거나, 점수 해석을 과하게 밀어붙이거나, 현실 체감과는 다른 경우가 생기니까요.

그런데도 GPT-5.2가 “이번엔 다르다”는 느낌을 만든 이유는 꽤 명확했습니다.

ARC AGI.

OpenAI가 ARC 관련 차트를 전면에 내세우는 건, “대중적 점수 올렸다”보다 더 근본적인 능력을 보여주겠다는 신호처럼 읽혔어요. 특히 “일상적 벤치마크”가 아니라 “이상한 퍼즐 같은 문제를 처음 보는데도 풀어내는가”를 묻는 쪽이라서요.

 

 


ARC란 뭘까: Abstraction and Reasoning Corpus가 노리는 것

ARC는 Abstraction and Reasoning Corpus의 약자입니다. 이름부터가 직설적이죠. 이 테스트는 모델에게 이렇게 묻는다고 보면 돼요.

“너, 진짜로 생각할 수 있어?”
“처음 보는 문제에서도, 외운 느낌 없이 풀 수 있어?”

ARC는 novel, unique problems에 초점을 둡니다. 즉, “본 적 없는 문제”를 “pure reasoning”으로 풀어보라는 거예요. 단순 암기나 데이터에서 봤던 패턴을 떠올리는 방식으로는 잘 안 풀리도록 설계되어 있습니다.

ARC 문제들은 일부러 좀 “weird”합니다. 낮은 데이터로 구성된 퍼즐 같은 형태가 많고, “brute force pattern mashing”으로 밀어붙이면 오히려 막히는 구조를 노린 거죠.

여기서 흥미로운 대비가 하나 더 있어요.
Regular humans can usually solve them after a few examples.
사람은 몇 개 예시만 보면 감을 잡고 풀어내는 경우가 많다는 거죠.

반면 대부분의 AI 모델은 여기서 face plant한다고 표현될 만큼 크게 무너지는 일이 흔합니다.

 

 

왜 ARC 점수가 ‘Trust Me Bro benchmarks’보다 더 무겁게 들릴까?

세상에 benchmark는 많지만, ARC는 “일반화(generalize)”를 겨냥합니다. 점수 자체보다, 그 점수가 의미하는 능력에 사람들이 더 민감하게 반응하는 편이에요.

  • ARC에서 성과가 좋다
    → 단순 autocomplete 느낌이 아니라
    → “상황을 새로 이해하고 적응하는 힘”이 있을 수 있다

그래서 OpenAI가 ARC 차트에서 “flex”하는 장면은, 다른 점수 자랑과 느낌이 다르게 다가옵니다.

 

 

 


ARC Prize가 확인했다는 390x: 숫자가 너무 커서 오히려 현실감이 사라질 때

이번 이슈에서 가장 강한 훅은 이것입니다.

ARC prize가 O3 model에서 5.2로, 1년 사이 390x efficiency improvement를 verified했다.

스크립트도 여기서 강조를 세게 하죠.

  • 오타가 아니다
  • 390 times 더 efficient하다는 얘기다

이 정도 수치는 듣는 순간 반응이 갈려요. 한쪽은 감탄하고, 다른 쪽은 “정의가 뭔데?”를 묻습니다. 사실 둘 다 자연스러워요.

이런 규모의 점프는 보통 세 가지 가능성을 떠올리게 합니다.

  1. reasoning을 푸는 방식 자체에 큰 변화가 있었거나
  2. “efficiency”의 정의나 측정 방식이 크게 바뀌었거나
  3. 그 둘이 동시에 일어났거나

어쨌든 중요한 건, 숫자가 너무 크니 사람들의 감정도 같이 흔들린다는 점이에요. “와, 이게 맞아?”와 “근데 혹시 말장난 아니야?”가 동시에 올라오는 거죠.

 

 

 


그럼 AGI threshold 근처인가: 기대와 불안이 동시에 올라오는 이유

대화는 결국 이 질문으로 수렴합니다.

우리가 AGI threshold의 가장자리까지 온 걸까?
아니면 2026년까지 “AI hype train”을 더 달리게 하려는 또 한 번의 불꽃놀이일까?

여기서 중요한 건, 이 질문이 기술만의 문제가 아니라는 거예요. 감정이 같이 엮여 있어요.

  • 누군가에게 AGI는 희망입니다. 과학, 의료, 에너지, 기후 문제 같은 걸 확 밀어줄 수 있다는 기대요.
  • 누군가에게 AGI는 두려움입니다. 사회가 감당할 준비가 안 된 변화가 너무 빨리 오는 그림이니까요.
  • 그리고 많은 사람은 그 둘을 동시에 느낍니다.

ARC가 의미 있어지는 것도 그래서예요. 완벽한 테스트는 아니지만, ARC는 최소한 “핵심 질문”을 정면으로 찌릅니다.

  • “새로운 상황에서 reasoning을 할 수 있나?”

GPT-5.2의 ARC 성과가 크게 회자되는 이유는, 이 추상적 논쟁을 더 현실적인 대화로 끌어내렸기 때문입니다.

 

 

 


그런데 사용자 입장에서는… 점점 ‘차이’를 느끼기 어려워진다

여기서 약간 현실적인 얘기가 나오죠. 많은 사람이 공감할 부분입니다.

GPT-5.2는 coding이 더 좋아졌고, hallucinations도 줄었다고들 말합니다. 그런데 정작 일상적으로 쓰는 입장에선 이렇게 느낄 수 있어요.

  • “확 좋아졌다고 말하긴 애매한데…?”
  • “뭔가 더 나아진 듯도 한데, 확신은 못 하겠다”

이건 사용자가 둔한 게 아니라, 도구가 이미 충분히 강해진 상태에서의 “점진적 개선”이 체감 난이도가 높아서 그래요.

스크립트에 나온 구체적 사용 예: Svelte 5 + MCP server

스크립트는 GPT-5.2를 이렇게 쓰고 있다고 말합니다.

  • Svelte 5 codeMCP server와 함께 생성하는 데 만족스럽게 사용 중이다

즉, 개발 워크플로우에 실제로 잘 녹아든 사례죠. 다만 이야기는 여기서 끝나지 않습니다. 코드를 만드는 것도 중요하지만, 더 불안한 지점이 하나 남아 있어요.

deploy.

생성한 코드가 “어딘가에서 안정적으로 돌아가야” 진짜 가치가 생기니까요.

 

 

 


“배포가 진짜다”: Railway가 끼어드는 이유

여기서 스크립트는 Railway(sponsor)로 자연스럽게 넘어갑니다. 광고 구간이긴 한데, 개발자 입장에서는 메시지가 꽤 현실적이에요.

AI로 code를 뽑아도, 결국 production에 올리는 건 여전히 사람의 몫이죠. 그리고 그 과정은 보통 이렇게 피곤합니다.

  • 정체불명의 YAML
  • 여기저기 흩어진 dashboard
  • 설정 지옥, 인프라 결정 피로

Railway는 이 문제를 “한 곳에서 한 번에” 정리해 주는 플랫폼으로 소개됩니다.

  • production-ready deployments를 빠르게 호스팅
  • 인프라 스택 전체를 한 곳에서 관리
  • one click으로 isolated environments 생성
  • 필요할 때 자동 scale

그리고 비용/성능 관련 주장도 함께 나옵니다.

  • provision 기준이 아니라 “실제로 사용한 리소스” 기반 과금
  • cloud costs를 over 65% 절감할 수 있다
  • 50% faster build times
  • 1,800 templates로 app이나 database를 single click deploy 가능
  • 무료로 가입 가능
  • 업그레이드 시 $20 in credits 제공

여기서 중요한 포인트는 “광고니까 무시”가 아니라, AI 시대일수록 배포 인프라의 중요성이 더 커진다는 현실이에요. code generation이 빨라질수록, 배포 병목이 더 도드라지거든요.

 

 

 


“It’s the most terrible time of the year”: 크리스마스를 망친 AI 광고, McDonald’s

이제 이야기는 기술에서 문화로 확 돌아갑니다. 스크립트의 감정도 여기서 확 올라가요.

It’s the most terrible time of the year.

McDonald’s가 만든 어떤 commercial을 두고, “nightmarish”라고 부르면서 강하게 비판하죠. 심지어 “artificial food generation company McDonald’s”라는 식으로 꼬집는 표현까지 씁니다.

핵심은 이것입니다.

  • 만든 쪽은 “prompt engineered”로 예술을 만들었다는 듯 말했지만
  • 반응이 너무 안 좋아서
  • McDonald’s가 결국 airwaves에서 그 광고를 내렸다는 것

여기서 스크립트는 아주 직설적으로 경고합니다.

  • 이 “AI slop content”는 앞으로 더 심해질 거다

이 부분이 중요한 이유는, 모델 성능이 아무리 좋아져도 결과물이 문화적으로 더 나빠질 수 있다는 점을 보여주기 때문이에요. 사람들의 피로감과 반감이 점점 커지는 이유도 여기에 있고요.

 

 

 


OpenAI–Disney $1 billion deal: iconic characters가 들어오면 판이 더 커진다

그리고 또 하나의 큰 소식이 나옵니다. 스크립트는 이걸 “Very concerning”이라고 반복해서 말해요.

OpenAI가 Disney와 $1 billion deal을 맺었고, 목적은 다음처럼 설명됩니다.

  • Disney의 iconic characters를 AI-generated photos and videos에 등장하게 허용

이게 왜 “huge”하냐고요? 스크립트는 이렇게 풀어 말합니다.

  • 이제 누구나 자신만의 custom Star WarsToy Story 같은 영상을 만들어낼 수 있게 될 수 있다
  • 그리고 그렇게 하려면 OpenAI’s tech를 쓰게 “강제되는” 구조가 될 수 있다

여기서 공포 포인트는 “팬 콘텐츠” 자체가 아니에요. 도구와 유통의 통제권이 어디로 집중되는가, 그 문제죠. 창작의 자유처럼 보이는 것이 실제로는 플랫폼 종속을 더 강화할 수도 있으니까요.

 

 

 


Polymarket, Kalshi, 그리고 “infinite money glitch” 느낌의 prediction markets

이제 시선이 금융 쪽으로 이동합니다. PolymarketKalshi 같은 prediction markets가, GPT-5.2가 어제 출시될 걸 “예측했다”는 얘기죠.

그런데 스크립트는 여기서 말을 돌려서 이렇게 정리해 버립니다.

  • “예측”이라기보다, OpenAI employees나 insiders가 “infinite money glitch”를 찾은 것일 수 있다
  • 이런 markets에서는 insider trading이 gray area에 놓여 있다

그리고 꽤 구체적인 언급도 나옵니다.

  • Google 쪽의 “obvious insider”가 이번 달에 a million bucks를 벌었다

결론적으로 스크립트가 던지는 의심은 이거예요.

  • 많은 경우 prediction markets가 정확해 보이는 이유는
  • 사실 insider trading이 섞여 있기 때문일 수 있다

그래서 또 한 번 같은 말이 반복됩니다.

  • “Very concerning.”

이건 단순한 비난이 아니라, 정보 접근성이 곧 수익으로 직결되는 구조가 강화될 때 사회 전체가 어떤 분위기가 되는지를 떠올리게 하죠.

 

 

 


다시 GPT-5.2로: ARC AGI가 이 이야기에서 “기준점”이 되는 이유

여러 갈래로 튄 이야기는 결국 다시 GPT-5.2로 돌아옵니다. 특히 ARC 얘기로요.

ARC는 weird하고, low-data puzzle이고, brute force로 밀면 실패하기 쉽고, humans는 몇 개 예시만 보면 풀기도 하고, 대부분의 AI models는 face plant한다… 이런 설정 자체가 “진짜 reasoning”을 묻고 있다는 걸 보여줍니다.

그러니 만약 GPT-5.2가 여기서 top tier로 올라섰다면, 사람들의 시선이 쏠릴 수밖에 없죠.

하지만 동시에, 이런 질문도 같이 남습니다.

  • 실제 사용에서 hallucinations가 체감될 만큼 줄었나?
  • coding 결과가 더 안정적인가?
  • 실수의 형태가 바뀌었나?
  • benchmark 밖의 삶에서 의미 있는 변화가 있나?

그리고 스크립트는 그 솔직한 감정도 숨기지 않아요.

  • “차이가 난다고 하긴 하는데, 나는 잘 모르겠다.”

이 말이 오히려 현실적이라서 더 신뢰를 줍니다.

 

 

 


결론: 설렘과 피로, 기대와 걱정이 한 화면에 같이 뜨는 2025년 12월

이 이야기를 쭉 따라오면, 감정이 한 가지로 정리되지 않는 게 자연스럽습니다.

  • 기술적 진보에 대한 excitement
  • 반복되는 hype cycle에 대한 exhaustion
  • AI slop content가 늘어날 때의 문화적 불쾌감
  • Disney 같은 거대 IP가 들어오며 커지는 power concentration 우려
  • prediction markets가 보여주는 gray area와 불신
  • 그리고 개발자라면 누구나 아는 “deploy의 압박”

이 모든 게 동시에 굴러갑니다.

스크립트는 마지막에 이렇게 끝나죠.

“This has been the Code Report. Thanks for watching and I will see you in the next one.”

그런데 이 문장이 의미하는 바는 단순합니다.
다음 편이 또 온다는 거예요. AI hype train은 멈출 기미가 없고, 2026년은 이미 끌려오듯 다가오고 있습니다.

GPT-5.2가 AGI threshold의 가장자리인지, 아니면 “잘 만든 불꽃놀이”인지 아직 단정하긴 이릅니다. 다만 하나는 확실해요.

ARC 이야기는 눈여겨볼 가치가 있고, 동시에 냉정함도 같이 챙겨야 한다는 것.
지금은 그 두 가지를 같이 들고 가야 하는 시기니까요.

반응형