SW/인공지능

PLPD란? 테스트 타임 어댑테이션을 한층 더 똑똑하게 만드는 방법

얇은생각 2025. 5. 26. 07:30
반응형

테스트 타임 어댑테이션에서 신뢰도를 다시 생각하다: PLPD를 쉽게 이해하기

요즘 AI 모델들, 진짜 똑똑하잖아요? 근데 말이죠, 얘네도 새로운 환경 가면 좀 헤매요. 우리가 익숙한 곳에서도 길 잃을 때 있는 것처럼요. 학습할 때 봤던 이미지랑 실제 사용하는 환경이 완전히 다르면 성능이 뚝— 하고 떨어지곤 합니다. 그런 상황을 도와주는 기술이 바로 **테스트 타임 어댑테이션(TTA)**이래요. 최근에 열린 ICLR 2024에서, PLPD라는 새로운 접근 방식이 소개됐어요. 이게 좀 흥미롭더라고요. 마치 기존의 기준을 살짝 뒤흔들면서 더 똑똑하게 문제를 해결하려는 느낌이랄까요?

 

PLPD란? 테스트 타임 어댑테이션을 한층 더 똑똑하게 만드는 방법

 

TTA란 무엇일까요?

  • TTA는 테스트 중 들어오는 데이터에 AI 모델이 스스로 적응하도록 돕는 기술입니다.
  • 기존 학습 데이터와 전혀 다른 실제 환경 이미지에도 성능을 유지할 수 있게 합니다.
  • 추가적인 학습 없이, 실시간으로 모델을 조정할 수 있습니다.

 

상상해보세요. GTA 게임 이미지로 AI를 가르쳤는데, 이걸 진짜 거리 CCTV에 써야 한다면? 완전 딴 세상이잖아요. 저도 예전에 그런 유사한 상황을 겪은 적이 있어요. 사진 앱이 고양이 사진만 잘 찍히더니, 정작 제 반려묘는 인식도 못 하더라고요. 바로 그럴 때 필요한 게 TTA! 별도로 다시 학습하지 않아도, 알아서 주변 환경에 적응하도록 돕는 겁니다.

 

TTA의 어려움은?

TTA가 아무리 똑똑해도 고민은 있죠:

  1. 새로 들어온 데이터가 진짜 쓸모 있는지 어떻게 판단할까?
  2. 특히 영상처럼 빠르게 데이터가 쏟아질 땐, 너무 비슷비슷한 이미지가 많아 훈련이 지루해질 수 있거든요. 제 친구는 자율주행 실험하면서, 똑같은 도로 풍경이 계속 들어오는 바람에 모델이 지루해한다(?)고 농담하더라고요.

 

기존 신뢰도 지표의 문제점

  • 기존에 사용된 엔트로피는 모델의 예측 신뢰도를 수치로 판단하는 지표입니다.
  • 하지만 엔트로피가 낮다고 해서 항상 올바른 예측이라는 보장은 없습니다.
  • 예: Waterbirds 데이터셋에서는 배경을 기준으로 잘못된 판단을 내리는 경우가 있었습니다.

 

예전엔 엔트로피라는 걸로 모델이 얼마나 확신하는지 판단했어요. 수치가 낮으면 "난 이거 확신해!"라고 말하는 거죠. 근데 그게 꼭 맞는 건 아니더라고요. Waterbirds라는 데이터셋이 있는데, 모델이 새를 보는 게 아니라 주변 풍경(물? 땅?)만 보고 판단하더라구요. 아, 저도 어떤 앱이 하늘 사진만 보면 무조건 "야외 활동 좋아하시네요!"라고 푸시 보내서 웃겼던 기억이 나네요. 맞긴 한데... 왜 그런지는 중요하잖아요.

 

 

숨겨진 특징, '잠재 벡터'의 역할

  • AI 모델은 이미지 속 정보를 잠재 벡터라는 형태로 내부에서 표현합니다.
  • 이 벡터들은 객체의 본질을 담기도 하고, 배경 등 혼란을 주는 정보일 수도 있습니다.
  • 저자들은 잠재 벡터를 네 가지 유형으로 나눴습니다.

 

모델 속을 들여다보면, 이미지들을 아주 작은 정보 덩어리들로 나눠서 보고 있어요. 그걸 잠재 벡터라고 하더라고요. 어떤 벡터는 중요한 정보—예를 들어 새의 날개 모양 같은 거고, 어떤 건 쓸데없는 정보, 예를 들면 뒤에 흐릿한 배경 같은 거예요. 이 논문에서는 그 벡터들을 네 가지로 분류했어요. 정말 꼼꼼하죠?

 

 

그래서 나온 PLPD

  • 엔트로피만으로는 학습에 좋은 데이터를 판단하기 어렵습니다.
  • 저자들은 PLPD라는 새로운 방식의 신뢰도 점수를 제안했습니다.
  • PLPD는 의미 있는 특징을 기반으로 유효 데이터를 골라낼 수 있도록 돕습니다.

 

그래서 PLPD가 등장했어요. 말이 좀 어려운데, 간단히 말하면 "이 이미지, 정말 가치 있어?"를 따져보는 새로운 기준이에요. 저처럼 감으로 판단 못 하는 모델을 위해 생긴 거랄까요. 쓸모 있는 이미지와 아닌 걸 잘 가려내는 데 특화됐다고 해요.

 

 

PLPD는 어떻게 작동할까요?

  1. 이미지를 의도적으로 망가뜨리기: 다음 세 가지 방법으로 이미지 속 물체 정보를 깨뜨립니다.
    • 픽셀 셔플: 전체 이미지를 무작위로 섞음
    • 패치 셔플: 물체 일부만 섞어 형태를 흐림
    • 센터 오클루전: 이미지 중앙(물체가 있을 가능성 높은 부분)을 가림
  2. 예측 결과 비교: 원본 이미지와 변형된 이미지의 예측 결과 차이를 계산합니다. 차이가 클수록 모델이 물체 자체를 보고 판단하고 있다는 뜻입니다.
  3. 데이터 선택: PLPD와 엔트로피를 함께 고려해 유효한 이미지들만 골라냅니다.
  4. 학습 반영: PLPD가 높은 이미지에 더 많은 가중치를 주며 모델을 업데이트합니다.

 

이 과정을 논문에서는 Deyo라고 부르더라고요. 이름도 귀엽죠? 제가 이 과정을 보면서 약간 요리 비법 같다고 느꼈어요. 재료(이미지)를 살짝 망가뜨려 보고, 맛(예측 결과)을 비교해서 쓸만한 재료만 골라내는 느낌이랄까요.

 

 

실제로 잘 작동할까?

  • 다양한 데이터셋에서 실험한 결과, Deyo는 기존 TTA보다 뛰어난 성능을 보였습니다.
  • 특히 노이즈나 편향이 있는 환경에서도 모델이 잘 적응하도록 도왔습니다.
  • 실험에 사용된 데이터셋은 현실 왜곡, 편향 상황, 다양한 스타일을 포함했습니다.

 

연구팀이 이걸 실제로 여러 상황에서 실험해봤는데요. 그림체가 다르거나, 일부러 노이즈 섞은 이미지에서도 성능이 꽤 괜찮았대요. 저도 이미지 필터 많은 앱 쓰다 보면 필터 하나 때문에 얼굴 인식이 안 되던 기억이 있는데... 그걸 잘 이겨내는 거죠. 이건 꽤 괜찮은 결과라고 생각했어요.

 

 

실제 환경에서는 어떨까요?

  • 실제 환경에서는 데이터의 편향이 명확하지 않을 수 있습니다.
  • 하지만 반복되는 장면이 많은 자율주행이나 CCTV 환경에서도 PLPD는 효과적입니다.
  • PLPD는 역전파 없이도 샘플을 선택해 속도 부담이 적습니다.
  • 다만, 임계값 설정에 따라 유효한 데이터를 걸러낼 위험도 존재합니다.

 

실제 환경에서도 잘 될까? 저도 궁금했거든요. 근데 생각해보면 우리가 매일 보는 CCTV나 자율주행차 영상 같은 건 꽤 비슷한 장면이 반복되잖아요. 이런 편향된 환경에서도 PLPD는 꽤 유용하다고 해요. 게다가 속도도 빠르다니, 현실에서 충분히 쓸 수 있을 것 같았어요.

 

 

한계와 앞으로의 방향

  • 현재 PLPD 기반 기법은 분류 문제에 한정되어 있습니다.
  • 객체 탐지나 세분화 등의 다른 과제에는 아직 적용되지 않았습니다.
  • 사람의 시각 방식, 즉 형태 중심의 판단 기준에 의존하고 있습니다.
  • 그럼에도 불구하고 PLPD는 다양한 AI 기술에 영향을 줄 수 있는 가능성을 지니고 있습니다.

 

물론 아쉬운 점도 있어요. 아직은 분류 문제에만 적용됐고, 탐지나 세분화 같은 다른 분야엔 안 들어갔다고 하더라고요. 하지만 전 이걸 시작으로 더 많은 분야에 응용될 거라고 믿어요. PLPD, 꽤 매력 있거든요.

 

 

마무리하며

  • 이 논문은 엔트로피만으로는 충분하지 않다는 점을 강조합니다.
  • AI 모델이 올바른 이유로 예측하고 있는지를 파악하는 것이 중요합니다.
  • PLPD는 그 판단 기준이 될 수 있는 새로운 가능성을 보여줍니다.
  • 앞으로의 AI 실시간 활용에 있어 PLPD는 중요한 열쇠가 될 수 있습니다.

 

전체적으로 봤을 때, 이 논문은 우리가 모델을 평가하는 방식을 다시 생각해보게 만들어요. 그동안 당연하다고 여겼던 엔트로피가 사실 전부는 아니었다는 거죠. PLPD는 진짜 "이유 있는 신뢰"를 추구하는 느낌이라, 참 좋았어요. 저는 AI가 더 똑똑해지기 위해선, 이렇게 감정을 이해하는 듯한 기술도 필요하다고 생각하거든요. 이 글이 조금이나마 여러분의 호기심을 자극했다면, 그것만으로도 전 성공이라고 생각해요.

반응형