SW/인공지능

데이터 중독과 모델 붕괴: 다가올 AI 대재앙

얇은생각 2024. 1. 4. 07:30
반응형

AI가 생성한 콘텐츠의 존재는 페스트처럼 퍼질 것이고, 중독 검색 결과는 물론 AI 모델이 무너질 것입니다.

ChatGPT와 같은 생성 AI 도구는 너무 좋아서 사실이 아닌 것 같습니다. 간단한 프롬프트를 만들고 플랫폼은 텍스트(또는 이미지, 비디오 등)를 생성하여 주문합니다.

그 이면에서 ChatGPT와 그 기술은 방대한 양의 World Wide Web을 훈련 데이터로 활용합니다. 이 기술의 이름을 딴 LLM(Large Language Model) '대규모'입니다.

그러나 생성 AI는 단점이 있습니다. 그것은 진실성보다 신뢰성을 선호하며 종종 bullsh!t를 생성합니다(bullsh!t에 대한 제 최근 기사 참조).

그러나 그것의 진실성 부족은 그것의 유일한 단점이 아닙니다. 생성 AI는 그럴듯한 콘텐츠를 만드는 데 매우 성공적이어서 사람들은 그것을 다시 웹에 업로드하고 있는데, 이는 다음 번 생성 AI 모델이 훈련에 웹을 사용할 때 점점 더 많은 양의 AI 생성 데이터를 활용한다는 것을 의미합니다.

피드백 루프는 모델 붕괴와 데이터 중독을 초래하기 때문에 나쁜 점입니다. 이러한 문제를 예방할 수 있는 실질적인 방법이 없기 때문에 이 루프는 대부분 또는 모든 AI를 사용할 수 없게 만들 수 있습니다. 

자세히 알아보겠습니다.

 

 

데이터 중독과 모델 붕괴: 다가올 AI 대재앙

 

 

모델 붕괴 및 데이터 중독

모델 붕괴는 인공지능 모델이 인공지능이 생성한 콘텐츠를 학습할 때 발생합니다. 생성된 데이터의 작은 오류나 편향이 각 주기에 따라 혼합되어 결국 데이터의 원래 분포에 기반한 추론을 생성하는 것에서 벗어나 모델을 조정하는 과정입니다.

, 모델은 결국 원본 데이터를 완전히 잊어버리고 결국 쓸모없는 소음을 만들어냅니다.

데이터 중독은 관련이 있지만 다른 과정입니다. 데이터 중독은 나쁜 행위자가 의도적으로 잘못된 정보를 훈련 데이터 세트에 도입하여 모델이 나쁜 결과를 얻도록 하는 일종의 사이버 공격입니다. 또는 실제로 나쁜 행위자가 원하는 모든 결과를 생성하도록 하는 것입니다.

2016년 마이크로소프트의 트위터 챗봇 테이의 부패는 데이터 중독의 대표적인 예입니다. 사용자들은 챗봇에게 공격적인 트윗을 먹였고, 따라서 테이가 적대적으로 행동하도록 훈련시켰습니다.

모델 붕괴와 데이터 중독은 서로 다른 문제이지만, 특히 그 중첩은 불길합니다. 나쁜 행위자들이 모델을 붕괴시킬 의도로 AI를 이용해 독이 든 데이터를 생성한다면, 그들은 발각되지 않고 자신의 불법적인 목표를 달성할 가능성이 높습니다.

 

 

공용 데이터 세트의 문제

사람들은 항상 웹을 중독시키고 있습니다. 아마도 당신조차도 그렇게 했을 것입니다. 이 불법 행위를 달성하기 위해 당신이 해야 할 일은 인공지능이 만든 콘텐츠를 온라인에 게시하는 것입니다. 결국 중독은 의도적이거나 부주의할 수 있습니다.

의도적인 데이터 중독은 사이버 위협이지만 웹, 소셜 미디어, 인트라넷, 슬랙 채널 및 기타 사람들이 AI 생성 콘텐츠를 게시할 수 있는 모든 곳에서 우발적인 중독이 지속적으로 발생하고 있습니다.

사실 모델 붕괴만이 웹 중독의 바람직하지 않은 결과는 아닙니다. 어떤 검색 엔진도 그 대상입니다. 검색 엔진들은 LLM들이 현장에 나오기 훨씬 전부터 웹을 긁어왔습니다. 하지만 이제 그 인공지능 고양이가 사라졌으니, 구글 검색의 결과가 인공지능이 만든 콘텐츠가 있는 페이지일 가능성은 얼마나 될까요?

오늘날 AI가 생성하는 검색 결과의 비율은 상대적으로 낮을지 모르지만, 이 비율은 시간이 지남에 따라 증가할 것입니다. 이 추세가 지속되면 검색 엔진은 점점 더 쓸모가 없게 될 것입니다. 동일한 콘텐츠를 활용하는 LLM은 필연적으로 무너질 것이고, 독이 든 콘텐츠만 나타날 것이기 때문입니다.

 

 

합성독: AI의 펜타닐

데이터 중독은 의도적이거나 우발적일 수도 있지만, 세 번째 가능성이 있습니다: 종합 훈련 데이터입니다.

예를 들어, 건강 기록과 같은 개인 정보가 포함된 경우 LLM 교육을 위해 실제 데이터 세트를 활용하는 것은 비실용적입니다.

대신, 인공지능 전문가들은 인공지능을 활용하여 합성 데이터 세트문제의 민감한 정보를 포함하지 않는 것을 제외하고는 모든 면에서 실제 데이터 세트와 유사한 데이터 세트를 만듭니다.

하지만 인공지능이 합성 데이터를 생성하기 때문에 합성 데이터 생성 모델을 학습시킨 데이터 세트에 인공지능이 생성한 데이터 자체가 포함되어 모델 붕괴를 초래하는 악순환 고리가 형성될 위험이 있습니다.

 

 

데이터 중독/모델 붕괴 문제 해결 방법

이 문제에 대한 가장 명백한 해결책은 가장 비실용적인 것입니다. 확실히, 우리는 사람들이 온라인에 인공지능이 생성한 콘텐츠를 게시하거나 우리의 모델을 훈련시키기 위해 그것을 사용하는 것을 금지할 수 있습니다. 그러나 그러한 금지의 시행은 불가능할 것입니다.

또한 인공지능 모델을 개선하여 인공지능이 생성한 콘텐츠를 인식하고 훈련 알고리즘에서 제외할 수 있습니다. 인공지능이 생성한 콘텐츠 탐지 도구를 속이는 기술이 도구 자체보다 더 빠르게 발전하는 것처럼 보이기 때문에 이 솔루션은 비현실적입니다. 기껏해야 일부만 작동하지만, 그럼에도 불구하고 미끄러진 독이 든 데이터는 모델을 붕괴시킬 것입니다.

관련 기술의 최첨단 기술을 고려할 때 최상의 해결책은 공공 데이터나 인공지능이 생성한 합성 데이터에 대한 훈련 모델을 피하는 것입니다. , 조직은 훈련 데이터 세트를 신중하게 선별해야 하며, 검증할 수 있는 '깨끗한' 소스 데이터 세트만 선택하고 인공지능이 생성한 데이터는 제외해야 합니다.

오늘날의 웹에서 LLM을 교육하는 것이 시작되었습니다. 웹을 안전하게 사용하는 유일한 방법은 생성 AI가 존재하기 전의 페이지만을 사용하는 것입니다. 인터넷 아카이브가 다운로드 수가 그렇게 증가하는 것은 당연합니다.

합성 데이터는 더 까다로운 문제입니다. 조직은 (몇 년 동안 그래왔듯이) 인공지능을 사용하지 않고도 확실히 합성 데이터를 만들 수 있지만, 그렇게 되면 인간의 오류와 편견을 도입하는 것과 같은 데이터 세트에 대해 항상 가지고 있던 것과 같은 문제를 갖게 될 것입니다.

합성 데이터 생성 모델에 대한 교육 데이터 자체가 인공지능 생성 콘텐츠를 모두 배제하는 신중하게 선별된 데이터 세트를 활용한다면 아마도 합성 데이터는 데이터 중독/모델 붕괴 문제를 피할 수 있을 것입니다.

 

 

인텔릭스 테이크

생성 AI를 항생제처럼 행동하는 것으로 생각할 수 있습니다. 시간이 지남에 따라 내성이 쌓이면서 완전히 작동하지 않을 때까지 문제가 된 데뷔 당시 원더 의약품입니다.

또는 웹의 이해할 수 없는 크기와 불가항력적인 성장에도 불구하고 월드 와이드 웹과 같은 공공 데이터 세트는 제한된 리소스로 간주해야 할 것입니다.

그럼에도 불구하고 AI가 생성한 콘텐츠의 존재는 페스트처럼 퍼질 것이고, 중독 검색 결과와 훈련을 위해 그러한 공공 정보에 의존하는 AI 모델을 붕괴시킬 것입니다.

좋은 소식은 큐레이션이 실행 가능한 솔루션이라는 것입니다. 사실, 생성 AI의 많은 비즈니스 응용 프로그램은 이미 큐레이션된 콘텐츠에 의존하고 있습니다.

하지만 이런 치유에는 지속적인 경계가 필요합니다. 단순히 기업의 데이터를 교육 데이터의 원천으로 삼기 때문에 기업은 모델 붕괴로부터 자유롭다는 입장을 취하는 것은 지나친 자만심으로 이어질 수 있습니다.

세심한 모니터링과 거버넌스가 없다면, 세심하게 선별된 데이터 세트조차도 실수로 인공지능이 생성한 콘텐츠를 통합할 수 있습니다. 그러한 안일함에 대한 해독제는 끊임없는 경계심입니다.

반응형