SW/인공지능

10년간의 생성 AI: 교훈과 미래 전망

얇은생각 2024. 6. 7. 23:29
반응형

최근 생성 AI 기술이 뜨거운 관심을 받고 있습니다. ChatGPT Bard와 같은 모델들이 주목받고 있는 가운데, 많은 기업들이 생성 AI의 활용 사례를 이해하려고 노력하고 있습니다. 하지만 생성 AI는 새로운 개념이 아닙니다. 생성 모델링, 즉 생성 AI는 지난 10년 이상 동안 배후에서 급격히 발전해 왔으며, 그 발전을 이끈 세 가지 주요 요인이 있습니다: 오픈 소스 소프트웨어 라이브러리의 개발, 신경망 아키텍처와 훈련 방법의 혁신, 그리고 그래픽 처리 장치(GPU)와 텐서 처리 장치(TPU)와 같은 하드웨어의 개선입니다.

이 글에서는 생성 모델이 무엇인지, 현재의 위치에 도달하게 된 과정, 그리고 어떻게 사용되어야 하는지 설명하고, 그 한계점도 살펴보겠습니다.

 

 

10년간의 생성 AI: 교훈과 미래 전망

 

 

생성 모델이란 무엇이며, 어디에서 왔는가?

생성 모델은 훈련 데이터의 분포를 학습하여 원본 데이터와 통계적으로 유사한 합성 데이터를 생성하는 모델입니다. 이는 두 단계의 과정을 필요로 합니다. 첫째, 모델은 큰 고정 데이터 세트에 대해 훈련되고, 둘째, 모델을 샘플링하여 새로운 데이터 포인트를 생성합니다. 이 두 단계의 과정은 모델이 한번 훈련되면 저비용으로 대규모로 새로운 데이터를 생성할 수 있다는 이점을 제공합니다.

초기의 생성 모델은 히든 마르코프 모델(HMM), 나이브 베이즈, 가우시안 혼합 모델(GMM) 등 비교적 단순했습니다. 그러나 2010년경 GPU가 머신러닝에 본격적으로 도입되면서 딥 뉴럴 네트워크를 기반으로 한 보다 유연한 생성 모델이 등장하기 시작했습니다. 딥마인드(2010), 구글 브레인(2011), 페이스북 AI 리서치(2013)와 같은 잘 갖춰진 연구소들이 이 시기에 등장했으며, 2015년 말 오픈AI가 합류하면서 딥러닝과 생성 모델링의 발전에 더욱 박차를 가했습니다. 이 시기에는 변이 오토인코더(VAE, 2013)와 생성적 적대 신경망(GAN, 2014)과 같은 새로운 아키텍처가 등장하여 이미지 생성에서 최첨단 결과를 내기 시작했습니다.

이러한 복잡한 모델의 개발과 배포를 촉진하기 위해 구글은 2015년에 오픈 소스 라이브러리인 텐서플로우를 출시했으며, 페이스북은 2016년에 파이토치를 출시했습니다. 이 라이브러리들은 딥러닝을 폭넓은 실무자와 연구자들에게 접근 가능하게 만들어 새로운 모델과 응용 프로그램의 빠른 개발을 이끌었습니다.

 

 

혁신적인 생성 모델과 기술

2017년에 등장한 트랜스포머 모델은 모든 현재 최첨단 언어 모델의 기반이 되었으며, 2018년에 등장한 구글의 BERT와 오픈AI GPT는 다양한 작업을 수행할 수 있는 범용 언어 모델로 설계되었습니다. 2019년에는 열역학에서 영감을 받은 디퓨전 모델이 이미지 생성에서 새로운 돌파구를 열었습니다.

현재 디퓨전 모델과 트랜스포머 모델은 각각 텍스트-이미지 및 언어 모델에서 최첨단 결과를 달성하고 있습니다. 예를 들어, 2022년에 출시된 ChatGPT 2023년에 출시된 GPT-4는 트랜스포머 아키텍처를 사용하고 있으며, 스테이블 디퓨전과 미드저니와 같은 모델은 디퓨전 기반 모델입니다. 최근 몇 년 동안 생성 AI의 트렌드는 더 많은 파라미터를 가진 더 큰 모델을 훈련시켜 더 나은 결과를 얻는 것입니다. 이러한 엔지니어링의 성과는 GPT-4 Midjourney v5와 같은 모델들이며, 이들은 개선된 하드웨어, 잘 개발된 소프트웨어 라이브러리, 효율적인 딥 뉴럴 네트워크 아키텍처(트랜스포머)와 결합하여 일반 대중에게 쉽게 접근할 수 있도록 만든 덕분에 인기를 끌고 있습니다.

 

 

생성 모델의 응용

생성 모델이 더 설득력 있는 결과를 만들어내고 대중에게 쉽게 접근할 수 있게 되면서 다양한 응용 프로그램에 적합해졌습니다. 이미지의 경우 대부분의 응용 프로그램은 콘텐츠 생성과 디자인과 관련이 있습니다. 생성 모델이 적용된 악명 높은 예로는 딥페이크의 등장이 있습니다. 이는 영화 및 광고 산업에서 유용하게 사용될 수 있지만, 잘못 사용될 경우 허위 정보를 퍼뜨리는 데 악용될 수도 있습니다. ChatGPT, Bard, GPT-4와 같은 언어 모델의 경우 텍스트 요약, 번역, 완성 등의 응용 프로그램이 있으며, 이는 마케팅 콘텐츠와 내부 커뮤니케이션에 특히 유용합니다.

 

 

기술적 측면의 응용

기술적 측면에서는 Codex GitHub Copilot과 같은 언어 모델이 코드를 생성하는 데 성공적으로 사용되어 개발 속도를 높이고 프로그래머를 도울 수 있습니다. 그러나 효과적으로 모델을 지시하는 것은 프롬프트 엔지니어링의 예술입니다.

 

도전과 위험 요소

현재 생성 모델의 근본적인 위험은 블랙박스 모델로서 출력물을 통제할 수 없다는 점입니다. 이 문제는 여러 가지 형태로 나타날 수 있습니다:

모델이 공격적이거나 그래픽적인 텍스트와 이미지를 생성하지 못하게 할 명시적인 방법이 없습니다. 부적절한 자료를 걸러내기 위해 인간이 개입해야 합니다.

생성 모델이 훈련 데이터의 상당 부분을 반환할 수 있어 프라이버시 및 저작권 문제가 발생할 수 있습니다. 이는 최근 Getty Images Stability AI를 상대로 제기한 소송에서 강조된 문제입니다.

언어 모델이 반환하는 정보가 부정확하거나 오해의 소지가 있을 수 있으며, 모델 자체에서 출력물을 사실 확인할 방법이 없습니다. 따라서 이러한 모델은 의료, 금융 또는 법적 문제와 같은 고위험 상황에서 콘텐츠를 생성하는 데 의존해서는 안 됩니다. 또한 GitHub Copilot과 같은 코드 생성 도구의 경우, 코드를 프로덕션에 투입하기 전에 누락된 엣지 케이스나 버그가 없는지 주의해야 합니다.

이러한 위험을 완화하기 위해 효과적인 생성 모델은 인간과 협력하여 출력물을 모니터링하고 필요할 때 결과를 수정해야 합니다.

 

생성 AI의 미래

생성 AI의 미래는 이 기술을 여기까지 이끈 동일한 힘에 의해 계속 주도될 것입니다. 하드웨어와 소프트웨어의 개선은 우리가 훈련할 수 있는 모델의 용량을 증가시킬 것입니다. 아키텍처와 훈련의 새로운 혁신은 새로운 최첨단 모델로 성능의 도약을 이끌 것입니다. 또한, 새로운 기회와 함께 새로운 도전 과제도 나타날 것입니다. 저작권 및 지적 재산법은 적응해야 하며, AI 및 데이터 규제가 발전함에 따라 훈련에 사용되는 데이터에 대한 프라이버시 우려도 증가할 것입니다. 딥페이크 기술도 계속 성숙해져 허위 정보와 가짜 콘텐츠를 퍼뜨리는 더 진보된 방법이 등장할 것입니다. 이러한 도전 과제에도 불구하고, 생성 AI의 미래는 의료, 영화, 금융 등 여러 산업을 혁신할 잠재력을 지니고 있어 밝다고 할 수 있습니다.

반응형