SW/인공지능

더 강력한 언어 모델이 필요한 이유

얇은생각 2023. 7. 23. 07:30
반응형

대형 언어 모델이 점점 더 인기를 얻고 있습니다. 그러나, 그들의 개발은 또한 우리를 특정한 도전에 직면하게 합니다. GPT 모델만이 유일한 접근법은 아닙니다.

오늘날 사람들은 그 연관성에 대해 거의 의문을 제기하지 않습니다. 큰 모델은 더 나은 모델을 의미합니다. Open AI GPT를 새로 출시할 때마다 전통 미디어와 소셜 미디어 모두에 엄청난 관심을 불러일으킵니다. 하지만 일상 업무를 도와줄 더 강력한 언어 모델(기초 모델)이 필요합니다.

컴퓨터 과학. 그는 ChatGPT가 종종 엄청난 시간과 자원의 낭비일 수 있는 이유를 설명합니다. 그리고 동일한 결과를 가져올 수 있는 NLP 모델을 구축하기 위한 대안적인 접근법에 대해 이야기합니다.

 

 

더 강력한 언어 모델이 필요한 이유

 

 

ChatGPT의 특별한 점

ChatGPT는 자연스러운 인간 언어로 응답을 처리하고 생성하도록 설계된 기초 모델입니다. GPT 3.5를 기반으로 구축되어 단어와 문장의 시퀀스를 이해하고 개발할 수 있으며 이전 대화를 기억하고 학습할 수 있습니다. 또한 자체 지도 학습을 사용하여 실수를 수정할 수 있습니다. 일반적으로 다양한 작업에서 대부분의 생성 모델보다 더 나은 결과를 보여줍니다. 적어도 이것이 오픈 AI가 당신이 생각하기를 바라는 것입니다.

ChatGPT가 에세이를 쓰고, 임대 계약을 계획하고, 아이들의 이야기를 요약하는 데 보편적으로 좋다고 제안합니다. 그리고 그들의 솔루션의 보편성은 매혹적입니다.

스탠포드 AI 교수이자 생성 AI 분야의 선도적인 전문가 중 한 명인 Peter Liang은 이러한 적응성이 변압기 모델을 매우 매력적으로 만든다고 주장합니다:

초기 교육 단계를 거치면 자체 감독 모델은 더 작고 더 구체적인 광범위한 다운스트림 작업에서 더욱 미세 조정될 수 있습니다. 따라서 그들의 잠재적인 영향력은 방대합니다.

그러나 챗봇을 사용하는 것의 이점은 여기서 끝납니다. ChatGPT는 환각에서부터 보안 취약성에 이르기까지 몇 가지 심각한 단점이 있습니다. 그 이유는 건축에 있습니다.

 

 

ChatGPT가 걱정되는 이유

여기 ChatGPT과 같은 생성적 기계 학습 모델이 모든 사람이 생각하는 것만큼 훌륭한지 의문을 갖게 하는 몇 가지 이유가 있습니다.

어떤 요청에도 응답하려면 ChatGPT에 많은 전력이 필요합니다. 한 사용자는 ChatGPT 2023 1월에 175,000명의 사람들만큼 많은 전기를 소비했을 것이라고 계산했습니다. "기초 모델이란 무엇인가?"와 같은 간단한 질문을 할 때 챗봇은 한 달 동안보다 더 많은 에너지를 소비합니다. 비교를 위해, 구글 검색 한 번은 60W 전구를 17초 동안 켜는 것과 같습니다. 특히 훨씬 더 간단한 방법으로 동일한 것을 달성할 수 있다는 것을 고려하면 엄청난 낭비로 보입니다.

게다가, 이 알고리즘은 전기를 소비하기 때문에 엄청난 탄소 발자국을 생성합니다. 기초 모델의 추가 개발과 사용은 우리 행성의 미래에 상당한 영향을 미칠 수 있습니다.

 

 

의심스러운 성능

챗봇을 계속 실행하기 위해 얼마나 많은 자원이 사용되는지 보았습니다. 하지만 모델이 인간의 언어를 이해하는 법을 배우기 때문에 그럴 가치가 있을지도 모릅니다.

ChatGPT은 확률적 알고리즘에 기반을 두고 있습니다. 그리고 그것이 하는 일은 단순히 단어가 순서대로 다음에 있을 확률을 예측하는 것입니다. 하지만 그것은 인간의 언어와 대화를 이해할 수 없습니다.

GPT와 다른 큰 언어 모델은 인식론적인 것이라기보다는 미적인 도구입니다. 버튼이 텍스트 정보, 스타일 및 의미론을 샘플링하는 이상하고 신성하지 않은 신디사이저를 상상해 보십시오. 이러한 것은 텍스트의 형태로 답을 제공하기 때문이 아니라, 거의 모든 텍스트를 악기처럼 재생할 수 있기 때문에 매력적입니다.

이것은 왜 그것이 종종 "환각"이라고도 불리는 거짓 대답을 생성하는지 설명합니다 그것은 사실, 인용문, 출처를 발명합니다. 게다가, 기본적으로, 그것은 심지어 답변의 허위성에 대해서도 인식하지 못합니다. 그것을 구체적으로 요청하지 않는 한, 그것이 확실하지 않을 때 통지하지 않습니다. 따라서, 자원 정확도에 대한 보상이 의심스럽습니다.

 

 

한 손에 든 힘

마지막으로 챗봇 모델의 큰 문제는 한 손에 많은 힘을 축적한다는 것입니다.

구글, 페이스북, 오픈 AI와 같은 전 세계의 몇몇 회사만이 기반 모델을 배치할 수 있습니다. 기초 모델이 어떻게 작동하고 어떻게 작동해야 하는지를 조사하는 대부분의 연구원과 정책 입안자는 이러한 리소스에 액세스할 수 없습니다.

오늘날 스타트업(: OpenAI, 인류학, AI21 연구소 등)은 학계보다 훨씬 더 많은 자원을 보유하고 있으며, 따라서 여전히 최대 규모의 기초 모델(: OpenAI GPT-3)을 교육할 여유가 있습니다. 기초 모델의 근본적인 중앙 집중화는 이를 개발하기 위한 진입 장벽이 지속적으로 높아져 민첩성에도 불구하고 스타트업도 경쟁하기 어렵다는 것을 의미하며, 이는 검색 엔진의 발전에 반영되는 추세입니다

게다가 오픈 AI 같은 기업들은 기술을 공개하지 않고 있는데 GPT-3는 아예 공개되지 않고 일부 사람들에게만 API 접근 권한을 부여하고 있습니다. 데이터 세트도 공개되지 않았습니다. 공동체는 기초 모델을 만드는 데 있어 통제력이나 발언권이 없습니다.

 

 

대신

이해해야 할 중요한 것은 LLM으로 달성할 수 있는 것이 무엇이든 보다 간단하고 좁은 AI로 얻을 수 있다는 것입니다. , 그렇게 보편적이지는 않겠지만, 현실 세계의 대부분의 비즈니스 작업에는 일반적인 인공지능이 필요하지 않습니다. 거의 항상 봇을 개발하고 단순한 모델에서 지원하는 것이 저명한 공급자로부터 토큰을 구입하는 것보다 쉽고 저렴할 것입니다.

또한 중요한 데이터를 보호하는 방법에 대해 아무것도 모르는 경우에는 이러한 방법으로 중요한 데이터를 타사에 맡길 필요가 없습니다. ChatGPT에서 데이터가 유출되는 스캔들이 발생하더라도 이를 권장할 수 없습니다. ChatGPT 및 이와 유사한 솔루션은 가설을 테스트할 수 있는 MVP를 만드는 데 유용하지만, 장기적으로는 고객이 개발하고 요구 사항에 맞게 조정한 사내 솔루션으로 구성 요소를 전환하는 것이 더 타당합니다.

반응형