SW/인공지능

딥러닝 : 심층 학습의 병목 현상은 무엇일까요?

얇은생각 2020. 1. 1. 07:30
반응형

병목현상

 

딥 뉴럴 네트워크는 매우 큰 수학적 함수입니다. 매우 우아한 기능이지만 계산량이 매우 높습니다. 먼저 “딥” 신경망을 수학적으로 렌더링하면 아래와 같습니다.

 

    f1 (f2 (f3 (f4 (f5 (x)))))

 

일반적으로 심층 신경망에는 기능 내 기능 (일반적으로 약 30 ~ 100 개의 층)을 의미하는 더 많은 "계층"과 더 많은 인수 / 매개 변수 (신경망이 원본 고품질 이미지 파일을 분석하는 경우 512x512 매개 변수)가 있습니다. 이제 엄청 무거운 함수가 되는 것입니다.

이 아키텍처가 왜 데이터 분석에 효과적일까요? 각 기능이 서로 의존한다는 것입니다. 독립적인 기능이 아닙니다. 그것들은 모두 어떻게든 연결되어 있으며, 각각의 변화는 전체 모델에 영향을 미치는 변화의 연쇄 반응을 나타냅니다. 우리 뇌의 뉴런과 유사합니다. 단일 행동 전위는 복잡한 회로, 따라서 신경망의 연쇄 반응을 일으킵니다. 수학자들은 이 모델이 다른 회귀 모델보다 더 효과적인지 아직 확실하게 입증하지 못했습니다. 이 수학은 신경망이 작동하는 방식을 엄격히 증명하지만 그것이 왜 그렇게 행동하는지는 증명하지 못했습니다.

지금까지 모든 것이 멋지지만 최적화하려고 할 때 진정한 문제가 발생합니다. 미적분학의 연쇄 규칙에 대해 들어본 적이 있습니까? 매개 변수는 "다중 변수"이므로 연쇄 규칙을 사용하여 이 다변수, 기울기를 도출해야 합니다. 이를 위해서는 많은 계산 능력이 필요합니다. 이것이 1980년대에 이 개념이 처음 제안되었지만 딥 러닝이 최근부터 인기를 얻기 시작한 이유입니다. 수학 쪽은 더 많은 병목 현상을 일으킵니다. 계산량이 많은 알고리즘으로 시작하는 것은 원래의 알고리즘보다 약간 더 성능이 우수하다는 점을 제외하고는 상대적으로 무거운 알고리즘이 됩니다.

또한 미래에는 AI가 인간이 할 수 없었던 문제를 해결하기를 원합니다. 회귀 알고리즘은 문제에 대한 새로운 솔루션을 만들 수는 없습니다. 정보를 추상화하고 이러한 추상화를 통합하여 복잡한 사고 과정을 구성하는 기술이 필요하기 때문입니다. 딥 러닝은 데이터만 분석 할 수 있으며 데이터를 통합하여 마음에 들지 않는 작업을 수행 할 수 없습니다. 사람의 개입이 필요합니다.

반응형