SW/인공지능

인공지능 : 기계 번역 : RBMT, SMT : 개념, 차이, 분석

얇은생각 2019. 7. 21. 07:30
반응형

인공지능 : 기계 번역 : RBMT, SMT : 개념, 차이, 분석



RBMT(Rule-Based Machine Translation) 기술

RBMT는 수 많은 내장된 언어 규칙과 각 언어 쌍에 대해 수백만 개의 2개 사전을 사용합니다. RBMT 시스템은 텍스트를 구문 분석하여 대상 언어의 텍스트가 생성되는 과도 표현을 생성합니다. 이 프로세스에는 형태학, 통사 및 의미 정보가 포함된 광범위한 어휘소와 대규모 규칙 집합이 필요합니다. 


소프트웨어는 이러한 복잡한 규칙 집합을 사용한 다음 소스 언어의 문법 구조를 대상 언어로 전송합니다. 규칙 기반 기계 번역 시스템은 거대한 사전과 정교한 언어 규칙을 기반으로 합니다. 사용자는 시스템의 기본 설정을 재정의하는 사용자 정의 사전을 생성하여 변환 프로세스에 용어를 추가하여 변환 품질을 개선할 수 있습니다. 


대부분의 경우, 두 가지 단계가 있습니다. 즉, 제한된 비용으로 품질을 크게 향상시키는 초기 투자와 점진적으로 품질을 높이기 위한 지속적인 투자입니다. 규칙 기반 MT는 회사를 합리적인 품질 임계값에 도달하게 할 수 있지만, 품질 개선 프로세스는 일반적으로 길고 비용이 많이 들고 숙련된 전문가가 수행해야 합니다. 이는 현지 산업에서 MT의 채택과 사용이 더딘 원인이 되었습니다.




SMT(Statistical Machine Translation) 기술

통계 기계 번역은 단일 언어 및 2개 언어 교육 데이터의 분석에서 생성된 통계 번역 모델을 활용합니다. 기본적으로 이 접근 방식은 컴퓨팅 능력을 사용하여 한 소스 언어를 다른 소스로 변환하는 정교한 데이터 모델을 구축합니다. 가장 자주 발생하는 단어나 구를 선택하기 위해 알고리즘을 사용하여 교육 데이터에서 변환이 선택됩니다. 


SMT 모델 구축은 특정 언어 쌍 및 도메인에 대한 엔진 교육을 위해 파일을 업로드하는 것을 수반하는 비교적 빠르고 간단한 프로세스입니다. 특정 도메인에 대해 엔진을 교육하려면 최소 200만 개의 단어가 필요하지만 훨씬 적은 양으로 허용 가능한 품질 임계값에 도달할 수 있습니다. 시만텍 기술은 번역 메모리 및 용어집과 같은 2개 언어를 사용하는 회사들에 의존하여 언어 패턴을 학습하도록 교육하고 있으며, 단일 언어 데이터를 사용하여 유창성을 향상시킵니다. 


SMT 엔진은 의료, 재무 또는 기술 도메인과 같은 도메인별 교육 데이터를 사용하여 교육할 경우 출력 품질이 더 높은 것으로 입증됩니다. SMT 기술은 CPU 집약적이며 적절한 성능 레벨에서 변환 모델을 실행하려면 광범위한 하드웨어 구성이 필요합니다. 따라서 사용자가 하드웨어 및 소프트웨어 비용에 크게 투자하지 않고도 사용자의 요구에 맞게 확장할 수 있는 클라우드 기반 시스템이 선호됩니다.




RBMT와 SMT를 비교

- RBMT는 좋은 결과를 얻을 수 있지만 우수한 품질의 시스템을 위해 교육 및 개발 비용은 매우 높습니다. 투자 측면에서 품질 임계값에 도달하는 데 필요한 사용자 지정 주기는 길고 비용이 많이 소요될 수 있습니다.


- RBMT 시스템은 SMT 시스템보다 훨씬 적은 데이터로 구축되며, 대신 사전 및 언어 규칙을 사용하여 변환합니다. 이것은 때때로 유창함의 부족을 초래합니다. 


- 언어는 끊임없이 변화하고 있습니다. 즉, RBMT 시스템에서 필요한 경우 규칙을 관리하고 업데이트해야 합니다. 


- SMT 시스템을 훨씬 더 짧은 시간에 구축할 수 있으며 언어 전문가가 시스템에 언어 규칙을 적용할 필요가 없습니다. 


- SMT 모델은 대규모 변환 모델을 구축하고 관리하기 위해 최첨단 시스템 처리 능력과 저장 용량이 필요합니다. 


- SMT 시스템은 교육 데이터 스타일을 모방하여 패턴의 빈도에 따라 출력을 생성함으로써 보다 유창한 출력을 낼 수 있습니다.

반응형