SW/Python

파이썬 : 자연어 처리, 데이터 마이닝 통계 플랫폼 추천, 종류

얇은생각 2019. 9. 15. 07:30
반응형

자연어 처리 플랫폼

 

자연어 처리

 

NLTK

이 라이브러리 제품군의 이름은 Natural Language Toolkit의 약자이며, 이름에서 알 수 있듯이 기호 및 통계 자연 언어 처리와 관련된 일반적인 작업에 사용되었습니다. NLTK는 NLP 및 관련 분야 (언어학,인지 과학, 인공 지능 등)에 대한 교육과 연구를 용이하게하기 위해 만들어졌으며 오늘날 이를 중심으로 사용되고 있습니다.

NLTK의 기능은 텍스트 태그 지정, 분류 및 토큰화, 이름 엔터티 식별, 문장 간 및 문장 내 종속성, 형태소 분석 및 의미 론적 추론을 나타내는 말뭉치 만들기와 같은 많은 작업을 허용합니다. 모든 빌딩 블록을 통해 다양한 작업을 위한 복잡한 연구 시스템을 구축 할 수 있습니다. 예를 들어 감정 분석 및 자동 요약이 있습니다.

 

 

Gensim

Gensim은 벡터 공간 모델링 및 주제 모델링 작업을 위한 도구를 구현하는 Python 용 오픈 소스 라이브러리입니다. 라이브러리는 NumPy 데이터 구조 및 SciPy 작업에 효율적으로 설계되었으며 사용하기도 쉽습니다.

Gensim은 원시 및 비정형 디지털 텍스트와 함께 사용하도록 고안되었습니다. Gensim은 계층 적 Dirichlet 프로세스 (HDP), 잠재 의미론 분석 (LSA) 및 잠재 Dirichlet 할당 (LDA), tf-idf, 랜덤 프로젝션, word2vec 및 document2vec와 같은 알고리즘을 구현하여 단어의 반복 패턴에 대한 텍스트 검사를 용이하게합니다. 문서 집합 (종종 코퍼스라고 함) 모든 알고리즘은 감독되지 않습니다 – 어떤 인수도 필요하지 않습니다. 유일한 입력은 말뭉치입니다.

 

2015 년 1 월부터 자연 언어 처리 라이브러리 모두에 대한 Google 트래픽이 증가하고 있습니다.
 

트렌드 보고서에 따르면 NLTK에 대한 기여는 2016 년 9 월까지 꾸준히 감소하고 있습니다. 한편 Gensim에 대한 요청도 같은 달에 최고조에 달했습니다.

 



데이터 마이닝 및 통계

 

 

Scrap

Scrapy는 스파이더 봇이라고도하는 크롤링 프로그램을 작성하여 연락처 정보 또는 URL과 같이 웹에서 구조화 된 데이터를 검색하기위한 라이브러리입니다.

오픈 소스이며 Python으로 작성된 Scrapy는 원래 이름에서 알 수 있듯이 스크래핑을 위해 엄격하게 설계되었지만 API에서 데이터를 수집하고 범용 크롤러 역할을하는 본격적인 프레임 워크로 발전했습니다.

이 라이브러리는 인터페이스 디자인에서 “반복하지 말 것”을 따릅니다. 재사용 할 수있는 일반적인 범용 코드를 작성하라는 메시지가 표시됩니다. Scrapy의 아키텍처는 Spider 클래스를 기반으로 하며 크롤러가 뒤따르는 일련의 명령어를 캡슐화합니다.

 

 

Statsmodels

이름에서 알 수 있듯이 statsmodels는 사용자가 다양한 통계 모델 추정 방법을 사용하여 데이터 탐색을 수행하고 통계 주장 및 분석을 수행 할 수있는 Python 용 라이브러리입니다.

많은 유용한 기능 중에는 선형 회귀 모델, 일반화 된 선형 모델, 이산 선택 모델, 강력한 선형 모델, 시계열 분석 모델 및 다양한 추정기를 사용하여 설명 및 결과 통계가 있습니다.

또한 이 라이브러리는 통계 분석에 사용하기 위해 특별히 설계된 광범위한 플로팅 기능을 제공하며 빅데이터 통계 데이터 세트로 우수한 성능을 위해 조정되었습니다.

반응형