머신러닝 모델
머신 러닝 모델은 평균회귀 모델과 다르게 데이터로부터 시작합니다.
머신러닝은 데이터를 통해 무엇인가를 찾아야 합니다. 어느 경우에는 목표가 무엇인지 모르는 상태에서 진행해야 합니다. 그렇다면 어떻게 시작해야 할지 모호한 경우도 많습니다.
머신 러닝에 대한 잘못된 이해는 데이터만 넣어주면 알아서 산출물을 만들어줄 것이라는 믿음입니다. 어떤 데이터를 머신러닝에 제공하느냐에 따라 머신러닝의 결과는 매우 달라집니다.
머신 러닝에 사용할 데이터를 준비하는 것은 사용자가 직접 개입하는 분야입니다. 입력변수를 선택하고 이상치를 배제하고 빠진 데이터를 채워넣고 가공할 수 있기 떄문입니다.
머신러닝 모델을 만들 때 원시 데이터를 수집 한 후, 입력 데이터들을 살펴보아야 합니다. 적절한 입력 변수를 선택하면 이후 데이터를 적절하게 가공할 수 있습니다. 그후, 머신러닝 알고리즘으로 학습한 후 결과의 성능을 파악합니다. 알고리즘 트레이딩에 사용할 머신러닝 모델을 개발하는 것도 크게 다르지 않습니다.
피쳐 선택
피쳐 선택은 머신러닝에 사용할 변수를 선택하는 것입니다. 보통은 변수 선택, 속성 선택이라고도 합니다.
아웃풋과 연광성이 높은 입력 변수를 선택합니다. 예측력을 높이려는 목적으로 선택하는 부분도 맞습니다. 추자적으로, 피쳐 선택을 위해 이해하기 쉬운 입력 변수를 선택하는 목적도 있습니다.
머신러닝을 이용하더라도 가장 중요한 데이터는 사람이 만들어야 합니다. 따라서 좋은 결과를 얻기 위해서, 아웃풋과 연관 있는 입력 변수를 선별합니다. 선별하는 과정은 사람의 주관적인 개입이 들어갈 수 밖에 없습니다.
이러한 개입은 사람이 판단하므로, 입력변수에 대한 이해도가 중요합니다. 학습에 사용할 데이터가 많다면, 좋은 결과를 얻을 수 있을까요? 하지만 생각과는 다르게 기대 이하의 결과를 보여주고는 합니다.
머신러닝 알고리즘은 데이터를 열심히 가공하여 모델을 완성합니다. 이러한 머신러닝의 과정은 오버피팅 문제를 일으키고는 합니다.
오버 피팅은 주어진 데이터에는 높은 예측력을 보여줍니다. 하지만, 학습에 사용되지 않은 데이터에는 좋은 예측력을 보여주지 못합니다. 따라서 적절한 아웃풋과 인풋을 선별하여 피쳐 선택을 하는 것이 중요한 것입니다.
그렇다면 알고리즘 트레이딩에 활용할 머신 러닝의 입력 변수들은 어떤 것이 있을까요?
주가 데이터, 거래량 데이터, 지수 데이터, 외부 데이터(환율, 금리, 뉴스), 기업 데이터(매출, PER, EPS, 영업이익률) 등이 있습니다.
가격과 방향
머신 러닝으로 해결할 수 있는 문제는 회귀, 분류, 군집화라고 할 수 있습니다. 따라서 알고리즘 트레이딩에 적용할 머신러닝 모델을 만들기 위해서는 원하는 결과가 무엇인지를 명확히 해야합니다. 그리고 결과에 맞는 문제로 정의해야 합니다.
과연 주가 자체를 예측할 것인지, 가격의 상승과 하락을 예측할 것인지에 대하여 회귀, 분류 문제가 나누어집니다.
정의한 문제의 성격에 따라 적용할 수 있는 머신러닝 알고리즘이 달라지며, 데이터를 만드는 것 역시 영향을 받습니다.
'SW > 주가 예측' 카테고리의 다른 글
주식, 비트코인 예측 : 시간 가치 감소 효과 : 개념, 원인, 이유, 상황 (0) | 2019.07.04 |
---|---|
주식, 비트코인 예측 : 머신러닝 분류 모델 : 개념, 종류, 특징 (0) | 2019.07.04 |
주식, 비트코인 예측 : 평균회귀 모델 : 구현 방법, 핵심 개념, 슈도코드 (0) | 2019.07.03 |
주식, 비트코인 예측 : 평균회귀 모델 : 개념, 종류, 예제 (2) | 2019.07.02 |
주식, 비트코인 예측 : 알고리즘 트레이딩 : 모델 : 개념, 종류, 방식 (0) | 2019.07.02 |