SW/R

R : 기초 통계 개념

얇은생각 2019. 2. 8. 12:30
반응형

기초통계 개념

통계 기법은 무엇일까요? 자료를 정리하는 수단입니다. 또 분석할 수 있는 강력한 수단입니다. 데이터 분석에서 많은 부분이 통계적 기법을 필요로 합니다. 다음의 예를 참고하세요.


- 여론조사 결과 분석입

- 제조업 불량율 분석

- 학습 효과 분석


위 예시 말고도 많은 예가 있겠죠? 따라서 데이터 분석가 되기 위해서 통계학을 이해해야 합니다.



질적 자료(qualitative data) 또는 범주형 자료(categorical data)

질적 자료는 무엇일까요? 숫자로 표현할 수 없는 자료를 의미합니다. 원칙적으로 말이죠. 예를 들면 학력 수준, 성별이 있습니다.

질적자료



양적 자료(quantitative data)

양적 자료는 자료 자체가 숫자로 표현된 것을 의미합니다. 크게 두가지로, 이산자료, 연속자료로 나누어 집니다.


이산자료(discrete data)는 무엇일까요? 정수값을 취할 수 있는 자료를 뜻합니다. "각 세대의 자녀 수"가 예시 중 하나입니다.


연속자료(continuous data)는 무엇일까요? 실수 값을 취할 수 있는 자료를 뜻합니다. 예를 들어, 키, 몸무게, 온도 등이 있습니다.

양적자료



일변량 자료(univariate data)

일변량 자료는 분석대상이 되는 변수의 개수가 1개인 자료를 뜻합니다. 예를 들면 "학생들의 몸무게 분포를 분석"하는 것입니다. 단순하게 몸무게만을 분석하는 것입니다. vector에 자료들을 저장하여 분석하면 됩니다.



다변량 자료(multivariate data)

다변량 자료는 분석대상이 되는 변수의 개수가 2개 이상인 경우를 뜻합니다. 변수가 딱 2개인 경우에는 이변량 자료(bivariate data)라고도 합니다. 예를 들면, 출생 지역과 몸무게의 상관 관계 분석이 있습니다. 다차원이므로 matrix 또는 data frame에 저장하여 분석하면 됩니다.



모집단 (population)

모집단은 관심을 가지는 조사 대상 전체를 의미합니다. 



표본(sample)

표본은 모집단에서 실제 조사가 이루어지는 집단을 의미합니다. 표본은 모집단의 부분집합입니다. 


위 개념을 예를 들면 다음과 같습니다.

학생 중 100명을 선별하여 외국어 실력 조사

- 모집단 : 학생 전체

- 표본 : 선발된 100명



모수(parameter)

모수는 모집단의 특성을 나타내는 척도입니다. 평균과 표준편차 등을 주로 사용합니다. 통계분석은 표본을 이용하여 모집단을 추정할때 활용됩니다.



변수의 개수와 형태에 따른 그래프의 종류

그래프

통계 형태에 따라서 활용되는 그래프 역시 달라집니다. 범주에 따라 활용되는 그래프는 위 그림과 같습니다.

반응형