2010/03/05

표준오차, 표준편차


통계 비전공자는 말할 것도 없고, 심지어 통계학과 학생들조차도 표준편차와 표준오차의 차이를 명확하게 구별하지 못하는 사례를 종종 보곤 한다. 오늘은 이 둘의 차이를 설명해보겠다. 설명의 편의상 우리나라 성인 남성의 평균 혈압을 조사하기 위하여, 500명을 랜덤하게 뽑아서 500개의 혈압 측정치를 얻었다고 가정하자.

본격적인 설명에 앞서, 우선 통계학이란 무엇인지를 간단히 살펴보도록 하자. 통계학이 무엇을 하는 학문인지를 명확하게 이해하고 나면, 표준편차와 표준오차의 차이를 명확하게 이해하는데 크게 도움이 된다.

우리는 모집단의 특성을 설명하는 어떤 값을 알고 싶어 한다. 예를 들어, 위의 예에서는 우리나라 성인 남성 (모집단)의 평균 혈압을 알고 싶은 것이다. 그 외에도 예는 수 없이 많다. 기업의 마케팅 담당자는 소비자들의 선호도를 알고 싶어 하고, 여론조사 회사는 선거에서 승리할 후보자를 알고 싶어 한다. 모집단의 특성을 설명하는 값으로는, 모평균, 모비율, 모분산, 모집단에서 성립하는 어떤 모형에 들어 있는 모수 (예를 들면, 회귀분석에서 기울기와 y절편) 등 매우 다양하다. 이처럼 우리는 모집단의 특성을 설명하는 어떤 값을 알고 싶어 하는데, 모집단에 속하는 모든 개체들을 다 조사하는 전수조사를 한다면, 우리는 그 값을 알 수 있을 것이다. 하지만 대부분의 경우, 전수조사는 시간과 비용이 너무 많이 든다. 그래서 전수조사 대신, 모집단을 잘 대표하는 표본을 뽑아서 그 표본만을 조사하게 된다. 만일 전수조사가 항상 정확하게 수행이 가능하고 시간과 비용이 그리 부담스럽지 않다면, 통계학이라는 학문은 이 세상에서 사라지게 될 것이다. (하지만 그런 일은 실제 없을 것이다. 자본주의가 고도로 발달할수록 통계학은 더욱 더 필요할 수밖에 되어 있다.)

어쨌든 전수조사 대신 표본조사를 하는 순간, 통계학이 필요하게 된다. 어느 통계학 책을 보아도 맨 앞부분에는 <기술통계량>이라는 부분이 나오는데, 이는 단지 표본에 있는 자료를 요약하는 일이다. 표본평균을 구하거나, 히스토그램을 그리거나 하는 행위이다. 자료를 간단하게 요약하고자 하는 것은 거의 인간의 기본 욕망에 가까운 일이다. 중간고사를 보고나면 항상 학생들은 평균값이 얼마인지를 너무나 궁금해 하는 것과 같은 이치이다. 하지만 이러한 자료를 요약하는 행위는 현대통계학의 핵심에 들지 못하는 아주 기초적인 일일 뿐이다.

표준편차는 바로 자료를 요약하는 행위에 속하는 것이다. 위의 혈압 예에서 표준편차는 500개 혈압 측정치가 표본평균로부터 얼마나 떨어져 있는지를 측정하는 측도이다. 정확한 식은 대부분의 통계학 교재에 있으므로, 이곳에 소개하지는 않겠다. 표준편차가 클수록, 자료는 표본평균으로부터 멀리 산포되어 있는 것이고, 표준편차가 작을수록 자료는 표본평균 근처에 밀집되어 있게 된다. 다시 한 번 강조하지만, 여기서는 자료를 단지 요약할 뿐 그 이상의 것은 없다.

달리 표현하면, 표준편차란 자료에 해당하는 개념인 것이다. 우리가 어떤 자료를 손에 들고 있으면 항상 표준편차를 계산 할 수 있는 것이다.

반면에 표준오차를 이해하기 위해서는, 현대통계학이 무엇을 하는 학문인지를 알아야 한다.

현대통계학이란 한 마디로 표현하면, 표본에 속한 제한된 정보를 사용하여, 미지의 값인 모집단의 모수를 추정 및 검정하고자 하는 학문이다. 추정이란 한 마디로 모르는 값을 미루어 짐작하는 행위이다. 추정에는 필연적으로 오차가 수반될 수밖에 없다. 전수조사가 아니라 표본조사이기 때문이다. 그러므로 그 오차가 얼마나 될지를 나타내줄 개념이 필요하게 된다. 표준오차는 바로 이 오차를 나타내는데 사용되는 개념이다.

표준편차에는 단 한가지의 공식이 존재하지만, 표준오차에는 수 없이 많은 공식이 존재한다. 왜 그럴까?
그 이유는 우선, 추정하고 싶은 미지의 모수가 여러 가지이다. 모평균일 수도 있고, 모비율일 수도 있고, 회귀분석 식의 기울기일 수도 있다. 한 미지의 모수에도 여러 가지의 추정량이 존재한다. 추정량이란 추정을 하는데 사용되는 자료의 함수로서, 모평균을 추정하는 것이 목표라면, 표본평균, 표본중앙값, 표본절삭평균 등 다양한 추정량이 존재한다. 이러한 추정량의 분산을 구하고, 그 분산에 루트를 씌운 것이 바로, 표준오차의 정의이다.

그러므로 표준오차가 무어냐고 물으면, 반드시 어느 추정량의 표준오차냐고 되물어야 한다. 모든 추정량은 자신만의 표준오차 공식을 갖고 있는 것이다. 예를 들어, 통계 프로그램을 사용하여, 회귀분석을 해 본 경험이 있는 사람이라면, 각각의 회귀계수 옆에 표준오차가 계산되어 나오는 것을 보았을 것이다. 즉 각각의 회귀계수 (즉 추정량)마다, 자신의 표준오차가 존재하는 것이다. 통계학 책을 보면, 가장 흔히 소개되어 있는 표준오차 공식이, 표본평균의 표준오차 공식이다. 즉, 표본평균의 표준오차는, 표본평균을 사용하여 미지인 모평균을 추정할 때, 표본평균이 얼마나 넓게 모평균 주위에 산포되어지는 나타내주는 개념인 것이다.

다시 말하면, 표준오차는 추정량의 추정의 정확성을 나타내 주는 측도이다. 표준오차가 적을수록, 그 추정값은 미지의 모수를 매우 정확하게 추정할 것이고, 표준오차가 크다면 그 추정값은 미지의 모수값과 상당한 차이를 가질 것이다.

댓글 없음:

댓글 쓰기