다이어리/다이어리

왜 제곱을 쓸까? 절대값을 쓰면 어떨까?

Jae-seong Yoo 2016. 9. 18. 16:34

왜 제곱을 쓸까? 절대값을 쓰면 어떨까? 하는 의문을 가질 때가 자주 생길 것이다. 이와 관련하여 풀 수 있는 썰이 많은데, 내가 대충 알고 있는건 두 가지라서, 두 가지 똥글을 써보려 한다. 사실 이 똥글은, 내가 완벽하게 모르는 것도 있기 때문에 조금 공부를 하기도 했고, 약간은 구글링의 힘을 빌릴 것이기도 하다.
.
.
1.
주어진 값들이 얼마나 퍼져있는지 정도를 나타내는 지표 중 하나인 분산은 평균과 각 값의 차이를 "제곱"한 평균으로 구한다.
이 식을 볼 때마다, "제곱"을 하지 말고 그냥 "절대값"을 쓰면 되지 않을까? (분산의 제곱 대신, 절대값을 쓴 것을 평균제곱오차라고 부른다)
.
사실 결론부터 얘기하자면, 현재의 분산을 많이 쓰는 이유는 분산이 unbiased estimator를 구하기 쉽기 때문이다. 실제로 표본분산의 경우는 모분포가 어떤 모양이든지 상관없이 모분산의 unbiased estimator가 되지만, 표본표준편차나 표본절대편차는 그렇지 않다. 어떻게 자세히 풀어써야하나 고민했는데, 찾아보니 이미 위키피디아에 이와 관련된 내용이 있었다. 이걸 보도록 하자.https://en.wikipedia.org/…/Unbiased_estimation_of_standard_…
.
절대값에 대한 이슈의 시작은 찰스 다윈(진화론의 그 찰스 다윈 맞다.)과 사촌지간이었던 골턴에게로 거슬러 올라가야한다. 골턴은 가족 안에서 형제들 키의 변화를 알아보고자 하는 시도를 했었는데, 그의 연구가 정식으로 틀을 갖추어 유도하지 않은 추정 결과가 꽤 있었고, 특히 제곱 편차에 바탕을 둔 전통적인 추정 방법 보다는, 중위수에서 계산한 "편차의 중위수"를 썼으며, 여기에서 절대값을 활용하는 부분이 있다. 절대값이냐 제곱이냐 하는 이슈가 여기에서부터 시작되었다. (그러니까 이게 다 골턴 때문이다...라는 말을 하려는건 아니고, 사실 당시 문제에 대한 골턴의 직관적인 이해 방식이 중위수가 들어맞아서 그랬다는 것 같다.) 그리고 에지워스라는 사람은 이 연구에 대해 "이론적으로 가능한 최적의 방법이 아니다"라는 지적질을 했다.
그 이후에도 여러 학자들끼리 (위 연구를 포함,) 골턴의 완전치 못한 여러 연구들에 대해 맞네 틀리네 하며 피튀기는 배틀을 벌였지만, 정작 골턴은 너무 바쁜 나머지, "내가 했던 주제들에 대해 연구할 생각이 있는 능력 있는 자들에게는, 누구에게나 활짝 열려 있다."며 손을 떼버리고 말았다. (...)
.
.
2.
얼마전에 최소제곱법에 관한 똥글을 쓰면서, 예측오차에도 제곱을 해야한다고 하는 파와, 절대값을 씌워야한다고 하는 파가 나뉘어져있다며, 전자는 가우스와 르장드르, 후자는 보스코비치, 라플라스로 위시할 수 있다는 글을 쓴 적이 있다. 그리고 제곱을 한 것을 최소제곱법(method of least squares) 혹은 평균제곱편차(MSE; Mean Square Error), 절대값을 취한 것을 평균절대편차(MAD; Mean Absolute Deviation)이라고 부른다. 최소제곱법과 평균제곱편차가 같은 말인지는 솔직히 잘 모르겠어서 다음 링크를 참고하라고 냅두기로 하고 그냥 써놨다. 누군가가 확인해준다면 감사할 것 같다.http://terms.naver.com/entry.nhn… 나도 나중에 확인해볼 것이지만, 지금은 너무 새벽이라 눈에 안들어온다. (...)
.
하여튼 사실 이에 대한 논쟁이 오늘날 예측오차를 설명하는 지표가 다양해진 상황에서는 크게 의미가 없을 수 있다. (이는 역으로, 확실한 근거 없이 한두가지 지표를 내세우면서 "내 모형이 최고임. 깝 ㄴㄴ" 하는 모형이 있다면, 의심을 해봐야한다는 의미가 되기도 한다.)
.
다음 예를 살펴보자.
1)
True: 60, 64, 67
Predicted: 57, 61, 70
Error = +3, +3, -3
2)
True: 60, 64, 67
Predicted: 59, 65, 73
Error: +1, -1, -6
1)의 경우 MAD= 3, MSE=9로 계산되고,
2)의 경우 MAD=2.67, MSE=12.67로 계산된다.
True가 똑같지만, 아마 추정할 때 쓴 모형이 달랐을 것인데, 1)의 경우에 비해 2)의 경우 MAD가 더 좋게 나타났다.
자세히 살펴보면, Predicted가 True와 차이가 큰 경우가 하나라도 있을 경우 MSE는 큰 패널티를 주는 반면, MAD는 조금은 관대한 결과를 낸다고 볼 수 있다.
상황에 따라 큰 패널티를 주는 것이 맞을 수도, 아닐 수도 있기 때문에, MAD나 MSE 둘 중 무엇이 더 좋은 방법이라고 이야기하기는 어렵다. 이에 대한 충분한 상황 설명이 있어야 하거나, 다양한 지표를 두고 함께 비교해야하는 이유가 여기에 있는 것이다.