왜 제곱을 쓸까? 절대값을 쓰면 어떨까?

Jae-seong Yoo 2016. 9. 18. 16:34

2016. 9. 18. 16:34

왜 제곱을 쓸까? 절대값을 쓰면 어떨까? 하는 의문을 가질 때가 자주 생길 것이다. 이와 관련하여 풀 수 있는 썰이 많은데, 내가 대충 알고 있는건 두 가지라서, 두 가지 똥글을 써보려 한다. 사실 이 똥글은, 내가 완벽하게 모르는 것도 있기 때문에 조금 공부를 하기도 했고, 약간은 구글링의 힘을 빌릴 것이기도 하다.
.
.
1.
주어진 값들이 얼마나 퍼져있는지 정도를 나타내는 지표 중 하나인 분산은 평균과 각 값의 차이를 "제곱"한 평균으로 구한다.
이 식을 볼 때마다, "제곱"을 하지 말고 그냥 "절대값"을 쓰면 되지 않을까? (분산의 제곱 대신, 절대값을 쓴 것을 평균제곱오차라고 부른다)
.
사실 결론부터 얘기하자면, 현재의 분산을 많이 쓰는 이유는 분산이 unbiased estimator를 구하기 쉽기 때문이다. 실제로 표본분산의 경우는 모분포가 어떤 모양이든지 상관없이 모분산의 unbiased estimator가 되지만, 표본표준편차나 표본절대편차는 그렇지 않다. 어떻게 자세히 풀어써야하나 고민했는데, 찾아보니 이미 위키피디아에 이와 관련된 내용이 있었다. 이걸 보도록 하자.https://en.wikipedia.org/…/Unbiased_estimation_of_standard_…
.
절대값에 대한 이슈의 시작은 찰스 다윈(진화론의 그 찰스 다윈 맞다.)과 사촌지간이었던 골턴에게로 거슬러 올라가야한다. 골턴은 가족 안에서 형제들 키의 변화를 알아보고자 하는 시도를 했었는데, 그의 연구가 정식으로 틀을 갖추어 유도하지 않은 추정 결과가 꽤 있었고, 특히 제곱 편차에 바탕을 둔 전통적인 추정 방법 보다는, 중위수에서 계산한 "편차의 중위수"를 썼으며, 여기에서 절대값을 활용하는 부분이 있다. 절대값이냐 제곱이냐 하는 이슈가 여기에서부터 시작되었다. (그러니까 이게 다 골턴 때문이다...라는 말을 하려는건 아니고, 사실 당시 문제에 대한 골턴의 직관적인 이해 방식이 중위수가 들어맞아서 그랬다는 것 같다.) 그리고 에지워스라는 사람은 이 연구에 대해 "이론적으로 가능한 최적의 방법이 아니다"라는 지적질을 했다.
그 이후에도 여러 학자들끼리 (위 연구를 포함,) 골턴의 완전치 못한 여러 연구들에 대해 맞네 틀리네 하며 피튀기는 배틀을 벌였지만, 정작 골턴은 너무 바쁜 나머지, "내가 했던 주제들에 대해 연구할 생각이 있는 능력 있는 자들에게는, 누구에게나 활짝 열려 있다."며 손을 떼버리고 말았다. (...)
.
.
2.
얼마전에 최소제곱법에 관한 똥글을 쓰면서, 예측오차에도 제곱을 해야한다고 하는 파와, 절대값을 씌워야한다고 하는 파가 나뉘어져있다며, 전자는 가우스와 르장드르, 후자는 보스코비치, 라플라스로 위시할 수 있다는 글을 쓴 적이 있다. 그리고 제곱을 한 것을 최소제곱법(method of least squares) 혹은 평균제곱편차(MSE; Mean Square Error), 절대값을 취한 것을 평균절대편차(MAD; Mean Absolute Deviation)이라고 부른다. 최소제곱법과 평균제곱편차가 같은 말인지는 솔직히 잘 모르겠어서 다음 링크를 참고하라고 냅두기로 하고 그냥 써놨다. 누군가가 확인해준다면 감사할 것 같다.http://terms.naver.com/entry.nhn… 나도 나중에 확인해볼 것이지만, 지금은 너무 새벽이라 눈에 안들어온다. (...)
.
하여튼 사실 이에 대한 논쟁이 오늘날 예측오차를 설명하는 지표가 다양해진 상황에서는 크게 의미가 없을 수 있다. (이는 역으로, 확실한 근거 없이 한두가지 지표를 내세우면서 "내 모형이 최고임. 깝 ㄴㄴ" 하는 모형이 있다면, 의심을 해봐야한다는 의미가 되기도 한다.)
.
다음 예를 살펴보자.
1)
True: 60, 64, 67
Predicted: 57, 61, 70
Error = +3, +3, -3
2)
True: 60, 64, 67
Predicted: 59, 65, 73
Error: +1, -1, -6
1)의 경우 MAD= 3, MSE=9로 계산되고,
2)의 경우 MAD=2.67, MSE=12.67로 계산된다.
True가 똑같지만, 아마 추정할 때 쓴 모형이 달랐을 것인데, 1)의 경우에 비해 2)의 경우 MAD가 더 좋게 나타났다.
자세히 살펴보면, Predicted가 True와 차이가 큰 경우가 하나라도 있을 경우 MSE는 큰 패널티를 주는 반면, MAD는 조금은 관대한 결과를 낸다고 볼 수 있다.
상황에 따라 큰 패널티를 주는 것이 맞을 수도, 아닐 수도 있기 때문에, MAD나 MSE 둘 중 무엇이 더 좋은 방법이라고 이야기하기는 어렵다. 이에 대한 충분한 상황 설명이 있어야 하거나, 다양한 지표를 두고 함께 비교해야하는 이유가 여기에 있는 것이다.

'다이어리 > 다이어리' 카테고리의 다른 글

수업시간에 배운 것 중에, 잘못된 내용임에도 교수님이 너무 당당하게 가르쳐주셔서 얼떨결에 웃었는데 (0)	2016.10.26
모수학자의 3살짜리 아들 이야기. (0)	2016.10.26
그림책을 내자는 연락이 왔다. (0)	2016.10.26
그래도, 그 과정이 사기를 치는 과정이어선 안된다. (0)	2016.10.26
그래도 공부가 되었으니 되었다. (0)	2016.10.26
어렸을 때는 어린 사촌동생들과 놀아주는게 내 몫이곤 했는데 (0)	2016.09.18
잠깐 꿈을 꿨는데, 꿈 속에서 베른슈테인 할아버지가 나왔다. (요즘 역사적인 학자들에 대한 똥글을 많이 썼더니 이젠 꿈도 이런걸 꾼다...) (0)	2016.09.14
위키피디아에 나오는 르장드르의 초상화가 꽤 강렬하다. 꿈속에서 나올 것 같다. (0)	2016.09.14
드무아브르에 대한 내가 알고 있는 썰을 풀고 싶은데 (0)	2016.09.14
MNIST나 ImageNet 데이터를 적합한 결과는 객관적이라고 말하는 사람들은, 자기가 한 말이 얼마나 엉터리인지 한 번이라도 생각해보긴 한걸까? (0)	2016.09.14

Jaeseong's private post

왜 제곱을 쓸까? 절대값을 쓰면 어떨까?

'다이어리 > 다이어리' 카테고리의 다른 글

+ Recent posts

티스토리툴바