참값을 알아내기 위하여 많은 실험과 조사 등이 이루어져 자료가 만들어지고, 이런 자료들을 통하여 참값을 추정하거나 검정을 하게 되는데, 이 과정에서 다음과 같은 문제가 제기된다.
- 과연 참값이 존재하는가?
- 존재한다면 사례가 있는가?
.
참값이 존재하는데 정확히 알 수 없는 수들이 있다. 가령 sqrt(2)는 무리수로 분명히 값은 존재한다. 하지만 그 값은 순환하지 않는 무한소수이다. 그러므로 정확한 값은 알 수 없다
다르게 표현하면 한 변의 길이가 1인 정사각형의 대각선은 분명히 존재한다. 즉, 대각선의 길이가 존재하지만, 어떤 도구를 사용해도 참값을 잴 수는 없다.
또 하나의 예로, 원의 길이를 표현할 때 사용하는 pi는 초월수라 하는데, 이것도 참값은 분명 존재하지만 정확한 값은 알 수 없다. (그리고 이것도 무한소수이다.)
단지 비슷한 값을 사용할 뿐이다. 즉, 오차와 함께 사용하는 것이다.
.
측정에서 얻어지는 결과를 숫자료 표현한 것을 measured value(측정값)이라 하는데, 모든 측정값은 근사값이다. 즉,
오차를 포함하고 있다. (물론 sqrt(2)나 pi는 측정하여 얻은 값은 아니지만, 무한소수이기 때문에 사용할 떄 일반적으로
소수점 몇 째 자리까지만 사용한다. 그런 의미에서 근사값이라 할 수 있다.)
그런데 그 오차의 크기가 다른 것들에 비해 유난히 큰 경우에는 문제가 생긴다. 전체 자료가 가지고 있는 특성이나 경향 등이 나머지 자료들과 동떨어진 자료가 종종 나타나게 되는데, 이런 자료를 outlier라고 부른다.
outlier가 다른 자료들과 다른 특성을 가지고 있다는 것을 계량적인 방법에 의하여 나타내는 방법은 오차와 결부시키는 방법이 있을 것이다.
.
[1] 오차(error) = 측정값 - 참값
오차는 참값을 알고 있는 경우에만 알아낼 수 있다. 그러나 현실에서 참값을 아는 경우는 거의 없다. (사실 참값을 아는 경우에는
다른 작업이 거의 필요가 없다.) 따라서 오차를 추정값으로 대치할 수 밖에 없는데, 이 오차를 추정할 수 있는 것에는
잔차(residual)와 편차(deviation)이 있다.
[2] 잔차(residual) = 측정값 - 참값의 추정값
특히 regression에서 많이 사용한다.
[3] 편차(deviation) = 측정값 - 측정값의 평균
참값 mu의 추정치에는 여러 종류가 있을 수 있는데, 그 중에 추정치를 표본평균(sample mean)으로 택하면, 잔차는 편차가 된다.
.
오차, 잔차, 편차는 일반적으로 작은 것이 좋다. 하지만 실제로 그런 경우는 거의 없다.
더불어 이 오차는 사람의 실수에 의해서도, 자료의 오염에 의해서도, 자료의 고유 변동성(inherent variability)에 의해서도 발생한다.
.
만일 고유 변동성에 의해 outlier가 발생했다면, 이 outlier를 제거해서 accuracy와 precision을 높일 수 있다.
하지만 이 outlier를 반드시 나쁘다고 단정지어서는 안된다. outlier는 대부분 중요한 정보를 내포하고 있다. 그것이
좋은 특성일 수도 있고 나쁜 특성일 수도 있다. 이 outlier를 무턱대고 제거하기 보다는, 잘, 유용하게 활용해야 할 것
이다.
'다이어리 > 다이어리' 카테고리의 다른 글
Overfitting 덩어리라는 것을 부정하면 곤란하다. 어디까지나 분석가는 사실 그대로를 전달해주어야 한다. (0) | 2016.10.26 |
---|---|
실험설계의 원리 중에는 "블록화의 원리"라는 것이 있다. (0) | 2016.10.26 |
오늘 생전 처음으로 서울안전통합상황실이라는 곳에 다녀왔다. (0) | 2016.10.26 |
진작부터 쫄지 않았다면 삶이 더 편했을텐데. (0) | 2016.10.26 |
오로지 많은 데이터를 수집하는 것이 능사는 아니라는 것이다. (0) | 2016.10.26 |
사실 나는 고등학교부터 문과 출신이고, 경제학과와 통계학과에서도 수학실력보다는 컴퓨터실력으로 살아남은 케이스로, 원래는 수학과 굉장히 인연이 멀었다. (0) | 2016.10.26 |
우리가 "강아지"는 "고양이"보다 크다, "강아지"는 "고양이"보다 앞선 순위이다. 라고 이야기할 수 없다. (0) | 2016.10.26 |
근데 예전에 미리 이해했더라면 시험 성적이 더 좋았겠지. (0) | 2016.10.26 |
X^-1 (보렐집합) (0) | 2016.10.26 |
"전문가란 오류를 범하지 않는 사람이 아니라 오류를 범했을 때 그것을 바로잡을 수 있는 사람이라고 생각합니다." (0) | 2016.10.26 |