그냥 잡담입니다.

최근 missing 데이터를 imputation하는 과정에 대해서 정말 짧게 고민해본 적이 있었는데요.
감히, 솔직히 말씀드리면, 이게 왜 필요한걸까 하는 생각을 좀 했었습니다. 데이터는 완벽하게 수집된 것이 응당 좋으니 어떻게든 그렇게 수집하는게 좋은데 왜 이런 일을 하는 것일까?

그런데 오늘 대학원 학우에게 다른 이야기를 들었었는데요.
"데이터를 수집하는 데는 응당 비용이 들기 마련이고, 추가 수집이 어려운 상황이 있기 마련이다.
수리적으로 그 과정을 imputation한 것으로 분석하는 것이, 완벽한 데이터로 분석하는 것에 미치지 못할 수는 있어도,
어쨌든, missing이 있을 지언즉, 지금 그 데이터셋은 수집한 사람으로서는 원하는 정보를 얻기 위한 소중한 자료일 수 있다.
그 소중한 자료에게 생명을 주는 것이 imputation하는 과정일 것이다."

그 이야기를 들으니 그 분야가 달리 보이는 것 같습니다.


+ Recent posts