데이터를 왕창 긁어모아서 분석을 하겠다는 모습도 많고 한데, 그 와중에 데이터만 충분히 많이 모을 수 있다면, 실험설계나 모델링 과정이 필요없다는 이야기가 종종 나오고 있다. 그 제대로 이해하지도 못하는 대수의 법칙도 들먹이면서 말이다.
그런데 나는 그게 정말 위험한 견해라고 생각한다.
.
그냥 간단하게, 주사위 던지기 게임에 당신의 직장 상사가 참여하는 상황이라고 해보자.
직장 상사가, "어떤 눈이 나올 확률이 가장 높은가?" 라고 묻는다면, 모델링이 필요없다는 의견인 당신은 "함 여러번 던져보시죠" 라고 할 것이다.
그렇게 여러 번 던져보니 {1, ... 6}이 각각 {1/6, 1/6, 1/6, 1/6, 1/12, 3/12}의 확률로 나타난다는걸 경험적으로 얻었다고 치자. 그럼 당신은 직장 상사에게 "6이 제일 높군요" 라고 할거다.
당신은 진짜 그렇게 할 수 있나?
.
너무 생각해야할 변수가 많다던지, 정확히 현상을 이해하지 못하는 상황이라던지 할 때에 한해서는 이해가 되지만, 사람이 이해할 수 있는 범주 안에 없다는 그 상황 자체가 이해가 된다는거지, 데이터를 대책없이 때려넣는게 마냥 좋은 방법일 수만은 없을 뿐더러, 실험설계 과정 자체가 필요없다는건 더욱 말도 안된다. 오히려 현상에 대한 이해를 할 수 있다면, 최대한 그렇게 하는게 더 좋은 방법일 것이다.

+ Recent posts