1.
예전에 계량적인 접근을 많이 한다고 알려진 사회과학 전공 연구실에서 나온 논문들을 한 번 주욱 훑어본 일이 있었는데,
놀랍게도 데이터가 명목변수인지 뭔지를 전혀 고려하지 않고 전부 회귀분석 내지는 로지스틱 분석을 해놓아서,
당시의 지도교수님과 열심히 뒷담화를 한 적이 있었다.
그것도 그럴 것이, 어느 박사 논문 하나가 계기가 되어, 후배들이 계속 그 방법론을 그대로 따라가는 모습이었고, 그렇게 그 연구실에서 나온 후속 논문들이 죄다 엉터리가 되어버린 것이다.

2.
사실 지금 내 주변 컴퓨터학과는 "이공계열"인 만큼, 뭔가 수리적인 방법론에 있어서 철저하리라고 생각하기 쉽지만
사실 들여다보면 꼭 그렇지만도 않다.
데이터에 있는 공백이 missing인지 censored인지 구분을 잘 못하는 경우는 비일비재하고, 심지어 고려를 안하는 경우도 많으며
t-SNE를 쓸 때도 equivalence constraints를 고려하지 않고, 그냥 마냥 좋은 방법인줄 알고 갖다 쓰는 경우가 많다. (Hinton과 같은 스타들을 맹목적으로 찬양하고 추종하는 경우가 있는데, 이런 분위기가 한 몫 하는 것 같기도 하고... 물론 그분들이 대단하지 않다는게 아니라, "그분들이 만든거니까, 요즘 이게 유행이구나, 이걸 쓰는게 대세야~" 하고, 그냥 아무때나 막 갖다쓰는 느낌이랄까?)

3.
나는 그런 연구를 해서는 안될텐데 (특히 나는 1.과 같은 일을 저질러놓고 나갈 수 있는 상황에 놓여져있으니 더더욱) 하고 노파심이 든다.

+ Recent posts