머신러닝은 confirmative한 분석을 하기 어려운 데이터를 분석할 수 있게 길을 열어준 선물이 아닐까 한다.
물론 그래도 제약이 있기 마련인데, 그걸 고려하지 않고 막 갖다 쓰는 모습은 곤란하지만 말이다.




2차대전 중 미 해군에서 항공기의 생존성을 높이기 위해 장갑을 추가할 부위를 정하려는 목적에서 작전 중 피격된 항공기의 피탄분포를 조사했었음

그런데 연구를 이끈 통계학자 아브라함 발드는 피탄이 집중된 부위가 아니라 피탄이 거의 없는 부위에 장갑을 추가해야 한다는 결론을 내림

그 이유는 근본적으로 피탄분포를 조사한 모집단이 피탄되고도 살아남아 귀환한 기체를 대상으로 했기 때문
다시 말해 피탄이 집중된 부위는 곧 그쪽은 피탄되어도 무사히 귀환할 수 있는 부위라는 의미

이 사례는 통계학에서 편향된 모집단을 토대로 확률을 계산하는 방법론을 제시한것으로 유명하다나 뭐라나

https://en.wikipedia.org/wiki/Survivorship_bias


평상시 내가 BN을 지적하고, 다른 분포가정을 한 딥뉴럴넷을 살펴보는 등의 과정은, 데이터에 대한 엄밀한 접근을 하고자 하는 액션 중 하나였다.
각종 선대 스킬이나, 근거 없는 이상한 필터 같은걸 갖다 붙이거나 하면서, 아무 데이터나 막 때려넣거나 하면서 accuracy나 끌어올리려는 모습이 얼마나 바보같은 일인지를, 아무리 어필해도 공돌이들 사이에서 공감을 얻어내기가 참 어려웠다. 내가 accuracy만 들이미는걸 안믿는다고 꾸준히 어필해도 결국은 도루묵이 되기도 했다.
.
그런데, 비록 너무 철학적이어서 못알아들은게 많긴 했지만, 어제 고등과학원 세미나를 통해 들었던 내용은, 나만 그런 생각을 하는게 아니라는걸 볼 수 있어서 반가웠다.
접근 방법은 나와 많이 다르고 해서, 말을 많이 했다가는 또 아규하게 될 것 같아서, 공부 얘기는 최소화하고 그냥 밥이나 맛있게 먹었지만
이런 분들이 많아져야, 앞으로 쓸데없는 아규가 줄어들지 않을까 싶다.
#근데당장프로젝트따기는어렵다더라ㅠ

+ Recent posts