로봇이 쓴 기사가 사람이 쓴 기사와 구분이 되지 않는다는 기사를 예전에 보고 놀란 적이 있었다.
마침 그 때 사람들은, 이제 기자를 로봇이 대체할 때가 오지 않겠느냐며 감탄했었고, 사실 나도 당시에는 비슷한 생각을 했었던 것 같다.
지금에 와서 생각해보면, 사실 로봇이 쓴 기사는 방대한 양의 데이터를 바탕으로 했는데, 그 데이터는 사람이 만들었다는 것을 잊고 있었지 않나 싶다.
.
1.
사람이 만든 데이터와, 자연적으로 얻는 데이터는 사실 좀 접근을 달리해서 봐야 하는데, 사람이 만든 데이터가 parametric하지 않을 여지가 많기 때문에, 처음에 디자인 할 때부터 크게 신경써야하고, 관련 배경지식을 철저하게 탐구해야하기도 하며, 탐색적 분석도 막 해봐야하곤 하다. 그렇게 무언가 결론에 도달해도, 무언가 비판의 여지가 남아있게 되기도 하는게 사람의 데이터이다.
.
2.
반응구간 예측과 예측구간 예측은 엄연히 다르게 처리되곤 한다. 데이터를 분석할 때, t시점까지의 데이터가 사용되었다면, t+a 시점의 추정값을 알아보고자 하는 것을 "예측구간에 대한 예측"이라고 하는데, 반응구간 안에서의 예측과는 달리 추정값에 불확실성이 포함되기 때문에, 항상 대응하는 신뢰구간의 범위가 반응구간에 비해 넓어지게 된다.
.
.
반응구간에 대한 예측과, 예측구간에 대한 예측을 딱히 구분하지 않는 사람들에게 있어, "예측"이라는 단어는 후자의 의미로 생각하기 마련인데, 이들이 생각하는 예측의 의미를 따랐을 때, 그 예측이 얼마나 힘든 일인지를 위 2.를 미루어 생각해볼 수 있다. 그리고 애석하게도 컴퓨터 분야에서는, 이 "반응구간 예측"과 "예측구간 예측"을 엄밀히 구분해서 사용하지는 않는 것 같다.
.
이세돌로부터 5전 4승의 쾌거를 이룩해냈던 알파고의 전공도, 경우의 수가 많아서 그동안 어려웠다 뿐이지, 결국은 한정된 parametric한 공간 안에서의 게임이었기 때문에 우승에 가까운 다음 수를 예측할 수 있었을텐데
사람의 행위를 결국 뉴스로 만들어야 하는 로봇에게 있어서는, 진짜 기자로부터 독립되기 위해서, "사람들이 '그 다음에' 중요하게 생각하는 뉴스가 무엇인지를 생각해볼 수 있는 무언가"가 주어져야하는데, 그게 무엇일지 생각해보면 답이 잘 나오지 않는다. 모든 사람들을 쫒아다니는 드론을 온 세상에 뿌려버려서 "반응구간 예측 문제"로 바꾸기라도 해야하나? (아, 검색엔진을 운영하는 회사나, 모바일 통신사라면, 사람들이 검색창에 뭘 입력했나, 모바일을 어떻게 사용했나 정도를 활용할 수는 있겠지만...)
그리고 그 다음에 그 뉴스가 가져올 영향을 로봇이 어떻게 예측할 것인가?
아마 이들이 해결되기 전 까지는, 로봇도 사람들이 쓴 글에, 사람들이 올린 이미지와 영상에 의존할 수 밖에 없지 않을까 싶다.
그 때까지는, 기자가 직업을 바꿔야할 날이 사실 그리 빨리 오지는 않을 것 같다.
.
그리고 이들을 단지 블랙박스에 넣어서 결과를 보여주며, "내가 해냈다"고 주장하는 연구들.
그들의 연구가 "결과적으로" 무엇을 보여주었을 수는 있지만, 사실 데이터 분석 결과를 활용해야할 이들에게로 입장을 바꿔서 생각해본다면, "그래서 뭐?" "그 결과의 원인이 뭔데?" 라는 질문이 분명히 나올 거라는 것을, 그 연구의 연구자들도 사실 알고 있을 것이다. 그리고 그에 대한 설명을 말로 떼우기 마련이지만...
그 블랙박스 안에는, 사실 정말 어려운, 위 1.과 2.의 과정들이 감춰져 있다. 그것이 맞았는지 틀렸는지 설명해달라고 하면, 결과를 가지고 바라볼 수 밖에 없다. 그래서 그 결과를 마냥 받아들이기 어렵다. 사고가 나면, 애석하게도 정확한 원인을 분석할 수 없고, 단지 "사고가 났다"는 결과 하나만 가지고 온갖 추측을 할 수밖에 없는 것이다.
그럼에도 단지 블랙박스에 맡기려는 것은, 그리고 그 블랙박스가 더이상 "블랙박스가 아니게 하려는 시도"를 애써 무시하는 것은, 어쩌면 그들의 타겟이, 데이터 분석 결과를 바탕으로 의사결정을 하려는 자들 보다는, 단순히 "전문가들이 어련히 잘 분석해 주었을라고" 하며 결과물을 소비하려는 일반 소비자들이었기 때문인지도 모르겠다.
라식, 라섹을 하라는 광고가 판을 치고 있지만, 정작 안과 의사들이나, 정말 돈이 많은 사람들(삼성전자 이재용 부회장이라던지...)이 라식, 라섹을 안하는 것 처럼,
블랙박스 모형 연구들이 단지 소비자들을 설득하려는 데 집중하고 있는 것은 아닌가 하는 걱정이 든다.
그래서 이 분야의 논문에서도, 결과만 보여준 다음에 그 원인은 엄밀하게 해석해주기보다는, 대충 말빨로 때우는 것 같다.
.
그들이 말하는 "내가 무엇을 해냈다. 왜냐하면 결과가 이렇게 말해주기 때문이다."가 실제로는 과정이 블랙박스에 가려져있고, 그 결과가 우연히 나온걸지도 모른다는 사실을
위 사용자들에게 알리기 두려워서, "블랙박스가 아니게 하려는 시도"를 공격하기 보다는
차라리 그 블랙박스가 더이상 블랙박스가 아니게 하여, 그 결과물이 나름 옳은 결정이라고 받아들여져 사람들이 수긍까지 할 수 있게 하는 방향이 더 좋지 않은가, 나는 그렇게 생각한다.
'다이어리 > 다이어리' 카테고리의 다른 글
p-hacking에서와 같은 재현성 이슈가 앙상블에도 나타날 수 있는거 아닌가 하는 생각이, 그 PSF 논문 리뷰 이후로 계속 머릿속에서 맴돌고 있다. (0) | 2017.01.08 |
---|---|
새벽 동안에 겪은 망할 결정장애. (0) | 2017.01.08 |
수학 박사 연계전공은 조금 현실적인 문제로 재고하게 되었다. (0) | 2017.01.08 |
이전처럼 거칠게 아규하진 않아도 될 것 같으니, 고집을 좀 줄여야하지 않을까 싶다. (0) | 2017.01.08 |
내가 얼마전에, 딥러닝을 공부하는 연구실 후배와 anomaly detection을 위한 statistical approach를 이야기해준 적 있었는데 (0) | 2017.01.08 |
내가 1년 전 즈음에 처음 딥러닝을 이론적으로 접했을 때는, 뭐가 이리 허술한가 하는 느낌이었던 걸로 기억한다. (0) | 2017.01.02 |
성적이 떴는데, 생각보다 너무 성적이 잘 나와버려서 기분이 이상하다. (0) | 2017.01.02 |
아까 내가 썼던, output vector 어쩌고 했던 것이, 사실 내가 평상시에 non-parametric한 방법으로 분석해야한다고 했던 내 의견과는 조금 충돌되는 면이 있는 것 같다. (0) | 2017.01.02 |
내가 딥러닝 분야 논문을 굳이 쫒아다니며 읽지는 않기 때문에, 이미 기존 연구가 있는지 없는지는 잘 모르지만, (0) | 2017.01.02 |
"내성적인 아이들이 논리적인 사고를 하는 경향을 보이고 외향적인 아이는 기하를 아주 잘한다. 아무래도 성격에 따라 잘 하는 분야가 나뉘는 것 같다." (0) | 2017.01.02 |