"만일 공집합이 아닌 임의의 집합 셋이 있을 때, 각 집합에서 정확히 한 가지 원소를 선택하여 새로운 집합을 구성할 수 있다"
이 말은 언뜻 보면 맞아보이는데, 이 말에 대해서 보렐이라는 사람은 다음과 같은 이야기를 하면서 반박을 했었다.
.
여러 켤레의 신발이 막 널부러져 있는 상황이라고 할 때, 이 신발의 개수가 짝수임을 증명할 필요가 있다고 해보자.
모든 신발이 서로 유사한 두 부분으로 나누어질 수 있으면 짝수임이 증명이 된다. 만약 지금 각 쌍의 오른쪽 신발과 왼쪽 신발이
서로 명료하게 다르다고 하면, 왼쪽 신발을 일단 주욱 나열해놓고, 오른쪽 신발을 왼쪽 신발과 짝이 맞게 찾아 넣어가기만 하면 될
것이다.
하지만 만약에 널부러져있는 신발이 왼쪽 신발과 오른쪽
신발을 명확히 구별할 수 없으면(설령 왼쪽 오른쪽 구분이 되어있는 신발일 지언즉) 절반의 신발에게만 해당하는 속성을 정확하게
알아낼 수는 없다. 그러므로 신발과 유사한 두 부분으로 정확하게 나눌 수 없기 때문에 신발의 개수가 짝수임을 증명할 수 없게
된다.
만약 신발의 개수가 무한이라면, 어떤 선택의 규칙을 갖고 있지 않는 한 골라낼 수 없다.
그런데 위 문장에서는 이러한 규칙이 필요할 것임에도, 그 규칙이 보이지 않는다.
.
여기에서 마지막에 "무한이라면"으로 확장한 부분에 대해, 추가적으로 다음과 같은 논쟁도 있었다.
몇 천명의 사람들이 각자 임의의 자릿수에 한 숫자씩 집어넣는 방식으로 유한 소수를 정의하는 것은 가능하다. 사람들을 한 줄로
늘어 세운다음에, 각자 그 줄의 앞 사람이 써놓은 숫자 다음 차례로 자기의 숫자를쓰는 방식으로 해나가면, 그 정의에 맞는 수가
생길 것이다.
하지만 사람의 수를 무한명으로 확장하게 되면 문제가 생긴다. 현실적으로 무한 소수인 경우, 각 자릿수에 들어갈 무한개의 수들을 무작위로 선택해서 얻어진 소수이기 때문에, 그런 무작위 선택에 의해 하나의 소수를 특정할 수는 없다.
.
확률은 확률공간에서 정의되고, 측도는 각각의 사건에 정의되는 것이 아니고, 사건들의 집합에서 정의된다.
확률을 정하고 싶은 집합을 Ω라고 하자. Ω의 σ대수를 생각하면, 당연히 문제없이 확률을 재려면 측도공간이어야 하고, 그 가측집합들은 물론 사건이라고 불러야 마땅하다.
확률측도는 전체집합의 측도값이 1인 유한측도. P measure라고도 한다. 확률측도를 갖는 측도공간을 확률공간이라고 하고, 그 측도공간이 완비이면 완비확률공간이라고 한다.
.
확률이 사건들의 합성을 적절히 반영해야 하니, '확률 변수'는 실수값을 갖는 가측함수이면 참 좋을 것이다. 혹은, 반대로 생각하면 확률공간 위의 실가측함수는 '확률변수'라고 부를 수 있을 것이다.
확률변수가 생성하는 σ대수가 생각할 대상이 되어야 할 것이다. 즉, 확률변수가 가측함수이도록 하는 최소한의 σ대수를 다음과 같이 정의한다.
σ(X)로 표기하고, 다음을 의미한다.
σ {w ∈ 오메가 | X(w) ∈ | E ∈ 보렐집합}
즉, X^-1 (보렐집합)이다.
사건의 확률 측도가 보렐집합의 원소가 되는 그런 사건만을 생각하기로 한 것이, 바로 보렐 집합이다.
.
참고로 위에서 이야기한 반박들이 보렐이 직접 이야기한 것들이었고, 위 반박이 오간 논쟁을 바탕으로 사건의 확률측도 공간을 보렐
셋으로 정의함으로써 확률측도가 계략이 가능해졌다. 이 측도를 실수로 보내는 함수를 '확률변수'라고 부른다.
.
사실 이미지 데이터에 대해 레이블링을 해야한다느니 하는 말이 다 이런 기반 하에서 시작해야 함을 명시하는 셈이다.
(물론 그게 까다롭다는건 나도 알고 있다. 레이블링이 잘 되어있는 이미지나 동영상 데이터셋 제공자들에게 고마워해야하는 것도 그 이유이며,
나 또한 '남들이 이렇게 접근하여 실험설계를 한다던지 등의 과정이 없이 뭘 어떻게 하고 있나' 하고 구경만 하지 건드리지는 않고
있다. 이걸 극복할 만한 역량이 부족하다며 자책하는 것과, 아무 데이터나 막 집어넣거나 필터 막 갖다 붙여서는 안된다고 까는
것은 덤이다.)
'다이어리 > 다이어리' 카테고리의 다른 글
오로지 많은 데이터를 수집하는 것이 능사는 아니라는 것이다. (0) | 2016.10.26 |
---|---|
이 outlier를 무턱대고 제거하기 보다는, 잘, 유용하게 활용해야 할 것 이다. (0) | 2016.10.26 |
사실 나는 고등학교부터 문과 출신이고, 경제학과와 통계학과에서도 수학실력보다는 컴퓨터실력으로 살아남은 케이스로, 원래는 수학과 굉장히 인연이 멀었다. (0) | 2016.10.26 |
우리가 "강아지"는 "고양이"보다 크다, "강아지"는 "고양이"보다 앞선 순위이다. 라고 이야기할 수 없다. (0) | 2016.10.26 |
근데 예전에 미리 이해했더라면 시험 성적이 더 좋았겠지. (0) | 2016.10.26 |
"전문가란 오류를 범하지 않는 사람이 아니라 오류를 범했을 때 그것을 바로잡을 수 있는 사람이라고 생각합니다." (0) | 2016.10.26 |
이렇게 조금만 틀어도 내가 접근하고자 하는 방향과 일치해질 것 같다. (0) | 2016.10.26 |
#결론이뭐이러냐 (0) | 2016.10.26 |
아무리 토이 데이터여도 생명의 생과 사가 달린 데이터를 다룰 때는 손이 덜덜 떨린다. (내용 없음) (0) | 2016.10.26 |
생각해보니 이거 어디서 많이 본 모습이다. 어쩌라는건지 모르겠다. (0) | 2016.10.26 |