"만일 공집합이 아닌 임의의 집합 셋이 있을 때, 각 집합에서 정확히 한 가지 원소를 선택하여 새로운 집합을 구성할 수 있다"
이 말은 언뜻 보면 맞아보이는데, 이 말에 대해서 보렐이라는 사람은 다음과 같은 이야기를 하면서 반박을 했었다.
.
여러 켤레의 신발이 막 널부러져 있는 상황이라고 할 때, 이 신발의 개수가 짝수임을 증명할 필요가 있다고 해보자.
모든 신발이 서로 유사한 두 부분으로 나누어질 수 있으면 짝수임이 증명이 된다. 만약 지금 각 쌍의 오른쪽 신발과 왼쪽 신발이 서로 명료하게 다르다고 하면, 왼쪽 신발을 일단 주욱 나열해놓고, 오른쪽 신발을 왼쪽 신발과 짝이 맞게 찾아 넣어가기만 하면 될 것이다.
하지만 만약에 널부러져있는 신발이 왼쪽 신발과 오른쪽 신발을 명확히 구별할 수 없으면(설령 왼쪽 오른쪽 구분이 되어있는 신발일 지언즉) 절반의 신발에게만 해당하는 속성을 정확하게 알아낼 수는 없다. 그러므로 신발과 유사한 두 부분으로 정확하게 나눌 수 없기 때문에 신발의 개수가 짝수임을 증명할 수 없게 된다.
만약 신발의 개수가 무한이라면, 어떤 선택의 규칙을 갖고 있지 않는 한 골라낼 수 없다.
그런데 위 문장에서는 이러한 규칙이 필요할 것임에도, 그 규칙이 보이지 않는다.
.
여기에서 마지막에 "무한이라면"으로 확장한 부분에 대해, 추가적으로 다음과 같은 논쟁도 있었다.
몇 천명의 사람들이 각자 임의의 자릿수에 한 숫자씩 집어넣는 방식으로 유한 소수를 정의하는 것은 가능하다. 사람들을 한 줄로 늘어 세운다음에, 각자 그 줄의 앞 사람이 써놓은 숫자 다음 차례로 자기의 숫자를쓰는 방식으로 해나가면, 그 정의에 맞는 수가 생길 것이다.
하지만 사람의 수를 무한명으로 확장하게 되면 문제가 생긴다. 현실적으로 무한 소수인 경우, 각 자릿수에 들어갈 무한개의 수들을 무작위로 선택해서 얻어진 소수이기 때문에, 그런 무작위 선택에 의해 하나의 소수를 특정할 수는 없다.
.
확률은 확률공간에서 정의되고, 측도는 각각의 사건에 정의되는 것이 아니고, 사건들의 집합에서 정의된다.
확률을 정하고 싶은 집합을 Ω라고 하자. Ω의 σ대수를 생각하면, 당연히 문제없이 확률을 재려면 측도공간이어야 하고, 그 가측집합들은 물론 사건이라고 불러야 마땅하다.
확률측도는 전체집합의 측도값이 1인 유한측도. P measure라고도 한다. 확률측도를 갖는 측도공간을 확률공간이라고 하고, 그 측도공간이 완비이면 완비확률공간이라고 한다.
.
확률이 사건들의 합성을 적절히 반영해야 하니, '확률 변수'는 실수값을 갖는 가측함수이면 참 좋을 것이다. 혹은, 반대로 생각하면 확률공간 위의 실가측함수는 '확률변수'라고 부를 수 있을 것이다.
확률변수가 생성하는 σ대수가 생각할 대상이 되어야 할 것이다. 즉, 확률변수가 가측함수이도록 하는 최소한의 σ대수를 다음과 같이 정의한다.
σ(X)로 표기하고, 다음을 의미한다.
σ {w ∈ 오메가 | X(w) ∈ | E ∈ 보렐집합}
즉, X^-1 (보렐집합)이다.
사건의 확률 측도가 보렐집합의 원소가 되는 그런 사건만을 생각하기로 한 것이, 바로 보렐 집합이다.
.
참고로 위에서 이야기한 반박들이 보렐이 직접 이야기한 것들이었고, 위 반박이 오간 논쟁을 바탕으로 사건의 확률측도 공간을 보렐 셋으로 정의함으로써 확률측도가 계략이 가능해졌다. 이 측도를 실수로 보내는 함수를 '확률변수'라고 부른다.
.
사실 이미지 데이터에 대해 레이블링을 해야한다느니 하는 말이 다 이런 기반 하에서 시작해야 함을 명시하는 셈이다.
(물론 그게 까다롭다는건 나도 알고 있다. 레이블링이 잘 되어있는 이미지나 동영상 데이터셋 제공자들에게 고마워해야하는 것도 그 이유이며,
나 또한 '남들이 이렇게 접근하여 실험설계를 한다던지 등의 과정이 없이 뭘 어떻게 하고 있나' 하고 구경만 하지 건드리지는 않고 있다. 이걸 극복할 만한 역량이 부족하다며 자책하는 것과, 아무 데이터나 막 집어넣거나 필터 막 갖다 붙여서는 안된다고 까는 것은 덤이다.)

+ Recent posts