https://github.com/pras…/MakeCluster/…/master/make_cluster.R

Synthetic Clustered Data를 만들어주는 R 코드이다.
내가 공부하는 분야에서는, 하도 real data만 가지고 성능 측정을 하려고 하니, 이에 진절머리가 나서 만들었었고, 마음껏 자랑하고 싶었지만, Github에 올리기로 마음먹는 데 까지는 시간이 좀 걸렸다. 어쨌든 "그냥 MNIST나 iris 쓰면 되는거 아니야?" "실험을 위한 적절한 데이터를 찾아야겠네요. 데이터가 부족해요." 소리를 그만 듣고 싶었다.



식은 위 이미지같이 세운거고 (오타가 있는데, n ∈ N+.), 여기에서 Dist는 임의의 분포 명칭, CN은 클러스터 개수를 의미한다. sd_c는 군집 하의 데이터 사이의 거리를 떨어트리는 역할을 한다.
이 방법으로 생성된 D는 nx2 크기의 행렬이고, D의 1번째 column은 2차원 공간 하에서의 x좌표,2번째 열은 y좌표를 의미한다.

+ Recent posts