https://github.com/pras…/MakeCluster/…/master/make_cluster.R
Synthetic Clustered Data를 만들어주는 R 코드이다.
내가 공부하는 분야에서는, 하도 real data만 가지고 성능 측정을 하려고 하니, 이에 진절머리가 나서 만들었었고, 마음껏 자랑하고 싶었지만, Github에 올리기로 마음먹는 데 까지는 시간이 좀 걸렸다. 어쨌든 "그냥 MNIST나 iris 쓰면 되는거 아니야?" "실험을 위한 적절한 데이터를 찾아야겠네요. 데이터가 부족해요." 소리를 그만 듣고 싶었다.
식은 위 이미지같이 세운거고 (오타가 있는데, n ∈ N+.), 여기에서 Dist는 임의의 분포 명칭, CN은 클러스터 개수를 의미한다. sd_c는 군집 하의 데이터 사이의 거리를 떨어트리는 역할을 한다.
이 방법으로 생성된 D는 nx2 크기의 행렬이고, D의 1번째 column은 2차원 공간 하에서의 x좌표,2번째 열은 y좌표를 의미한다.
'다이어리 > 다이어리' 카테고리의 다른 글
내 주변에도 그런 이상한 이론이 하나 있다. "딥러닝"이라고 불린다. (0) | 2017.01.02 |
---|---|
엊그제 강우량 데이터 분석 프로젝트를 하면서 만들었다고 했던 모델을 매트릭스 형태로 바꾸고 있다. (0) | 2017.01.02 |
나는 학부는 고대 출신이 아니다. 고대를 다니기 시작한건 석사과정부터였다. (0) | 2017.01.02 |
강우량 데이터 분석 프로젝트를 하면서 모델을 만들었다 (0) | 2017.01.02 |
모든 현실이 trigonometric models에 맞춰진다면 정말 분석하기 쉬울텐데 (0) | 2017.01.02 |
생각해보니, 그동안 거의 윤리적인 문제에 치중되어 있었다는 느낌이 든다. (0) | 2017.01.02 |
이거 하나를 더 얹으면 부담이 커져서 과로사로 죽을지도 모른다는 생각이 들어 자꾸만 고민하고 있다. (0) | 2017.01.02 |
예전같았으면 이게 무슨 소리인지 따라가기도 벅차했을텐데 (0) | 2017.01.02 |
오늘 유전자 데이터 분석 숙제 발표를 진행했는데, 칭찬을 정말 많이 받았다. (0) | 2017.01.02 |
요즘 문득문득 드는 생각이 있는데, 메타분석이라는, 결과를 통합하기 위한 훌륭한 툴이 있다. (0) | 2017.01.02 |