웃긴대학(이하 웃대)에서 가장 많이 쓰는 말, 일간베스트저장소(이하 일베)에서 가장 많이 쓰는 말이 무얼까 궁금해져서
웃대, 일베를 각각 웹 크롤링을 해서 게시물들을 전부 긁어모은 뒤, 그 게시물을 가지고 분석해봤다.

웃대, 일베 둘 다 유저들끼리 유머 컨텐츠를 나누는 커뮤니티 사이트로 유명한데,

웃긴대학 같은 경우는 이런 커뮤니티 사이트 중 가장 최초로 만들어진 곳이고,
특히 일베 같은 경우는, 관련 다큐도 많이 나오고 하면서 사회적 물의를 빚을 정도로, 안좋다는 것을 익히 알고 있었기에,

둘의 성향이 어떻게 다른지 분석해보고 싶어서, 이참에 활용해보게 되었다.

웃대 : 웃긴자료 왕따 쉬는 시간.GIF http://web.humoruniv.com/board/humor/read.html?table=pds&pg=0&number=491262 부터
                      고딩의 화끈한 원샷.swf http://web.humoruniv.com/board/humor/read.html?table=pds&pg=0&number=481262 까지. 총 10,000개 자료의 제목, 내용, 댓글.

일베 : 일베 일간베스트 오락실에서 철권하다 의자로 내려찍은 놈 공개수배한단다.jpg [펌] http://www.ilbe.com/3825011800 부터 그 이전까지 작성된 10,000개의 제목, 내용, 댓글.



이렇게 가장 많이 사용된 단어를 확인함으로써

서로간의 성향 차이를 분석할 수 있게 된다.

(JPG가 많이 나온 이유는, 제목에 "웃긴모습.jpg" 와 같이, 내용이 이미지일 경우 제목 자체에 jpg를 써주는 유행 때문으로 보인다.)


이걸 신문기사로 치면 신문사별, 날짜별로 구분을 할 수도 있고,

이처럼 커뮤니티 사이트별로 분석할 수도 있고,

사이트가 있어도 그 내부 게시판 별로 분석할 수도 있고...


웹 크롤링이 되니까, 이 작업 자체는 조금 힘들고 시간도 좀 필요하지만

활용 여지가 커지는 것 같다.


의미있는 데이터를 미리 웹 크롤링으로 수집해놓은 뒤

잘 활용하면 멋질 것 같다.

+ Recent posts