상세 컨텐츠

본문 제목

사회과학자가 빅데이터를 만나면 뭘 할까? - KOSSDA 데이터 페어

사이람 이야기/ISSUE & NEWS

by (주)사이람 2019. 7. 5. 16:56

본문

지난 6월 27일 한국사회과학자료원(KOSSDA) 에서 흥미로운 주제로 데이터 페어를 개최했습니다. 

바로 '사회과학자가 빅데이터를 만나면 뭘할까?' 라는 주제였는데요 :)

 

인문사회과학 분야를 연구하는데 빅데이터가 어떤 중요한 역할을 할 수 있을지, 그렇다면 구체적으로 어떻게 활용할 수 있는지 등을 공유하고자 마련한 자리였습니다. 

날로 높아지는 '빅데이터'의 인기를 반영하듯, 사전 신청자가 무려 300명이 넘어 조기에 접수가 마감되었다고 합니다. 

(미리 행사에 대해 알려드리고 싶었으나 저희 예상보다 빠르게 마감되어 후기만 전해드리는 점을 이해해 주세요ㅠㅠ)

 

서울대 사회과학대학 이봉주 학장님, 서울대 아시아연구소 박수진 소장님이 인사말을 해주셨고, 

1부 빅데이터 활용 방법론 강의에서는 저희 사이람의 김기훈 대표이사(서울대학교 사회학과 겸임교수) 가 '사회과학 분야 빅데이터 연구방법론'이라는 주제로 빅데이터로 사회과학 연구를 하는데 필요한 기초적인 방법론을 이야기했습니다. 

2부에서는 카카오 모빌리티의 김정민 연구원(모빌리티 데이터로 바라보는 사회), 서울대 언론정보학과의 한규섭 교수님과 노선혜 연구원(정치연구와 빅데이터), 그리고 카이스트의 이원재 교수님(문학권력에 대한 세 가지 데이터 분석)이 구체적인 빅데이터 활용사례를 소개해 주셨습니다. 

 

 


1부. 빅데이터 활용 방법론

 

 

빅데이터를 사용하기 전에 먼저 빅데이터가 무엇인지 정확히 알아야겠죠?

여러분은 빅데이터가 무엇이라고 생각하시나요? 말 그대로 '큰 데이터' 를 빅데이터라고 하는 걸까요?

사실 저 또한 빅데이터를 Big 한 데이터라고 생각해왔습니다. 과연 그럴까요?

 

이 의문을 쉽게 설명해 드리기 위해서 이번 발표에 등장한 아주 인상적인 비유를 소개해 드리려고 합니다. 

 

"코끼리는 Big Animal 입니다. 그러면 새끼 코끼리도 Big Animal 일까요?"

 

즉, 코끼리의 특징이 '크다' 일수는 있지만 '크다' 라는 특성이 코끼리의 본질이 될 수는 없다는 이야기입니다. 

이처럼 빅데이터의 특성 중 하나가 Volume, 크다 라는 것이지만 크다고 해서 빅데이터가 될 수 없습니다. 

 

그렇다면, 빅데이터는 대체 뭘까요? 

 

디지털 시스템/기기에 의해 자동으로 생성된 디지털 기록 데이터를 빅데이터라고 합니다. 

그렇기 때문에 3V(Volume, Variety, Velocity) 라고 말하는 빅데이터의 특성을 가지게 되는 것이죠 :)

 

참고로 빅데이터는 정형 데이터(Structured Data) 와 비정형 데이터(Unstructured Data) 로 구분됩니다. 

흔히 접하는 통계 데이터는 정형 데이터이고, 텍스트, 이미지, 동영상 등은 모두 비정형 데이터입니다.

그리고 사이람의 분석 프로그램인 NetMiner는 정형 데이터 중 네트워크 데이터(Master Data, Transaction Data) 와 비정형 데이터 중 텍스트 데이터를 처리할 수 있습니다 :)

 

그렇다면 실제로 빅데이터를 분석하려면 어떤 절차가 필요할까요?

빅데이터의 일반적인 분석 프로세스는 수집 → 전처리 → 분석(측정) 입니다. 

 

사실 빅데이터를 다루는 일은 만만한 작업이 아닙니다. 

 

먼저 데이터를 수집하는 방법은 내부 DB에서 직접 데이터를 제공받거나

별도의 프로그래밍 언어를 익혀서 나만의 데이터 수집 프로그램을 만드는 것 뿐이었습니다. 

하지만 프로그래밍 언어를 익히는 게 쉬운 일은 아니죠 :(

 

또한 전처리 단계 중 네트워크 데이터를 구성하거나, 비정형 텍스트 데이터에서 형태소를 추출하고 빈도/중요도를 계산하는 것도 쉬운 작업이 아닙니다. 

 

어찌어찌 데이터를 처리했다고 하더라도, 데이터 분석을 위한 프로그램/라이브러리를 익히는 일이 남아있습니다. 

 

그런데!

NetMiner 는 데이터 수집부터 전처리, 그리고 분석까지 한 큐에 끝낼 수 있도록 제작되었다는 사실 알고 계신가요?

 

현재 소셜미디어(SNS) 와 학술 논문 서지 데이터를 웹에서 직접 수집할 수 있고, 

수집한 데이터에서 네트워크를 추출하고, 키워드를 뽑아서 곧바로 분석이 가능한 상태의 데이터를 구성해줍니다. 

또한 네트워크와 텍스트 분석을 위한 다양한 분석 및 시각화 메뉴를 가지고 있습니다.  

 

소셜 빅데이터 분석을 위한 가장 빠른 길, NetMiner !

자세한 내용이 궁금하시면 아래 포스팅을 참고하세요!

 

2018/04/24 - [NetMiner 이야기/NetMiner 및 이벤트 소식] - [UPDATE] 이제 SNS 수집도 NetMiner로 쉽게!

 

[UPDATE] 이제 SNS 수집도 NetMiner로 쉽게!

다양한 사회적 활동이 점차 디지털화, 온라인화 되면서 소셜 빅데이터 분석의 중요성이 점차 강조되고 있습니다. 그 중 트위터, 페이스북, 유튜브는 대표적인 소셜 빅데이터로서 전 세계적으로 이용자가 많은 SNS..

cyram.tistory.com

2019/06/13 - [소셜 네트워크 분석 활용사례/소셜 미디어 분석] - [NetMiner] 제주에서 날아온 소식! 제주 지역 인스타그램 분석

 

[NetMiner] 제주에서 날아온 소식! 제주 지역 인스타그램 분석

'떠나요~ 둘이서~ 모든 걸 훌훌 버리고~♪' 이 노래에서 주인공이 떠나고 싶은 곳은 어딜까요?? 바로 국내 대표적인 여행지 중 하나인 제주도 입니다! 오늘은 제주도에서 업로드된 인스타그램의 포스트(Post)를 분..

cyram.tistory.com

 

2019/02/28 - [NetMiner 이야기/NetMiner 및 이벤트 소식] - 논문 수집과 분석도 NetMiner로! - 논문 수집/분석 확장프로그램 출시 알림

 

논문 수집과 분석도 NetMiner로! - 논문 수집/분석 확장프로그램 출시 알림

안녕하세요, 사이람입니다. NetMiner 확장 프로그램, Biblio Data Collector(BDC, 논문 서지 수집 및 분석)가 출시되었습니다. 연구 분야를 이해하는 첫 걸음인 연구 동향 분석(Research Trend Analysis). 이제 N..

cyram.tistory.com

 

 


2부. 빅데이터 활용 사례

 

2부에서는 실제 빅데이터를 활용한 연구 사례들이 소개되었습니다. 

 

카카오 모빌리티의 김정민 연구원님이 아래의 사례를 소개해 주셨습니다. 

 

  • 모빌리티 데이터를 활용한 시공간 분석: 서울에서 택시 콜 수가 실제 택시 운행 수보다 초과된 지역을 지도에 표시
  • 이동 패턴 분석: 사람들의 많이 찾은 장소의 일자별 추이 파악
  • 생활권 분석: 통행량을 기반으로 네트워크 생성 후 클러스터링

 

이어서, 서울대 언론정보학과 노선혜 연구원님이 빅데이터를 활용한 정치 분석 사례를 소개했습니다. 

 

  • 지역별 이슈지도
  • 언론 논조 분석
  • 대통령 회의 및 신년사 분석, 역대 대통령 유사도 비교
  • 선거 TV 토론에서의 후보자 및 정당 간 네트워크
  • 국회의원 간 공동 발의 네트워크 분석 등..

 

마지막으로 카이스트 문화기술대학원의 이원재 교수님도 흥미로운 연구 사례들을 소개해 주셨습니다. 

 

  • 3대 문예지 유사도 그래프(TF-IDF 활용)
  • 개념어 사용에 따른 비평가들의 유사성 분포

 

전체 발표 자료는 한국사회과학자료원 홈페이지 에서 확인해 보실 수 있습니다. 

 

관련글 더보기

댓글 영역