그 동안 넷마이너의 토픽 모델링(LDA)를 사용하셨던 분들을 위한 희소식을 가져왔습니다!
이제 NetMiner에서도 토픽 일관성(Coherence)를 활용하여
적절한 토픽 수, α, β 의 추천 값을 확인할 수 있습니다.
토픽 일관성(Coherence Index)란?
토픽 모델을 평가하는 방법 중 하나로, 같은 토픽에 의미론적으로 유사한 단어들끼리 분류되어 토픽 내용이 일관성이 있는지를 알 수 있는 지표입니다.
예를 들어, 아래는 '기후 변화' 뉴스 데이터에서 분석한 2개의 토픽 모델링 결과입니다.
2개의 토픽 모델은 모두 토픽 수는 3개로 했지만, 그 외의 하이퍼파라미터를 다르게 설정했다고 가정하겠습니다.
어떤 결과가 좀 더 적합한 결과로 보이시나요?
첫번째 토픽 모델 | 두번째 토픽 모델 | |
토픽1 의 주요 단어 | 벚꽃, 공무원, 연구진, 온도, 빙하 | 벚꽃, 개화, 시기, 벌, 3월 |
토픽2 의 주요 단어 | 정부, 공무원, 지원, 대책, 지자체 | 정부, 대책, 지원, 마련, 재생에너지 |
토픽 3의 주요 단어 | 남극, 재생에너지, 대책, 해류, 지원 | 남극, 해류, 빙하, 온도, 베니스 |
첫번째 토픽 모델은 같은 토픽에 서로 다른 주제와 연관성이 높아 보이는 단어가 섞여 있는 반면(토픽이 비일관적),
두번째 토픽 모델은 연관성이 높은 단어들끼리 같은 토픽에 분류된 것을 알 수 있습니다(토픽이 일관적).
결론적으로, 의미적으로 연관도가 높은 단어가 같은 토픽에 있다면, 연구자가 토픽을 쉽게 이해할 수 있습니다.
이러한 아이디어를 토대로 제안된 것이 바로 토픽 일관성입니다.
토픽 일관성은 각 주제별로 상위 N개의 단어를 뽑고, 그 단어들의 연관성(유사도, 함께 등장한 정도)를 계산합니다.
이 연관성이 전반적으로 높다면 토픽 일관성도 높게 나타나겠죠?
토픽 일관성을 이용해서 NetMiner에서 토픽 분석하기
1. 설치
아래 NetMiner 홈페이지에서 토픽 모델 평가 기능의 설치 파일을 다운로드하고 설치해주세요.
https://www.netminer.com/kr/support/download.php
2. 실행
NetMiner 를 실행하고, Extension > Evaluation of Topic Models 를 실행합니다.
분석 데이터(Analysis Unit)와 옵션을 설정하고 Run 을 클릭합니다.
* 상세 기능은 프로그램 실행 후 Help > Open Manual 에서 확인하실 수 있습니다.
3. 결과
앞에서 설정한 옵션에 따라 NetMiner의 LDA가 여러 번 실행되면서 토픽 모델을 생성합니다.
그리고 각각의 토픽 모델의 Coherence 를 측정합니다.
c_v 와 umass 는 토픽 일관성을 측정하는 방식으로,
c_v는 1에 가까울수록, umass 는 0에 가까울수록 일관성이 높다는 것을 의미합니다.
그렇다면, 위의 결과에 따르면 α, β 가 0.01 일 때 토픽 수는 10인 토픽 모델이 가장 좋다고 볼 수 있겠죠?
4. 활용
NetMiner의 Machine Learning > Text > Topic > LDA 를 실행하고, 앞에서 확인한 하이퍼파라미터를 입력해서 Run!
참고로 지난 포스팅 https://cyram.tistory.com/348 에서도 토픽 일관성을 활용해 주제를 분석하였으니
한 번 확인해 보세요!
참고로 토픽 모델 평가 기능은 아래의 환경에서 사용하실 수 있습니다.
플랜을 업그레이드 하고 싶다면, 플랜 업그레이드 >>
토픽 모델링에 대해 알고 싶다면, 사이람 교육센터 - 텍스트 네트워크 분석 과정 >>
관련하여 궁금하신 사항이 있으시면 언제든지 문의해 주세요~!
[무료배포] 자동 토픽 분석 Plug-in (0) | 2018.03.07 |
---|---|
[플러그인 활용하기] Co-occurrence Network 생성 플러그인 활용(3) (2) | 2013.06.21 |
[플러그인 활용하기] Co-occurrence Network 생성 플러그인 활용(2) (0) | 2013.06.04 |
넷마이너에 플러그인 설치하기 (0) | 2013.05.20 |
[플러그인 활용하기] Co-occurrence Network 생성 플러그인 활용(1) (4) | 2013.05.16 |
댓글 영역