논문요약 및 정리

리뷰의 의미적 토픽분류를 적용한 감성분석 모델

빛날희- 2021. 7. 14. 23:57

논문명: 리뷰의 의미적 토픽 분류를 적용한 감성분석 모델

저자: 임명진, 김판구, 신주현

저널: 스마트미디어 저널

발간일: 2020년 06월


드라마 리뷰 데이터를 대상으로 "토픽 별" 감성분석을 수행한 논문이다. 

 

▶ 분석 프로세스 및 결과

분석 프로세스와 과정 별 결과는 다음과 같다. 

 

1. LDA (Latent Dirichlet Allocation)

리뷰데이터들을 대상으로 LDA토픽모델링을 수행한다. 문서 내 주제 분포 분석 및 주제 내 단어 분포를 분류하기 위해 LDA를 사용했다. LDA를 사용해 토픽간 관련성을 최소로하는 토픽을 총 3가지 도출하였다. 

 

2.  Semantic Topic Reclassification

해당 논문에서 눈 여겨 보았던 부분이다. LDA를 통해 데이터를 토픽 별로 분류하였는데, 분류된 토픽내에 중복되는 단어들이 여럿 존재했다. 또한 LDA는 단어의 의미가 고려되지 않은 확률 기반 분류방법이기 때문에 토픽과 의미적으로 관련이 없는 단어들도 포함되있는 경우가 있다. 이 문제들을 해결하기 위해 토픽 내 단어들의 유사도를 기반으로 단어들을 재분류 하였다. 

먼저 재분류를 위해 word2vec에서 대상 단어로 주변단어들을 예측하는 Skip-gram모델로 단어들을 벡터화해준 후 Vector space model을 구축했다. 해당 벡터는 단어의 의미와 문장에서 맥락을 함께 고려한 벡터이기 때문에 같은 단어라도 다른 문맥에서 사용되었으면 그 값이 다를 수 있다. 이 벡터들 간의 거리가 가깝다면 의미적으로 유사성을 가지고 있다는 말이기도 하다.

벡터 간 유사도를 구하기 위해 cosine similarity를 사용했고 토픽에서 중복되는 단어와 토픽 간 코사인 유사도를 구해 유사도가 더 높은 토픽에 단어를 재분류 하였다. 

해당 과정을 통해 토픽에서 중복되어 분포한 단어들을 하나의 토픽에 재분류하였다. 

 

3. 토픽 별 감성분석

리뷰에서 형용사와 동사를 추출한 후 KNU의 감성사전을 사용해 극성값을 부여했다. 감성단어가 나온 빈도와 긍부정 극성값을 고려하여 규칙 기반 감성점수를 도출했다. 

 

 

▶ 회고

- 토픽의 응집성과 연관성을 높이기 위해 중복되는 단어들을 word2vec과 cosine similarity에 기반한 의미적 유사도를 기준으로 재분류한 것이 인상깊었다. 

- 전체적인 문서의 감성점수를 도출하는 것보다는 데이터에서 토픽을 추려내고 토픽 별로 감성분석을 수행하는 것이 제품에 대한 사용자의 느낌과 평에 대한 세밀한 분석을 가능하게 해주었다. 해당 논문에서는 문서 별 분류체계(카테고리)가 갖춰져있지 않은 상태에서 카테고리를 정하고 카테고리 별 감성분석을 했지만, 카테고리가 이미 정해져있는 경우엔 데이터들을 어떻게 적합한 카테고리로 분류시키고 감성분석을 수행해야할지 고민해볼 필요가 있다.