전문지식 함양/학습내용 정리

[대학수업] 텍스트데이터분석2

샤프펜슬s 2022. 6. 28. 17:13

※ 본 자료는 2022학년도 1학기 텍스트데이터분석 기말과제로 사용되었습니다.

 

0. 주제 : 게임리뷰 텍스트데이터 분석을 통한 객관적인 게임평가 : Steam 게임을 중심으로

 

 

1. 연구 이후

 이전 연구에서는 방대한 Steam 게임 리뷰 데이터를 바탕으로 개인의 주관성 속에서도 형성되는 집단의 공통적인 의견을 파악하기 위하여 형태소 분석과 워드클라우드 분석, 그리고 TF-IDF 분석 순으로 진행하였다. 그 결과 우리는 아래 세 가지와 같은 결론을 얻었다.

첫째, 대상 게임은 우주를 배경으로 펼쳐지는 이야기로, 많은 시간과 노력이 필요한 게임이라는 사실을 알 수 있다.
둘째, 대상 게임은 책정된 가격만큼 소비자에게 만족감을 주고 있지 못하고 있다.
셋째, 대상 게임은 업데이트를 통해서 많은 개선이 이루어지고 있음을 알 수 있다.

 

 그러나 일전의 보고서를 통해 한계점 이외에도 여러가지 개선점 혹은 아쉬운 점을 제안받을 수 있었다. 대표적인 것만 몇 가지 꼽자면 아래와 같이 말할 수 있다.

 

첫째, 명사만으로 판단하여 결론을 지은 것이 너무 아쉬웠다. 언어 특성상 명사는 주체만을 밝히며 구체적인 내용은 동사로 결정되는 경우가 많은데 이러한 점을 고려하지 못한 것 같다.

둘째, Steam의 추천/비추천 여부까지 데이터 분석에 포함한다면 질좋은 분석을 얻을 수 있을 것이다.

 이렇듯 상당한 시간을 들여서 분석을 진행했음에도 본 연구는 여러 한계점을 드러내고 있었다. 그러므로 본 연구의 완성도를 위해서 추가 분석이 필요하다는 결론에 이르렀다. 기존에 보유하고 있는 데이터셋을 재활용하는 것이므로 이전 연구에서 밝혔던 ‘연구의 한계점’을 모두 해소할 수는 없겠지만, 토픽 및 네트워크 분석을 통해 일부 피드백이 충분히 해소될 수 있으리라 기대한다.

 

 

2. 제안방법

 본 장에서는 텍스트데이터 분석 진행 절차를 제시한다. 분석은 이전에 진행했던 TF-IDF 분석에 이어서 진행하며, (1) LSA분석, (2) LDA분석, (3) 네트워크 분석, (4) Word2Vec 및 동시출현빈도 표현순으로 진행한다.

 

2.1. LSA분석 : LSA분석에서는 본래 대상 게임이었던 No Man’s Sky와 비교 게임인 Astroneer의 리뷰데이터에서 형성된 토픽을 추출하여 분석한다. No Man’s Sky와 Astroneer의 리뷰데이터는 각 줄이 독립적인 문서로 취급하였다.

 

2.2. LDA분석 : LDA분석에서는 (1) 두 게임을 가지고 분석을 진행하되, 각 게임의 리뷰들을 별개의 문서로 취급하는 방법, (2) 대상 게임인 No Man’s Sky의 리뷰데이터로 분석을 진행하되, 각각의 리뷰를 별개의 문서로 취급하는 방법, (3) 비교 게임인 Astroneer의 리뷰데이터로 분석을 진행하되, 각각의 리뷰데이터를 별개의 문서로 취급하는 방법 총 세 가지로 분석할 것이다. 뿐만 아니라 각 분석에 대하여 시각화, 그리고 Perplexity와 Coherence를 활용한 모델 검증도 진행하여 분석의 객관성을 높이고자 한다.

 

2.3. 네트워크 분석 : 네트워크 분석에서는 대상 게임인 No Man’s Sky에서 등장하는 각 단어의 관계성을 파악하기 위해 No Man’s Sky의 리뷰데이터만을 사용하여 분석한다.

 

2.4. Word2Vec 및 동시출현빈도 : Word2Vec에서는 No Man’s Sky에서 등장하는 단어의 관계성을 DataFrame형태로 나타낸 것이다. 그리고 동시출현빈도(Co-occurrence)는 각 단어와 함께 등장한 단어를 빈도 순으로 나열한 것이다. 본 연구에서는 No Man’s Sky의 리뷰데이터를 활용하여 비유의어를 제거한 동시출현빈도를 확인하고 상위 10개의 동시출현빈도와 Word2Vec을 비교하며 결론을 도출하고자 한다.

 

 

3. 실험내용

 본 연구는 ‘게임리뷰 텍스트데이터 분석을 통한 객관적인 게임평가 : Steam 게임을 중심으로’의 후속 연구로, 대상 및 비교 게임과 분석내용, 기타 특이사항을 그대로 활용한다.

 

3.1. LSA분석

 LSA분석에서는 No Man’s Sky의 리뷰데이터와 Astroneer 리뷰데이터 두 개를 모두 사용하였다. 데이터 가공 시 각 게임당 하나의 문서로 배정하였는데, 이에 따라 게임 내 복수의 리뷰데이터는 하나의 문서와 같은 취급을 받게 되었다. 이는 No Man’s Sky와 Astroneer의 리뷰 성향을 보다 확실하게 구분하여 비교분석이 용이하도록 만들기 위함이다. 아래 이미지는 LSA의 분석결과를 나타내고 있다.

<그림1> LSA 분석결과 : No Man's Sky, Astroneer 두 리뷰데이터를 중심으로

총 두 개의 토픽이 추출되었는데, 놀라운 점은 이전 연구의 TF-IDF 분석결과와 유사한 두 개의 토픽이 산출된 것을 확인할 수 있다는 것이다. LSA의 순서는 고려하지 않고 Topic 0의 단어를 종합적으로 살펴보았을 때 TF-IDF에서 Astroneer 단어와 비슷했으며, 그리고 Topic 1의 단어는 TF-IDF의 No Man’s Sky 단어와 유사하였다.

나는 LSA를 통하여 아래와 같은 결론을 도출하였다.

(1) No Man’s Sky와 Astroneer는 게임장르가 비슷했지만 명확하게 구분되는 두 개의 토픽을 지니고 있었다. 이것은 게임의 장르가 유사하더라도 게임의 평가는 전혀 달라질 수 있다는 증거이다.

 

3.2. LDA분석

3.2.1. No Man’s Sky, Astroneer 두 게임을 대상으로

 LDA분석에서도 LSA분석과 마찬가지로 No Man’s Sky의 리뷰데이터, Astroneer의 리뷰데이터를 사용하였으며 각 리뷰데이터는 독립적인 문서로 취급하였다. 결과는 아래와 같이 5개의 토픽이 등장하였다.

<그림2> LDA분석결과 : No Man's Sky, Astroneer 두 리뷰데이터를 중심으로

위 토픽을 PyLDAvis를 사용하여 시각화를 한 결과는 아래와 같다.

<그림3> 3.2.1. 토픽모델링 분석결과 시각화 (PyLDAvis)

출력된 5개의 토픽 중 유의미한 비중을 차지하는 2번과 5번 토픽만 놓고 살펴보았다. 두 토픽은 시각화 그래프 상으로는 전혀 다른 위치에 있는 것처럼 보이지만 ‘정도’, ‘그래픽’ 등 소수의 단어만을 제외하고 출현 단어가 같았다. 그러므로 두 토픽에 대하여 유의미한 결과를 얻지 못했다고 결론을 내렸다. 그다음 해당 토픽 모델에 대하여 Perplexity와 Coherence를 구해 토픽모델링의 품질을 살펴보았다.

<그림4> 3.2.1. 토픽모델링 평가 - 혼잡도
<그림5> 3.2.1. 토픽모델링 평가 - 일관도

 Perplexity가 낮을 수록 적합한 토픽이라는 사실을 알려준다. 그런데 Perplexity는 13 ~ 14개의 토픽에서 가장 낮은 혼잡도를 보여주고 있다. 다만 Perplexity의 최고값(-7.719778128255946)과 최저값(-7.720502000228651)의 차는 불과 0.000723871972705에 불과하므로 그래프의 변동폭은 아무런 의미를 가지지 못한다고 생각하였다. 따라서 나는 현재 출력된 토픽의 개수를 유지하였다. 한편 Coherence는 처음부터 끝까지 0.29808621369827987로 완벽히 동일한 값을 가지고 있다. 0.298이라는 수치는 거의 0에 수렴하는 만큼 토픽 내 단어의 유사도가 매우 낮다는 사실을 알 수 있으며, Coherence를 기준으로 살펴보았을 때 토픽 모델의 품질이 좋지 않다는 사실을 알 수 있다.

 

3.2.2. No Man’s Sky을 중심으로

 No Man’s Sky의 리뷰데이터으로 LDA를 실시한 결과 총 29개의 토픽이 출력되었다. 이를 시각화하면 아래와 같다.

<그림6> No Man's Sky 리뷰데이터 주요토픽

 

<그림7> 3.2.2. 토픽모델링 시각화

시각화 그래프에서는 29개의 토픽이 표시되어 있으나 대부분 토픽의 비중이 낮았다. 그리고 유의미한 비중을 지닌 18번, 20번, 29번 토픽은 모두 29번 토픽의 위치와 겹친다는 사실을 알아내었다. 이를 근거로 나는 No Man’s Sky 리뷰데이터에서 가장 중요한 토픽이 29번 토픽이라고 판단하였다. 29번 토픽은 환불, 만원, 버그, 업데이트 등 부정적인 단어가 상당수 포함되어 있었고 ‘재미’ 등 긍정적인 단어는 거의 찾아볼 수 없었다.

<그림8> 3.2.2. 토픽모델링 평가 - 혼잡도
<그림9> 3.2.2. 토픽모델링 평가 - 일관도

 No Man’s Sky 리뷰데이터로 분석한 토픽모델의 Perplexity와 Coherence를 계산한 결과는 위의 그래프와 같다. 본 연구에서 선택한 토픽의 개수는 29개로 가장 낮은 Perplexity를 보여주지는 않았다. 하지만 토픽이 29개였을 때 Perplexity 수치는 다른 수치와 비교했을 때 낮은 수준임에는 틀림없었으며, 최저 수치와의 차이는 0.1 정도로 매우 근소했다. 따라서 토픽의 개수는 Perplexity의 값이 최저가 아니었음에도 29개로 최종 결정하였다. 한편 Coherence는 앞선 분석과 마찬가지로 처음부터 끝까지 낮게 일관된 수치를 보여주었는데, 그 값은 0.2986955890338758으로 앞선 Coherence와 크게 차이가 나지 않았다.

 

3.2.3. Astroneer를 중심으로

 Astroneer의 리뷰데이터로 LDA분석을 진행한 결과, 마찬가지로 29개의 토픽이 추출되었다. 이를 시각화 그래프로 표현하면 아래와 같다

<그림10> Astroneer 리뷰데이터 주요토픽
<그림11> 3.2.3. 토픽모델링 시각화

 그래프에는 총 29개의 토픽이 표시되어 있으나, 몇 개를 제외하고는 각 토픽의 비중은 크게 낮았다. 유의미한 정도의 비중을 가진 16번, 21번, 25번 토픽은 비슷한 위치에 존재하므로 이중에서 가장 크기가 큰 25번 토픽을 주요 토픽으로 선정하였다. 25번 토픽에는 플레이, 재미, 추천과 같은 긍정적인 단어가 No Man’s Sky에 비해 많이 분포되어 있는 것을 확인하였다.

 

<그림12> 3.2.3. 토픽모델링 평가 - 혼잡도
<그림12> 3.2.3. 토픽모델링 평가 - 일관도

 Astroneer 분석결과에 대한 Perplexity는 이전 분석들과 마찬가지로 유의미한 변동폭을 보여주지 않았으며, Coherence의 값은 0.28746613246735037로 일정하게 유지되었다.

 

나는 LDA분석을 통해 아래와 같은 결론을 내렸다.

(1) No Man’s Sky 리뷰분석에서 주 토픽의 구성을 살펴보면 환불, 만원, 버그 등 부정적인 단어가 다수 포진되어 있었으며 그 외에는 행성, 우주, 정도 등 게임의 정보를 담은 단어가 등장하였다. 이로 미루어 볼 때 No Man’s Sky의 게임리뷰는 소비자에게 불만족한 경험을 선사했을 가능성이 높다고 추측된다.

 

(2) Astroneer 리뷰분석에서 주 토픽의 구성을 살펴보면 버그를 제외하고는 부정적인 단어는 등장하지 않았고, 재미, 추천 등 긍정적인 평가가 곳곳에서 등장하였다. 따라서 Astroneer는 No Man’s Sky에 비해서 만족스러운 경험을 선사했을 가능성이 높다.

 

(3) No Man’s Sky와 Astroneer의 토픽을 구성하는 단어들은 Coherence가 0.3정도에 머무르는 등 비슷한 의미끼리 묶여있다고 보기는 힘들었으며 환불, 재미, 추천과 같은 감정을 대변하는 단어나 우주, 행성 등 게임을 설명하는 단어로 구성되어 있었다.

 

3.3. 네트워크 분석

 나는 분석 대상 게임인 No Man’s Sky의 리뷰에서 등장하는 각 단어의 관계성을 파악하기 위해 네트워크 분석을 진행하였다. 연결망 데이터를 matplotlib을 이용하여 시각화한 결과, 소수의 단어를 제외하고는 연결고리가 존재하지 않는다는 사실을 알 수 있다.

<그림13> No Man's Sky 리뷰데이터 네트워크 분석 결과

따라서 나는 네트워크 분석을 통해 다음과 같은 결과를 도출하였다.

(1) No Man’s Sky의 리뷰데이터에서는 유의미한 연결망이 도출되지 못했다. 나는 이러한 현상이 발생한 이유를 두고 각각의 리뷰가 하나의 문서처럼 목적을 지닌 채로 작성된 것이 아닌, 게임을 평가하기 위함이라는 추상적인 목적 아래 작성되어 토픽이 통일되지 못했기 때문이라고 추측하였다.

 

4.4. Word2Vec 및 동시발생빈도

 나는 No Man’s Sky의 리뷰데이터를 이용하여 동시발생빈도를 추출하였다. 동시발생빈도는 대상 단어와 함께 등장한 다른 단어를 표 형태로 보여주는 것을 말한다. 우리는 앞선 LDA분석 부분에서 No Man’s Sky의 주 토픽이었던 29번 토픽을 참고하여, 동시발생빈도를 "단어가 자주 등장한 순"으로 표시하였다. 그 결과는 아래 표와 같다.

대상단어 top2 top3 top4 top5 top6
행성 찾다 기지 전투 환경 동물
시간 해보다 플레이 되다 정도 구매
가격 세일 사다 할인 출시
환불 시간 해보다 만원 플레이 하다
만원 할인 구매 사다 가격 세일
우주 탐험 없다 전투 건설 생존
정도 되다 생각 플레이 좋다 사서
버그 부분 진행 이렇다 단점 추가
업데이트 좋다 생각 패치 모르다 재밌다
플레이 되다 정도 생각 구매 해보다
대상단어 top7 top8 top9 top10 top11  
행성 돌아다니다 만들다 종류 우주선 다니다  
시간 하다 만원 생각 받다 게임  
생각 구매 살다 사서 처음  
환불 게임 구매 되다 받다 정도  
만원 해보다 생각 추천 되다  
우주 요소 만들다 탐사 깊이 돌아다니다
정도 살다 기대 재밌다 추천 업데이트  
버그 재미 아쉽다 스토리 보다 깊이  
업데이트 지금 기대 정도 되다 들다  
플레이 사서 업데이트 평가 좋다  

 동시발생빈도를 활용하여 분석을 진행한 결과 “할인을 할 때 사야 하는 게임”, “환불하고 싶은 게임”이라는 부정적인 인식이 분명하게 존재한다는 사실을 발견했다. 한편 “업데이트가 기대되는 게임이다”라는 평도 존재하는 만큼 앞으로의 행보에 따라 게임의 평가가 긍정적인 방향으로 나아갈 여지가 존재했다.

 

 

5. 결론

본 연구에서는 이전에 진행한 연구의 아쉬운 점을 보완하기 위해 다양한 분석기법을 적용하여 심층적으로 게임리뷰를 분석했다. 이를 위해서 LSA, LDA분석을 통해 게임리뷰 대상군집과 비교군집에서 가장 영향력이 큰 토픽을 찾아보고자 하였으며, 네트워크 분석으로 게임리뷰 대상군집에서 사용한 단어의 관계성을 찾아보려는 시도를 진행하였다. 마지막으로 동시출현빈도를 사용하여 토픽 내 단어의 의미를 정확하게 파악하려고 시도했다. 본 연구에서는 위 시도를 바탕으로 세 가지의 결론을 도출하였다.

 

첫째, LSA 분석 결과, No Man’s Sky와 Astroneer의 리뷰데이터에는 각각 다른 토픽이 사용되었다. 두 개의 게임을 대상으로 동시에 LSA분석을 진행한 결과 영향력이 높으면서도 방향성이 다른 두 토픽이 등장하였으며, 이는 No Man’s Sky, Astroneer에 각각 LSA 분석기법을 사용한 결과 등장한 독립된 토픽과 상당히 유사한 모습을 보여주었다. 다만 LDA분석을 진행했을 때는 LSA분석을 진행했을 때와 다르게 눈에 띄는 결과를 확인하지 못했기 때문에 주의해서 받아들일 필요가 있다.

 

둘째, LDA의 Coherence, 그리고 네트워크 분석을 증거로 각 게임의 리뷰데이터에서 사용된 단어들은 의미 측면의 유사도가 크게 떨어진다는 사실을 확인하였다. No Man’s Sky의 리뷰데이터로 분석을 진행한 결과 토픽 내 단어의 의미가 유사한지를 측정하는 Coherence가 0.3 정도로 상당히 낮게 측정된 바 있었으며, 이는 토픽의 개수와 상관없이 모두 동일하였다. 게다가 네트워크 분석에서는 소수의 단어를 제외하고는 각각의 단어가 뿔뿔이 흩어져 있는 모습이 관측되었다. 이것은 '게임을 평가한다'는 추상적인 목적 아래 짧은 분량 속에서 많은 내용을 담아내야 하는 리뷰의 특성과 크게 관련이 있을 것이라 추측된다.

 

셋째, No Man’s Sky의 리뷰데이터에는 사용자의 불만족이 담겨있다는 사실을 확인할 수 있었다. 동시발생빈도를 사용하여 No Man’s Sky의 토픽을 해석한 결과 ‘때, 가격, 세일, 사다, 할인’이나 ‘만원, 할인, 구매, 사다, 가격, 세일’ 등 “할인을 할 때만 사야 하는 게임”이라는 강한 부정적 감정을 발견하였으며, ‘환불, 시간, 해보다, 만원, 플레이, 하다’ 등 “환불하고 싶은 게임”이라는 인식도 강하게 남아있다는 사실을 발견하였다. 다만 ‘업데이트, 좋다, 생각, 패치, 모르다, 재밌다, 지금, 기대’와 같은 동시발생단어가 존재하는 것을 근거로, No Man’s Sky가 지속적인 업데이트를 통해 소비자의 긍정적인 반응을 이끌어낼 여지가 충분히 남아있다는 희망도 발견할 수 있었다.