전문지식 함양/학습내용 정리

[대학수업] 텍스트데이터분석1

샤프펜슬s 2022. 6. 28. 15:57

0. 들어가며

 지금까지 나는 '겨울방학 인공지능 부트캠프 프로그램'이나 '통계자료처리론' 등 여러 활동 및 수업을 들으며 '가공된 데이터' 혹은 '가공되지 않지만 규칙에 맞게 정리된 정형 데이터'에서 인사이트를 발견하는 활동을 해보았다. 하지만 이런 활동에 참여할수록 문서와 같이 비정형적인 데이터는 어떻게 가공하고 분석하는지 궁금해지기 시작했다. 그래서인지 이번 수강신청에서 나는 '텍스트데이터분석'이라는 과목에 더욱 눈길이 갔던 것 같다. 비록 텍스트데이터분석 과목은 빅데이터처리와시각화 수업을 선수과목으로 권장하고 있었기에 수업내용을 따라가는데 많은 어려움이 예상되었지만, 대학 졸업을 얼마 남겨두지 않은 지금 나는 조금 어렵더라도 색다르면서도 재미있는 수업을 듣고 싶었기 때문에 수강을 결정하였다. 지금 돌이켜 생각해보면 텍스트데이터분석 수업을 듣기로 결정한 나를 칭찬해주고 싶다. 선수과목이었던 빅데이터처리와시각화는 텍스트데이터분석과 병행해서 듣는 것으로 타협하였다.

 텍스트데이터분석은 중간평가의 경우 프로젝트로 대체하였고, 기말평가는 지필고사 방식으로 진행되었다. 본래 기말평가는 중간평가에서 진행한 분석을 발전시켜 발표하는 방식이었으나, 모든 수업이 대면으로 전환되면서 발표는 기말평가 이후 과제 제출로 변경되었다. 지금부터 블로그에 게시할 내용은 내가 중간평가 때 제출했던 보고서와 기말평가 때 작성했던 보고서로 총 두 개의 게시물이다. 각 보고서 목차는 1. 연구배경 : 연구주제 선정 및 이유 - 2. 관련연구 : 사용된 기술 설명 - 3. 분석방법 : 분석 방법 및 절차 - 4. 실험내용 : 실험내용 - 5. 결론 : 결론 및 한계점 서술 순으로 진행된다. 그러나 수업내용이 다수 포함되어 있어 저작권 문제가 발생할 우려가 있는 부분인 2. 관련연구는 게시물에서 제외할 것이며, 본 분석에서 사용된 Python 코드는 국민대학교 연구실에서 사용하는 코드 및 일부 저서에서 사용되었으므로 게시를 자제해달라는 교수님의 말씀에 따라 게시하지 않는다.

 본 보고서를 참고하는 사람이 있을지는 모르겠지만, 혹여나 발생할 문제를 위해 언급해둔다. 본 자료는 2022학년 1학기 텍스트데이터분석 중간평가 및 기말과제로 사용된 자료로, 참고 이상의 행위(본 게시물로 금전적, 비금전적 이익을 취하는 행위 일체 등)를 하는 것을 엄격히 금지한다. 

 

 

주제 : 게임리뷰 텍스트데이터 분석을 통한 객관적인 게임평가 : Steam 게임을 중심으로

 

 

1. 연구배경

 게임산업은 꾸준한 성장세를 보이고 있다. 한국콘텐츠진흥원이 발간한 ‘2021 대한민국 게임백서’에 따르면 -0.3의 성장률을 보였던 2013년도를 제외하고, 게임산업은 2011년부터 2020년까지 꾸준한 성장세를 유지하였다. 특히 2020년도 게임산업은 코로나19의 영향으로 인해 21.3%라는 기록적인 성장률 수치를 달성하였다[각주:1]. 이는 게임이 오랜 시간에 걸쳐서 대중의 생활 속에 자리잡으며 영향력을 강화하고 있다는 것을 보여준다.

 여기서 주목할 만한 부분은 PC게임을 이용하는 소비자 중에서 게임을 구매해서 즐기는 사람들이 많은 비중을 차지한다는 점이다. 한국콘텐츠진흥원에서 작성한 ‘2020년 게임이용자 실태조사 보고서’에서는 PC게임 이용자 중 84.1%는 Steam 등 온라인을 통해 게임을 구매한다고 답했다[각주:2]. 해당 내용으로 우리는 게임을 이용하는 소비자들에게서 ‘콘텐츠를 구매한다’는 거부감이 많이 사라졌다는 사실을 알 수 있으며, 게임산업이 꾸준하게 성장하고 있는 만큼 Steam 등의 플랫폼을 이용해서 게임을 구매하는 소비자의 비율 또한 증가할 것으로 예측한다.

그러나 증가하는 게임 콘텐츠 소비에 비해서, 소비자는 내가 즐길 게임을 구매하기 전에 객관적인 시선에서 확인할 수 있는 방법이 적다는 한계가 존재한다. 소비자가 게임을 평가하는 방법은 대표적으로 (1) 다른 사람이 작성한 게임 후기 및 평점을 확인하거나, (2) 게임을 전문적으로 다루는 평론가의 점수를 확인하는 방법 두 가지가 있다. 여기서 ‘다른 사람들이 작성한 게임 후기 및 평점을 확인하는 방식’은 이미 후기 및 평점에 다른 사람의 주관이 개입되었기 때문에 소비자가 자칫 왜곡된 제품상을 지닐 위험이 존재한다.

 두 번째 방식인 ‘게임을 전문적으로 다루는 평론가의 점수를 확인하는 방식’도 평론가의 점수가 소비자의 관점을 완벽히 반영해주지 못한다는 비판에 휩싸이며 신뢰성을 잃고 말았다. 대표적으로 최근 기대작으로 주목받았던 ‘사이버펑크 2077’의 사례를 들 수 있는데, 세계 게임 비평 커뮤니티 메타크리틱, 오픈크리틱에서는 91점으로 ‘수작’이라는 평가를 받았음에도[각주:3]실제 발매가 되자 잦은 버그, 미숙한 게임의 완성도 등으로 인해 소비자에게 많은 실망을 주었다. 이처럼 소비자가 판단할 수 있는 두 가지 방법은 각각 약점을 지니며 소비자의 합리적인 선택을 방해하고 있다.

따라서 본 연구에서는 방대한 Steam 게임 리뷰 데이터를 바탕으로 개인의 주관성 속에서도 형성되는 집단의 공통적인 의견을 파악하여 보다 객관적으로 게임을 평가할 수 있도록 할 것이다. 이는 궁극적으로 소비자가 자신의 게임 성향에 맞추어 손쉽게 구매 예정인 게임의 가치를 판단하고, 구매 선택을 보조하는 역할을 수행하리라 기대한다.

 

 

2. 제안방법

본 장에서는 게임리뷰 텍스트데이터 분석 진행 절차를 제시한다. 분석은 (1) 형태소 분석, (2) 워드클라우드 분석, (3) TF-IDF 분석 순으로 진행된다.

 

2.1. 형태소 분석 : 대상 게임의 리뷰에서 자주 등장한 명사의 빈도를 파악하여, 게임의 모습을 대략적으로 유추해본다. 명사의 문구와 빈도, 주변 단어와의 연관성 등을 종합적으로 고려하여 게임에 대한 소비자의 주요 인식을 예측한다.

 

2.2. 워드클라우드 분석 : 형태소 분석 과정을 통해 게임의 대략적인 인식을 파악하였다면, 이번에는 텍스트데이터를 워드클라우드로 구성하여 게임에 대한 소비자의 인식을 이전보다 더욱 명확하게 시각화한다. 단순 그래프만으로 잘 나타나지 않았던 소비자의 심리를 ‘워드클라우드’ 형태로 표현하면, 드러나지 않았던 소비자의 심리를 더 쉽게 확인할 수 있을 것이다.

 

2.3. TF-IDF 분석 : 형태소 분석과 워드클라우드 분석을 통해 우리는 게임에 대한 소비자의 인식을 파악할 수 있었다. 그러나 ‘소비자가 대상 게임에게만 느끼는 차별적인 감정 및 특징’ 등은 여전히 파악하기 어렵다는 한계를 지니고 있다. 따라서 본 연구에서는 ‘비슷한 장르의 다른 게임’과 ‘대상 게임’을 비교하는 형태로 TF-IDF분석을 진행해야 한다고 판단하였다. 가령 두 게임의 리뷰에서 쉽게 등장하리라 예상되는 가치(‘재미’, ‘흥미’ 등)는 IDF로 인해 낮은 가중치를 받을 것이며, 반대로 각 게임이 지닌 고유한 특징은 높은 가중치로 측정되어 각 게임의 특징을 자세히 알 수 있을 것이다. 본 연구에서는 이러한 과정을 거쳐 리뷰데이터를 활용한 텍스트데이터 분석에서 더욱 객관성을 확보하고자 한다.

TF-IDF 분석을 통해 각 리뷰데이터에서 등장하는 용어의 빈도를 계산하여 전체 문서에서 해당 단어가 얼마나 영향력이 큰지를 파악하고, 보다 가치 있는 단어를 추출해내고자 한다. 만약 TF만 활용할 경우 단어의 빈도수로 인해 결과가 왜곡될 수 있으므로, 각 단어의 가중치인 IDF를 곱하여 빈도수로 인한 결과왜곡의 한계를 해결한다. 동시에 각 리뷰데이터의 양에 따라 문서의 영향력이 다르게 측정되는 문제를 해결하고자 L2정규화를 적용한다.

위 세 개의 절차를 요약하면 아래 <그림1>과 같다.

<그림1> 제안방법론 도식화

 

 

3. 실험내용

대상 게임은 세 가지의 기준에 입각하여 선정하였다.
(1) 게임 이용가능 연령이 19세 미만인가 (19세 이상 게임은 웹크롤링이 진행되지 않으므로)
(2) 사이트에서 제공하는 유저의 평가와 게임평론가가 평가한 메타크리틱 점수 간 괴리가 존재하는가
(3) 발매 후 3년 이상의 시간이 지나 충분한 리뷰데이터가 축적되었는가

그 결과, 분석 대상으로 선정된 게임 및 사이트는 아래와 같다.

대상 사이트 Steam
대상게임 No Man’s Sky
사이트에서 제공하는 종합평가 대체로 긍정적
메타크리틱 점수 61점 (’22. 4. 19.기준)
발매일자 ’16. 8. 12.
추출된 리뷰 개수 1515 (’22. 4. 19.기준)

게임리뷰는 쉬운 의미 해석 등 여러 요인을 고려하여 한국어 리뷰로 분석을 진행하였다.

 

3.1. 형태소 분석

형태소 분석에서는 대상 게임의 리뷰에서 자주 등장한 단어의 빈도를 파악하여, 이용자가 생각하는 게임의 모습을 대략적으로 유추한다. 형태소 분석 시 komoran 형태소 분석기를 사용하였고, ‘버그’, ‘꿀잼’과 같은 신조어 혹은 처리 곤란 단어들은 의도한 대로 분석이 되지 않아, komoran 내 user_dict.txt라는 사전을 만들어 적용하였다. user_dict.txt에 적힌 단어 및 처리 품사는 아래와 같다.

처리 불능 단어 처리한 품사 비고
버그 NNP 본래는 버+그로 처리됨
노가다 NNP 본래는 노+가+다로 처리됨
개꿀 NNP 본래는 개+꿀로 처리되었음.
엔피씨 NNP 본래는 엔+피씨로 처리됨.
노획 NNP 본래는 노+획으로 처리됨
노답 NNP 본래는 노+답으로 처리됨
악평 NNP 본래는 악+평으로 처리됨
졸작 NNP 본래는 졸+작으로 처리됨
노맨즈스카이 NNP 게임명
장땡 NNP 본래는 장+땡으로 처리됨
아스트로니어 NNP 게임명

 형태소 추출 후 태깅이 완료된 토큰 중 우리는 명사만을 추출하여 빈도분석을 실시하였다. 본래는 동사 및 형용사의 추출도 고려하였으나, 동사와 형용사는 명사보다도 전후의 문맥에 따라 의미가 변화하는 정도가 매우 커서 고민 끝에 추출대상에서 제외하였다. 예컨대 ‘하다’라는 동사는 ‘게임을 하다’, ‘숙제를 하다’ 등 전후 맥락에 따라 의미의 차이가 크다.

추출된 단어를 그래프 형태로 시각화하여 일차적으로 출력을 확인했을 때, 게임의 이미지를 대변하지 못하는 단어 몇 개를 발견하여 이를 금지어로 포함시켜 출력결과에서 제외하였다. 형태소 분석을 실시한 후 가장 빈도수가 높은 30개의 단어를 그래프로 표현한 결과는 <그림2>와 같다.

<그림2> 형태소 분석 결과 - No Man's Sky Review Data

3.2. 워드클라우드 분석

3.1. 형태소 분석 때 진행했던 방식과 같이 워드클라우드에서도 ‘명사’만을 추출하여 사용하였다. 추출된 명사의 빈도를 토대로 간략하게 그래프로 그린 결과는 <그림3>에서 확인할 수 있다.

<그림3> 워드클라우드 등장 단어 파악

<그림3>을 살펴보면 ‘게임’이라는 단어가 약 1750번 등장하면서 압도적으로 1등을 차지하였고, 두 번째로 ‘행성’이라는 단어가 약 400번 등장하며 1등 단어와 큰 차이를 보이고 있다. ‘게임’이라는 단어는 게임을 평가하는데 도움이 되지 않으므로 금지어 목록에 포함시켜 워드클라우드에서 제외하였다. 워드클라우드를 출력한 결과는 아래 <그림4>에서 확인할 수 있다.

<그림4> 워드클라우드 출력 결과 (이미지 : joystick.jpg)

나는 <그림2> 및 <그림4>을 토대로 아래와 같은 결론을 도출하였다.

(1) 행성, 우주, 함선, 우주선 : 해당 게임은 ‘행성’, ‘함선’ 등 우주와 관련된 게임이라는 사실을 알 수 있다.
(2) 시간 : 해당 게임은 즐기는데 상당한 수준의 시간을 요구 받거나, 시간이 삭제된다고 말할 수 있을 만큼 재미있을 것으로 추측된다. ‘노가다’라는 단어가 13번째로 많은 빈도로 등장한 것을 보아 전자의 의미가 더욱 강하다는 사실을 알 수 있다.
(3) 환불 : 해당 게임을 이용했던 소비자는 환불을 고려하고 있을 만큼 게임 이용에 불만족함을 느꼈을 가능성이 높다.

 

3.3. TF-IDF 분석

 TF-IDF 분석에서는 대상 게임 No Man’s Sky이 지닌 특징을 더욱 명확히 알기 위하여 유사한 장르의 게임의 리뷰데이터를 이용하여 비교분석 하는 실험을 진행한다. 비교군 게임에 관한 정보는 아래 표와 같다.

대상 사이트 Steam
대상게임 Astroneer
사이트에서 제공하는 종합평가 대체로 긍정적
메타크리틱 점수 71점 (’22. 4. 19.기준)
발매일자 ’19. 2. 6.
추출된 리뷰 개수 3631 (’22. 4. 19.기준)

TF-IDF 분석에서도 명사만 추출하여 분석을 진행하였다. 또한 게임 평가와 직결되지 않을 것이라 판단한 몇 개의 단어는 금지어로 편성하여 TF-IDF결과값에서 제외하였다. 금지어는 ‘스카이’, ‘다이슨’, ‘스피어’, ‘게임’, ‘진짜진짜’, ‘플레이’, ‘생각’, 정도, ‘우주’, ‘행성’으로 총 10개의 단어이다.

 두 리뷰 데이터를 형태소 분석 때와 같이 태깅을 진행한 후 명사만을 추출하였다. 이후 분석의 용이성을 위해 문서를 띄어쓰기로 구분된 명사 단어 모음으로 구성하고 두 텍스트 리뷰 문서를 하나의 리스트로 합쳐 TF-IDF를 계산하였다. 마지막으로 계산된 TF-IDF를 크기 순으로 10개씩 추출하여 그래프로 나타냈다. No Man’s Sky의 TF-IDF 분석결과는 <그림5>에서, Astroneer의 TF-IDF 분석은 <그림6>에서 확인할 수 있다.

 

<그림5> No Man's Sky의 TF-IDF 분석결과 (크기순, 10개)
<그림6> Astroneer의 TF-IDF 분석 결과 (크기순, 10개)

나는 <그림5> 및 <그림6>을 토대로 아래와 같은 결론을 도출하였다.

(1) No Man’s Sky의 TF-IDF에서는 ‘시간’, ‘노가다’와 같은 단어가 높은 수치를 보였는데, 이를 통해 대상 게임은 혼자서 오랜 시간을 투자해야 하는 방식이라고 추측할 수 있었다. 또한 ‘환불’, ‘만원’, 버그’처럼 부정적인 단어의 수치가 높게 잡히는 것을 발견하였다.
(2) Astroneer의 TF-IDF를 크기 순으로 나열한 결과, ‘친구’, ‘멀티’라는 단어가 높은 수치를 보이는 등 Astroneer라는 게임이 다른 사람들과 함께 즐길 수 있는 게임이라는 사실을 알 수 있다. 게임을 진행하는데 ‘버그’가 많은 방해요소로 작용할 것이라고 예상되지만, No Man’s Sky와는 다르게 ‘재미’, ‘추천’이라는 단어가 존재하는 것으로 보아 사람들의 평가 자체는 긍정적이라는 사실을 짐작할 수 있다.

 

 

4. 결론

 본 연구에서는 게임 플랫폼 Steam에서 이용자들이 작성한 게임 ‘No Man’s Sky’의 리뷰데이터를 사용하여 객관적으로 게임을 평가하고자 하였다. 이를 위해 형태소 분석과 워드클라우드 분석을 이용하여 이용자들이 대상 게임에게 갖고 있는 이미지를 파악하였고, 더 나아가 TF-IDF 분석에서는 대조군 게임 ‘Astroneer’의 리뷰데이터를 이용하여 대상 게임만이 갖고 있는 차별화된 특징을 추출하고자 노력하였다. 그 결과를 바탕으로, 우리는 아래 세 가지의 결론을 도출하였다.

첫째, 대상 게임은 우주를 배경으로 펼쳐지는 이야기로, 많은 시간과 노력이 필요한 게임이라는 사실을 알 수 있다.
둘째, 대상 게임은 책정된 가격만큼 소비자에게 만족감을 주고 있지 못하고 있다.
셋째, 대상 게임은 업데이트를 통해서 많은 개선이 이루어지고 있음을 알 수 있다.

 특히 두 번째 결론은 해당 게임 리뷰사이트에서 제공하는 ‘대체로 긍정적’이라는 평판과는 거리가 멀다는 사실을 알 수 있다. Steam에서는 리뷰와 함께 소비자들이 매긴 추천 혹은 비추천을 종합하여 평가하는데, 둘 중 어느 정보가 소비자의 의견을 잘 대변하고 있는지에 대해서는 추가 연구가 필요하다. 개인적으로는 추천 혹은 비추천과 같은 단편적인 정보를 종합하기보다는, 여러 복합적인 정보가 내재된 소비자의 리뷰데이터를 활용한 분석이 소비자의 솔직한 의견을 잘 대변해줄 가능성이 높다고 생각한다.

 마지막으로 본 연구를 진행하면서 겪었던 한계점과 함께 두 가지를 제안하고자 한다.

(1) 본 연구는 Steam의 리뷰데이터만을 이용하여 텍스트데이터분석을 진행하였다. 여러 사람들의 주관적인 의견을 취합하여 객관성을 확보하고자 했지만, 단일 사이트만을 대상으로 분석을 진행하여 편협한 시선의 결과물이 나올 가능성도 충분히 존재한다. 따라서 다음 연구에서는 하나의 리뷰사이트만을 대상으로 분석하는 것이 아닌, 여러 리뷰사이트 및 일반 커뮤니티 사이트로 분석대상을 확대하여 공정성을 확보할 것을 권장한다.
(2) 게임을 즐긴 시간과는 상관없이 모든 리뷰를 동등한 가치에서 바라보았으므로, 집단의 악의적인 리뷰테러와 같은 상황에서는 텍스트데이터분석을 진행하더라도 객관성 훼손의 문제에 자유로울 수 없다. 그러므로 게임을 즐긴 시간 등 다양한 요소를 가중치에 반영하여 분석을 진행할 것을 권장한다.

  1. 박예진. (’21. 12. 20.). 코로나19로 경제 역성장에도…게임 시장 20%↑. 아이뉴스. https://www.inews24.com/view/1434147 [본문으로]
  2. 윤민혁. (’20. 8. 7.). 한국인 10명 중 7명은 '게이머'... 코로나로 이용시간·지출 늘었다. ChosunBiz. https://biz.chosun.com/site/data/html_dir/2020/08/07/2020080701342.html [본문으로]
  3. 오시영. (’20. 12. 8.). 사이버펑크 2077 91점 평점 속 비판 "버그·최적화 개선해야". ITChosun. http://it.chosun.com/site/data/html_dir/2020/12/08/2020120802008.html [본문으로]