0. 들어가며
나는 평소 데이터 속에서 새로운 인사이트를 찾아내는 것을 좋아한다. 그래서 이번 ‘빅데이터처리와시각화’라는 수업은 내게 흥미롭게 다가왔다. 회귀분석과 같은 복잡한 원리를 도입하지 않고서도 평균과 최소/최댓값 등을 이용해 색다른 결과를 얻어낼 수 있었기 때문이다. 다만 중간 및 기말평가, 그리고 팀 프로젝트에서 1인분을 해내기 위해서는 이 수업을 수강하기 이전에 pandas와 numpy, matplotlib 등 python 관련 라이브러리를 미리 학습해올 것을 권장한다. 한 학기 수업만으로는 위 라이브러리를 완벽하게 사용하기는 어려울 것이다.
‘빅데이터처리와시각화’의 수업내용은 과목명 그대로 데이터의 처리 및 시각화의 기초를 가르쳐주시므로 매우 중요하다. 그러므로 내가 팀 프로젝트에 사용했던 관련 코드와 함께 팀플 내용을 정리 및 업로드하여 금년도 학습한 내용을 잊지 않도록 할 것이다.
1. 최종 선정 주제 : 서울시 여성 안전 정책 보완 대책 분석
2. 팀원 : 3명 (데이터 전처리 1명, 데이터 분석 및 시각화 1명, 프로젝트 정리 및 발표 1명)
수업 내용 정리는 내가 담당했던 “데이터 분석 및 시각화”를 기준으로 기술한다.
3. 프로젝트 기간 : 4학년 1학기 중 (2022년 5월 4일 ~ 2021년 6월 15일(발표))
4. 수행절차
수행절차는 아래와 같다.
① 주제선정 - ② 데이터 전처리 - ③ 데이터 분석 및 시각화 - ④ 프로젝트 정리 및 발표
① 주제선정
우리는 총 두 번 주제를 변경하였다. 한 번은 “효율적인 전기차 충전소 배치 전략”이라는 주제였는데, ‘04월 서울시 교통량 조사자료(2022)와 ‘서울시 행정동별 친환경자동차 현황’, ‘한국전력공사_서울시 전기차 충전소 충전량’의 csv데이터가 공공데이터포탈에 있었기 때문이다. 그러나 다양한 데이터를 사용하여 여러 인사이트를 도출해보고 싶었던 우리는 위 3개의 데이터 외에는 참고할 만한 것이 없었던 전기차 주제는 적합하지 않다고 결론을 내렸다.
두 번째는 최근 이슈로 떠오른 ‘장애인 이동권 문제’와 관련하여 각 지하철역별로 장애인 관련 시설이 제대로 갖춰져 있는지를 파악해보고자 하였다. 참고할 가치가 있다고 판단한 데이터는 아래와 같다.
- 서울시 장애인 현황 (장애유형별/동별) 통계
- 서울교통공사 엘리베이터 설치(위치) 정보
- 서울교통공사 휠체어경사로 설치 현황
- 서울교통공사 휠체어리프트 설치 정보
- 서울교통공사 역별 개집표기 설치 정보
- 서울특별시 지하철 호선별 역별 유/무임 승하자 청보
두 번째 주제는 첫 번째 주제에 비해 참고할 데이터도 많았으며, 주제에 관심을 가지게 된 이유가 명확하고, 의미 있는 인사이트가 도출될 것이라는 기대가 있었다. 그래서 우리는 교수님께 해당 주제를 최종 선정한다고 알려드렸다.
하지만 이 주제는 본격적으로 조사가 시작하면서부터 문제가 발생했다. “데이터상으로는” 지하철 역에 장애인 보조장치가 잘 설치되어 있었던 것이다. 설치가 미비했던 장소도 지하철역의 구조 한계상 설치하지 못했던 경우가 대다수였다. 우리 팀은 이 주제에서 유의미한 인사이트를 도출해내기 위해선 직접 지하철역을 다녀보는 방법밖에 없다는 결론을 내렸다. 이 경우 짧은 프로젝트 기간에 비해 들어가는 시간이 많아 위험부담이 컸다. 게다가 수집하는 데이터의 특성상 정성적 데이터가 많아질 텐데, 그렇게 되면 정작 수업시간에 배웠던 데이터 처리 및 분석, 시각화를 발표에서 효과적으로 보여주기 어려울 것이라고 생각했다. 따라서 우리는 부득이하게 주제를 변경할 수밖에 없었다.
마지막으로 우리가 시간에 쫓겨 가면서 선택한 주제는 “서울시 여성 대상 안전 정책 보완 대책 분석”이었다. 이 주제는 수업에서 알려주셨던 것처럼 최솟값과 최댓값, 평균 등을 이용하여 인사이트를 도출하는 방식은 아니었다. 하지만 여러 가지 데이터를 바탕으로 우리 나름의 기준을 세워서 새로운 값을 내놓은 뒤 이를 토대로 현재 서울시에서 진행되는 여성 관련 정책의 개선점을 내놓는 것이므로, 빅데이터 속에서 새로운 인사이트를 도출하는 빅데이터처리와시각화 수업의 본질에 알맞다고 판단하였다. 그래서 우리는 해당 주제를 최종 선정하였다.
② 데이터 전처리
이번 주제에서 사용한 데이터의 개수는 13개로 데이터 전처리를 담당했던 팀원의 역할이 무엇보다 중요했다. 데이터 분석에 사용된 자료는 아래와 같다.
- 서울시 시군구 단위 성/연령별 1인가구 수 정보
- 서울시 여성 안심 택배함 설치 장소
- 서울시 안심택배함 이용실적 통계
- 서울시 안심귀가 스카우트 이용현황
- 서울시 여성안심지킴이집 정보
- 서울시 5대 범죄 발생현황 통계
- 서울시 시내주요기관(경찰 및 소방서) 통계
- 서울시 도로시설물 통계
- 서울시 자치구 목적별 CCTV 설치 수량
- 서울시 안심이 CCTV 설치 현황
- 자치구별 택배 착지 데이터
- 서울시 및 자치구 면적 데이터
- 서울시 성범죄 피해자 현황
데이터 전처리의 목적은 데이터 분석 시 문제가 될 수 있는 이상치 및 결측치를 삭제하고, 데이터 분석이 용이하도록 데이터의 구조까지 변경해주는 것이라 생각한다. 특히 사용하는 데이터의 수가 매우 많다면 데이터 분석이 용이하도록 양식을 하나로 통일할 필요가 있었다. 그러나 이번 데이터 전처리는 이상치 및 결측치만 삭제되었을 뿐 양식의 통일이 진행되지 않았고 심지어 어떤 데이터는 전처리 자체가 진행되지 않았다. 이는 데이터 전처리를 담당하는 팀원과의 소통이 원활하지 않았기 때문인데, 관련 내용은 후술한다.
③ 데이터 분석 및 시각화
데이터 분석에서는 (1) 치안도 계산과 (2) 여성안심택배함 위치 선정, (3) 여성안심지킴이집 위치 선정, (4) 여성안심귀가스카우트 인원 배치 등 네 가지 분석이 진행되었다. 여기서 (3), (4)번은 동일한 수치를 가지고 결론을 도출하기 때문에 실질적으로 많은 시간을 쏟은 분석은 (1) 치안도 계산과 (2) 여성안심택배함 위치 선정이었다.
(1) 치안도 계산
치안도는 각 자치구별로 계산했다. 치안에 관련이 높다고 생각하는 요소를 팀원과 함께 고민한 결과, (1) 범죄율, (2) 시설물(CCTV, 가로등), (3) 치안유지기관 등 세 가지 요소가 선정되었다.
(1.1) 범죄안전지수
사용된 범죄 종류는 총 5개로 살인, 강도, 강간강제추행, 절도, 폭행이다. 우리는 각 범죄를 (각자치구별 범죄 발생 수 / 서울시 전체 범죄 발생 수) 공식을 이용하여 서울시 자치구별 범죄율을 계산하였다. 이후 각 범죄율에 순위를 매기는데, 여기서 주의할 점은 범죄율이 낮을수록 높은 순위를 매겨야 한다는 것이다. 마지막으로 매겨진 순위에서 자치구의 개수만큼 나누어 0 ~ 1의 지수로 만들어준 후 모두 더해주었다. 따라서 범죄안전지수는 다섯 가지의 범죄를 대상으로 진행했으므로 0(범죄가 자주 발생함) ~ 5(범죄가 발생하지 않음)사이의 지수가 산출된다.
범죄안전지수 계산 공식을 정리하면 아래와 같다.
Sum({각 자치구별 범죄 발생 수 / 서울시 전체 범죄 발생 수)}.rank(ascending = False) / (전체 자치구 수))
자치구 | 살인_안전지수 | 강도_안전지수 | 강간강제추행_안전지수 | 절도_안전지수 | 폭행_안전지수 | 범죄안전지수_합계 |
종로구 | 0.24 | 0.18 | 0.48 | 0.72 | 0.6 | 2.22 |
중구 | 0.9 | 0.5 | 0.56 | 0.36 | 0.8 | 3.12 |
용산구 | 0.54 | 0.32 | 0.36 | 0.76 | 0.72 | 2.7 |
성동구 | 0.54 | 0.8 | 0.92 | 0.84 | 1 | 4.1 |
광진구 | 0.9 | 0.64 | 0.32 | 0.32 | 0.64 | 2.82 |
(1.2) 시설물지수 : CCTV, 가로등, 경찰서
치안도를 산출할 때 CCTV와 가로등 설치 현황이 사용된 이유는 CCTV와 조명이 범죄예방 효과를 높인다는 연구 결과에서 기인한다. 다만 시설물 지수의 산출은 각 순위별로 일정한 간격의 점수를 부여했던 범죄안전지수 계산과는 다르게 조금 더 민감하게 접근할 필요가 있다고 판단했다. 예컨대 다른 지역에 비해 A자치구가 가로등을 많이 설치했다고 해서 A자치구의 모든 지역이 밝다고 이야기할 수 없다. 반대로 B자치구가 다른 지역에 비해 가로등을 적게 설치했다고 해서 가로등이 부족하다고 이야기할 수도 없다. 그 지역은 본래 협소해서 현재 설치된 가로등만으로도 충분할 가능성이 있기 때문이다.
우리 팀은 위 가능성을 고려하여 시설물 현황을 계산할 때 각 자치구의 면적 구성비를 사용하였다. 자치구 면적 구성비에 ‘각 자치구별 가로등 설치 대수’, ‘각 자치구별 경찰서 및 지구대파출소치안센터 합계’, ‘각 자치구별 방법 목적 CCTV 설치 대수’를 곱한 것이다. 이것은 자치구 면적 당 시설물의 개수를 파악하여 시설물 대수를 객관적으로 파악하기 위함이었다. 그다음, 이렇게 계산된 자치구 면적 당 시설물 대수에 순위를 매겨 총 자치구 개수만큼 나누어주었다. 시설물 현황의 산출 공식은 아래와 같다.
Sum({(각 자치구별 면적 * 각 자치구별 시설물 개수)}.rank(ascending = True) / (전체 자치구 수))
위와 같이 계산한 후, 시설물 지수를 모두 더하여 최종 지수를 산출한다. 각 시설물별로 0~1의 수치를 가지고 있으므로 총합산은 0(면적당 시설물이 가장 적음) ~3(면적당 시설물이 가장 많음)의 값을 가진다.
자치구 | 가로등_지수 | 치안유지기관_지수 | cctv_지수 | 치안지수_합계 |
종로구 | 0.76 | 0.72 | 0.28 | 1.76 |
중구 | 0.12 | 0.12 | 0.04 | 0.28 |
용산구 | 0.6 | 0.32 | 0.4 | 1.32 |
성동구 | 0.28 | 0.24 | 0.44 | 0.96 |
광진구 | 0.08 | 0.2 | 0.32 | 0.6 |
팀플 내용을 정리하던 중, 자치구의 면적을 고려한 시설물 지수를 계산할 때 내가 한 가지 간과한 점이 있다는 사실을 발견했다. 아래 표를 확인해보자.
면적(m^2) | 면적구성비(%) | 시설물 대수 | 시설물대수 * 면적구성비 |
시설물대수 / 면적 |
5000 | 0.5 | 5000 | 2500 | 1 |
3000 | 0.3 | 4000 | 1200 | 1.333333 |
2000 | 0.2 | 3000 | 600 | 1.5 |
실면적과 면적구성비, 시설물 대수를 이용하여 계산을 진행한 결과이다. (시설물대수 * 면적구성비)는 우리가 팀프로젝트에서 사용된 계산식이며, (시설물대수 / 면적)은 말 그대로 ‘면적당 시설물대수’이다. 두 계산 결과를 비교하면 첫 번째 계산식 결과가 면적당 시설물 대수에 비해 왜곡이 심한 것을 확인할 수 있다. 이미 종료된 프로젝트이므로 어쩔 수 없지만, 앞으로 같은 실수를 반복하지 않도록 잘못을 언급해둔다.
(1.3) 치안도 산출
위의 과정을 거쳐서 계산된 (1) 범죄안전지수와 (2) 시설물 지수를 모두 합산하여 최종 치안도를 산출한다. 범죄안전지수는 0 ~ 5의 값을 가지며, 시설물지수는 0 ~ 3의 값을 가지므로, 치안도는 둘을 합산한 값인 0 ~ 8의 값을 지녀야 한다. 치안도를 산출하면서 가장 많이 고민되었던 부분은, 범죄안전지수와 시설물지수의 비중이 동일하지 않은 점이었다. 그러나 일반적으로 ‘치안이 좋다’는 평가는 범죄예방시설이 많은 곳보다 실제 범죄율이 적은 곳을 두고 그렇게 이야기할 가능성이 높을 것이다. 따라서 우리는 두 수치의 반영 비율이 5:3의 비율이면 나쁘지 않다고 생각하였고, 단순합산을 진행하였다.
자치구 | 범죄안전지수_합계 | 치안도 |
종로구 | 2.22 | 3.98 |
중구 | 3.12 | 3.4 |
용산구 | 2.7 | 4.02 |
성동구 | 4.1 | 5.06 |
광진구 | 2.82 | 3.42 |
(2) 여성안심택배함 위치 선정
여성안심택배함 위치 선정에는 총 세 가지를 고려한다. 먼저 자치구별 치안도는 범죄안전지수와 시설물지수를 합한 지수로 앞선 ‘치안도’ 부분에서 계산하였다. 두 번째로 자치구별 택배의 수요를 파악하기 위해 ‘자치구별 택배 물류량 데이터’를 사용하였다. 본래 ‘자치구별 택배 물류량 데이터’는 가구/인테리어, 도서/음반 등 다양한 분야로 나뉘어 있다. 그러나 편견이 개입될 가능성이 높은 생각은 최대한 배제하기 위해 합계 데이터만을 사용하였다. 세 번째로 자치구별 여성 1인 가구수는 각 자치구별 여성 관련 정책의 실수요자를 파악하기 위해 사용되었다. 이때 우리는 경찰청 성범죄 피해 현황을 이용해서 연령별로 가중치를 두어 계산하였는데 이것은 범죄 위험에 가장 많이 노출된 연령대의 비중을 높여 여성정책의 예상 최대 수혜자를 파악하고, 실수요자 계산에 반영하기 위함이었다.
(2.1) 자치구별 택배 착지 데이터 : 택배지수
택배 착지 데이터 계산에서 가장 신경을 쓴 부분은 “각 자치구별 택배 물류량을 효과적으로 반영하는 방법”이었다. 이는 곧 범죄율처럼 단순하게 순위를 매긴 후 지수를 산출하는 방식이 유효하지 않다는 것을 의미한다. 그러므로 우리는 가장 많은 택배 물류량의 수치를 이용하여 각 자치구별 택배 물류량 수치를 나누었다. 이렇게 될 경우 택배지수는 0(전혀 없음) ~ 1(가장 많음)안으로 표현하는 것이 가능할 뿐만 아니라 가장 많은 수치를 보인 자치구를 기준(1)으로 하여, 각 자치구별 물류량을 효과적으로 보여줄 수 있다. 사용한 계산 공식은 아래와 같다.
(각 자치구별 택배 물류량) / (가장 많은 택배 물류량)
자치구 | 택배지수 |
종로구 | 0.889564 |
중구 | 0.935563 |
용산구 | 0.74162 |
성동구 | 0.901464 |
광진구 | 0.668633 |
(2.2) 자치구별 여성 1인 가구수 및 경찰청 성범죄 피해 현황 : 여성지수
자치구별 여성 1인 가구수를 이용하는 방법으로는 두 가지가 논의되었다. 하나는 자치구별 여성 1인 가구수 데이터를 그대로 이용하는 방법이다. 이 경우 모든 연령대가 여성지수에 동일하게 반영된다는 장점이 있으나, 팀 내에서는 ‘과연 모든 연령대를 동일하게 취급해야 하는가’에 대해 많은 이야기가 오갔다. 따라서 우리 팀은 긴 이야기 끝에 각 연령대에 가중치를 둔 후 계산하자고 결론을 내렸다. 그리고 그 기준으로 ‘경찰청 성범죄 피해 현황’ 데이터를 사용하기로 했다.
자치구 | 20세미만 | 여자_30세이하 | 여자_40세이하 | 여자_50세이하 | 여자_60세이하 | 여자_60세초과 | 합계 | 여성가구지수 |
종로구 | 174.3637 | 4004 | 795.5554 | 344.5438 | 224.3155 | 304.9441 | 5847.723 | 0.16708 |
중구 | 194.8383 | 3095 | 774.9151 | 293.6192 | 208.8052 | 284.1732 | 4851.351 | 0.138612 |
용산구 | 272.1131 | 5143 | 1583.506 | 578.0628 | 312.374 | 432.1563 | 8321.213 | 0.237752 |
성동구 | 286.6434 | 6113 | 1391.95 | 563.8406 | 357.2371 | 511.2836 | 9223.955 | 0.263545 |
광진구 | 225.2198 | 11594 | 2500.006 | 747.3526 | 501.9998 | 580.0634 | 16148.64 | 0.461396 |
경찰청 성범죄 피해 현황 중 가장 최신 날짜였던 2020년의 데이터를 가져온 뒤, 이들 중 가장 높은 수치로 나눈다. 이렇게 되면 범죄피해자가 가장 많은 연령대는 1로 표시가 될 것이며, 범죄 피해를 당한 사람이 적어질수록 0에 수렴할 것이다. 이와 같은 계산방식은 “대상 연령대의 절대적인 인원수가 적어, 범죄 피해자의 비중이 높음에도 인원 가중치에서는 적어지는 왜곡 현상이 발생할 수 있다”는 한계가 존재한다. 하지만 위 방법이 각 범죄피해자의 비중을 가장 잘 반영해줄 수 있다고 생각하여 계산 방식을 그대로 유지하였다. 그리고 성범죄 피해자만을 가지고 가중치를 설정하는 방식을 지적할 수도 있다. 강간강제추행만 계산할 것이 아니라 앞서 5대 범죄를 치안도 계산에 반영했던 것처럼 살인, 폭행 등 5대 범죄 전반에 대한 인원 가중치를 고려해야 한다는 것이다. 물론 나도 그 점을 깊게 고민해보았으나, 해석의 용이함을 위해서 제작한 지수는 단순해야 한다고 생각했다.
나는 이렇게 계산이 완료된 ‘연령별 가중치’에 ‘자치구별 여성인구’를 곱한 뒤 자치구별로 합산하여 ‘가중치가 반영된 연령별 여성 인구’를 산출했다. 그리고 이들 값 중 가장 높은 수치를 분모로 결괏값을 나누어 0(여성이 적음) ~ 1(여성이 많음) 사이의 값으로 변경하였다.
여성 연령대별 가중치 및 여성지수 산출공식은 아래와 같다.
- 여성 연령대별 가중치 = (2020년 경찰청 여성 성범죄 피해 현황의 각 연령대별 여성 총 인원수) / (2020년 경찰청 여성 성범죄 피해 현황 중 가장 많은 수치를 보이고 있는 연령대의 값)
- 여성지수 = sum((자치구별 여성 1인 가구 연령대 * 여성 연령대별 가중치)) / (합계 중 가장 큰 자치구의 값)
(2.3) 최종 지수
위 과정을 거쳐서 계산된 치안도와 택배지수, 여성가구지수를 모두 합산하여 여성안심택배함 정책 분석을 위한 최종 지수를 산출한다. 단, 합산 시 각 지수가 지니는 의미를 정확하게 알아두어야 할 필요가 있다. 예컨대 치안도의 경우 0(치안이 안좋음) ~ 8(치안이 좋음)로 수치가 낮을수록 정책 우선순위가 높아지지만, 택배 지수는 0(택배 물량이 적음) ~ 1(택배 물량이 많음)이고 여성가구지수도 0(여성 가구가 적음) ~ 1(여성 가구가 많음)으로, 치안도와는 다르게 수치가 높을수록 정책 우선순위가 높아진다. 이러한 문제를 해결하기 위해 택배지수 및 여성가구지수는 1에서 뺀 값을 반영한다. 즉, 값이 1에 수렴할수록 반영 값은 0이 되도록 만든다.
최종지수 = 치안도 + (1 – 택배지수) + (1 – 여성가구지수)
최종지수는 0(여성안심택배함 설치가 시급함) ~ 10(여성안심택배함 설치가 시급하지 않음) 순으로 수치가 낮을수록 정책의 우선순위가 높다. 여성안심택배함을 위한 산출지수만 놓고 해석할 경우, 관악구가 가장 낮은 값을 보이고 있었다.
자치구 | 치안도 | 택배지수 | 여성가구지수 | final_index | 여성안심택배함_총계 |
종로구 | 3.98 | 0.889564 | 0.16708 | 4.923356 | 5 |
중구 | 3.4 | 0.935563 | 0.138612 | 4.325825 | 8 |
용산구 | 4.02 | 0.74162 | 0.237752 | 5.040628 | 9 |
성동구 | 5.06 | 0.901464 | 0.263545 | 5.894991 | 10 |
광진구 | 3.42 | 0.668633 | 0.461396 | 4.289971 | 13 |
(3) 여성안심지킴이집 위치 선정
여성안심지킴이집 위치 선정에는 치안도와 여성가구지수만 사용하여 최종지수를 산출하였다. 즉, 여성안심택배함 위치선정에서 사용한 최종지수에서 택배지수를 제외한 나머지를 최종지수로 사용하였다. 최종지수의 공식은 아래와 같다.
최종지수 = 치안도 + (1 – 여성가구지수)
자치구 | 치안도 | 여성가구지수 | final_index | 여성안심지킴이집_총계 | |
종로구 | 3.98 | 0.16708 | 4.81292 | 35 | |
중구 | 3.4 | 0.138612 | 4.261388 | 37 | |
용산구 | 4.02 | 0.237752 | 4.782248 | 34 | |
성동구 | 5.06 | 0.263545 | 5.796455 | 23 | |
광진구 | 3.42 | 0.461396 | 3.958604 | 32 |
우리는 여성안심지킴이집의 최종지수와 함께 각 자치구별 여성안심지킴이집 장소 개수를 파악하여 추가로 배치해야 할 자치구가 어디인지를 확인하고자 하였다. 최종지수만을 확인했을 때는 관악구 지역에 여성안심지킴이집을 추가로 배치해야 한다는 결과가 나왔다.
(4) 여성안심스카우트 추가 배치지역 선정
여성안심스카우트 또한 여성안심지킴이집과 동일한 수치를 사용하였다. 그러나 여성안심스카우트 부분은 여성안심지킴이집 데이터와는 다르게 스카우트 인원 수와 이용실적 등 다양한 자료를 확보할 수 있었기 때문에, 최종 분석 시에는 그 부분까지 함께 고려하도록 한다.
자치구 | 치안도 | 여성가구지수 | final_ index |
이용실적 | 스카우트 인원 | 이용실적_비율(%) | |
종로구 | 3.98 | 0.16708 | 4.81292 | 8586 | 14 | 4.828886 | |
중구 | 3.4 | 0.138612 | 4.261388 | 3570 | 16 | 2.007818 | |
용산구 | 4.02 | 0.237752 | 4.782248 | 2981 | 13 | 1.676556 | |
성동구 | 5.06 | 0.263545 | 5.796455 | 8518 | 19 | 4.790641 | |
광진구 | 3.42 | 0.461396 | 3.958604 | 5733 | 13 | 3.224319 |
최종지수만을 놓고 결론을 내리자면 관악구 지역에 인원을 보강해야 한다는 결론이 나온다.
(5) streamlit 구현
Streamlit은 각 분석 결과 별로 자치구 필터링 구역을 확실하게 보여주기 위해 일부러 col을 구현하지 않았고, 개별 요소마다 필터를 사용할 수 있도록 하였다. streamlit으로 시각화를 진행한 부분은 아래와 같다.
- 자치구별 5대범죄 발생율 (필터 : 자치구, 범죄)
- 치안관련 시설개수 파악 (선택 : 가로등, 치안유지기관, 방범목적 CCTV)
- 여성안심택배함 최종지수 (필터 : 자치구, 지수)
- 서울시 여성안심택배함 위치 맵핑
- 여성안심지킴이집 최종지수 (필터 : 자치구, 지수)
- 자치구별 여성안심지킴이집 개수
- 여성안심스카우트 종합보고 (선택 : 최종지수, 이용실적, 스카우트 인원, 이용실적 비율)
⑤ 프로젝트 정리 및 발표
프로젝트 정리 및 발표는 다른 팀원이 담당해주었다. 담당 팀원 분께서는 내가 분석한 자료에 더해 다른 자료까지 함께 검토하여 합리적인 결론을 내려주었다.
(1) 여성안심택배함 설치 필요 자치구에 관하여
위에서 정리한 최종지수는 “어느 자치구에서 택배함 설치가 필요한가”는 이야기할 수 있으나, 현재 자치구에 배치된 택배함이 적은 편인지 아니면 많은 편인지 알 수 없다는 문제가 있었다. 그래서 자치구별 평균 택배함 설치 개수도 함께 고려하여 결론을 도출하였다. 평균 택배함 설치 개수는 10.5개였다.
분석 결과, 최종지수의 값이 가장 낮았던 관악구는 이미 평균 이상의 택배함이 설치되어 있으므로 대상자에서 제외하고, 최종지수가 그 다음으로 낮은 동대문구, 영등포구, 송파구 등 세 개의 자치구를 대상지역으로 선정하였다. 한편, 강남구, 중구, 중랑구는 앞선 세 지역보다 최종지수의 값이 높기는 하나 전체 자치구 중에서는 여전히 하위권에 머물러 있었고 택배함 설치 개수도 각각 9, 8, 5개로 평균인 10.5에 한참 미치지 못했다는 점을 근거로 택배함 추가 설치 권장 지역으로 선정하였다.
(2) 여성안심지킴이집 지정 필요 자치구에 관하여
여성안심지킴이집은 최종지수와 여성안심지킴이집 총계를 함께 고려하여 결론을 도출하였다. 비록 가장 낮은 최종지수를 보여주는 곳은 관악구였으나, 관악구에 배치된 여성안심지킴이집은 42개로 적지 않은 수치를 보여주었으므로 대상지역에서 제외하였다. 따라서 최종지수 하위 5개 지역 중 여성안심지킴이집 총계가 각각 39, 32개로 적은 영등포구와 광진구를 대상지역으로 선정하였다.
(3) 여성안심스카우트 추가 인원 배치 필요 자치구에 관하여
여성안심스카우트는 최종지수와 이용실적, 스카우트 인원수를 함께 고려하여 결론을 산출하였다. 분석 결과 동대문구와 강남구를 우선 증원 자치구로 선정하였다. 먼저 동대문구의 경우, 이용실적이 전체 이용실적의 10.7%을 차지하고 있을 만큼 많으며 종합지수 또한 두 번째로 낮은 수치를 보여주고 있기 때문이다. 그러면서도 스카우트 인원은 17명으로 25개의 자치구 중 16번째로 낮았다. 강남구 또한 동대문구 선정 이유와 비슷하게 최종 지수와 스카우트 인원, 안심귀가스카우트 이용실적 비율을 복합적으로 고려하여 선정하였다.
한편 안심귀가스카우트 서비스는 자치구별로 이용량 차이가 크게 발생하고 있었고, 심지어는 충원된 인원에 비해 서비스가 잘 이용되지 않는 곳도 있었다. 따라서 안심귀가스카우트 서비스는 인원의 충원보다도 서울시의 적극적인 제도 홍보를 통해 서비스 이용량 증가를 우선해야 한다는 결론을 내렸다.
5. 프로젝트를 마치며
빅데이터처리와시각화 수업은 말 그대로 데이터 분석을 위한 python 프로그래밍 방법만을 가르쳐준다. 그래서 데이터를 직접 탐색하고, 분석해서 결과를 도출하는 이번 팀플 과제가 특히나 더욱더 어렵게 느껴졌다. 어떤 데이터가 분석하기 용이한지, 어떻게 분석해야 하며, 어떤 그래프를 사용하여 표현해야 할지 등 모든 부분을 팀원과 함께 결정해야 하기 때문이다.
만약 이 수업을 듣는 다른 사람이 있다면 역할 분담을 똑똑하게 진행할 것을 권장한다. 우리는 (1) 데이터 전처리, (2) 데이터 분석 및 시각화, (3) 분석 결과 정리 및 PPT 발표 순으로 역할을 분담했고, 나는 이중에서 (2) 데이터 분석 및 시각화 부분을 맡았다. 그러나 (1) 데이터 전처리를 맡은 팀원과 연락이 원활하게 되지 않아 일이 제대로 진행되지 않았고, 결국 (3) 분석결과 정리 및 PPT 발표를 맡은 팀원이 발표 하루 전날이 되어서야 PPT 작성을 완성할 수 있었다. 이렇듯 이전 업무처리자의 역량에 따라 다음 업무처리자의 부담이 가중되는 팀플 방식은 옳지 않다고 생각한다.
만약 내가 다시 이 팀플을 진행한다면 (1) 데이터 전처리, (2) 데이터 분석 결과 정리, (3) PPT 제작 및 발표 역할로 분담할 것 같다. 데이터 전처리 담당자가 사용할 모든 데이터를 통일된 양식에 따라 전처리를 완료하면 모든 팀원이 데이터 분석을 진행하는 방식이다. 그 후 분석결과에 대해 긴 시간 논의하면서 설득력 높은 결론을 도출하면 이것을 데이터 분석결과 정리자가 깔끔하게 정리한 후 PPT제작자에게 넘긴다. 이 방법은 모든 팀원이 분석에 참가한다는 점에서 편향된 결론을 도출할 위험이 줄어들며, 데이터 분석결과 정리자와 PPT제작자도 분석 과정에 참가하기 때문에 이전 단계에서 결론이 넘어오지 않더라도 미리 작업을 시작할 수 있다는 장점이 있다.
내가 처음 본 과목에서 팀플을 진행한다는 소식을 들었을 때는 ‘내가 과연 잘할 수 있을까?”라는 생각에 많은 고민과 부담감을 안고 있었다. 하지만 팀플을 시작하고 하나하나 새로운 인사이트를 발견하면서 많은 즐거움을 얻어갈 수 있었고, 교수님께서도 수업내용을 쉽게 잘 가르쳐 주셔서 뒤쳐지는 일 없이 한 학기 수업을 잘 마칠 수 있었다. 만약 이 수업의 수강을 고민하는 타 전공 학생이 있다면 나는 주저하지 말고 수업을 들어봤으면 좋겠다.
'전문지식 함양 > 학습내용 정리' 카테고리의 다른 글
[대학수업] 빅데이터처리와시각화 python 프로그래밍(streamlit 시각화) (0) | 2022.06.27 |
---|---|
[대학수업] 빅데이터처리와시각화 python 프로그래밍(분석) (0) | 2022.06.27 |
[공모전] 2021년 KOSAC 대학생 광고대회 참가 후기 (0) | 2021.12.28 |
[대학수업] 서비스마케팅 (0) | 2021.12.27 |
[대학수업] 회귀분석 (0) | 2021.12.24 |