본문 바로가기

프로젝트들

[All about 따릉이 EDA, 2편] 따릉이, 이용량은 얼마나 변했을까?

이번에 알아보려고 하는 것은, 2015년 9월 - 2018년 11월까지의 따릉이 사용량에 대한 이야기다.
즉, 이전에 없던 시간의 개념이 분석에 더해진다.
년도, 월에 따라 사용량이 어떻게 달라지는지. 각 지역별로 차이가 있는지 등, 시간에 따라 사용량이 어떻게 달라지는지, 세세히 살펴보자.
여기서 사용량은 대여량 + 반납량을 말한다.

 


1. 연, 월 기준 사용량은 어떨까?

먼저 연, 월 기준으로 막대그래프를 그려보자.

확실히 해가 지날수록, 사용량이 많이 늘고있음을 알 수 있다.
다음으로 월 기준으로 보면,

여름 전후인, 5월 그리고 9, 10월에 피크를 찍고, 가장 사용량이 많은 달은 9월이다.
추운 겨울과, 더운 여름에는 사용량이 줄어드는 듯 보인다.
무엇보다, 1년을 주기로 이러한 패턴을 보인다. 즉, 데이터 패턴을 볼 때, 기본적으로 1년 단위로 봐야한다.

그럼 해가 지나면서 얼마나 늘었을까?
가장 피크인 달인 9월을 기준으로 직전 해 대비 증가율을 살펴보자.

2016년에는 2015년 대비 2615% 나 증가했다가, 그 이후로는 직전 해 대비 증가율이 확 감소하긴 했지만, 
작년 대비 사용량은 꾸준히 증가했으므로, 절대적인 값은 더 클 것이다. (굳이 살펴보진 않겠다.)

 


2. 지역구별로 사용량은 다를까?

전체 기간, 즉 15년 9월 - 18년 11월 동안의 각 지역별 사용량을 살펴보자.

  • 대여량과 반납량은 비슷하다. (대여하면 반납하니 당연...)
  • 마포와, 영등포의 사용량이 압도적으로 높다. 
  • 제일 낮은 지역은 강북, 금천, 도봉이다.
  • 제일 낮은 사용량과 제일 큰 사용량의 차이가 대략 16배 정도 난다. 너무 큰 데.. 이상하다.  

이전 포스트에서 2018년 11월 기준, 대여소가 가장 많은 곳은 강남 3구였다.
대여소가 많으면 일반적으로 사용량도 높을 것 같은데, 왜 강남 3구 사용량은 별로 안높을까?

여기서 이런 의문이 든다.

마포와 영등포에 가장 먼저 대여소들이 설치되고, 다른 지역은 뒤늦게 설치되어서, 자연스레 먼저 이용되고 있던 마포와 영등포만 너무 높은게 아닐까?

이를 확인해보기 위해, 잠깐 샛길로 빠져나와, 시간에 따른 각 지역구의 대여소 개수를 살펴보자.

 

2.1. 시간에 따른 각 지역구의 대여소 개수 살펴보기

데이터 전 기간동안의 각 지역별 대여소 개수를 히트맵으로 시각화 해보자.

정리해보면, 

  • 예상대로, 2015.10 이전부터, 영등포, 마포, 서대문을 중심으로 대여소가 선행적으로 설치되었다.
  • 2015.10 에 종로, 중구, 성동, 광진구에 일부 대여소가 처음 설치되었고, 마포는 이전량의 2배를 늘어났다.
  • 2016.7, 2017.5 을 기점으로, 기존 지역 및 새로운 지역들에 대여소가 설치됐다.
  • 그 이후로, 계속해서 대여소는 늘어나고, 특히 강남, 서초, 송파에 집중적으로 대여소들이 추가되었다.

즉, 강남 3구의 경우, 가장 많이 설치됐지만 가장 최근에 대량으로 설치되었기 때문에, 대여소는 많지만 사용량이 적었던 것이다.

한편, 서울시는 전 지역에 골고루 대여소를 설치한게 아니라, 
특정 시기에, 특정 지역에 집중적으로 대여소를 설치하는 방식으로 대여소를 늘려왔음을 알 수 있다.
이를 확인하기 위해, 시간에따른 전체 대여소 개수를 막대 그래프로 살펴보면, 아래와 같다.

 

2.2. 시간에 따른 각 지역구의 사용량 살펴보기

먼저 러프하게, 선 그래프로 사용량 추세를 살펴보자.

어느 지역구도 예외 없이, 일년 동안의 사용량 추세 패턴(여름 전후로 사용량이 제일 많은)이 같다.
이를 좀 더 수치적으로 편하게 살펴보기 위해, 히트맵으로 시각화해서 보면,

  • 먼저, 0으로 값이 채워진 칸은, 당시에 대여소 설치가 아직 안됬기 때문이다.
  • 어김 없이, 모든 지역에서 해가 지날수록 사용량이 많아진다.
  • 영등포, 마포는 초기 때부터, 꾸준하게 가장 사용량이 많은 지역이다.
  • 18년 11월 기준, 대여소 개수가 가장 많던 강남 3구 중, 눈에 띄게 사용량이 많은 지역은 송파이다.

하지만, 위에서는 각 지역별 대여소 개수를 고려하지 않고 사용량을 산출해냈기 때문에, 
지역간 사용량을 비교할 때, 이 값이 공정해보지 않는다.
따라서, 지역간 좀 더 세밀하게 비교해보기 위해, 이번엔 지역별 대여소 개수까지도 고려한 값을 산출해보자.

 

2.3. 지역구별 대여소당 평균 이용량

좀 더 공정한 비교를 위해, 지역구별 대여소 개수까지 고려한, 지역의 대여소 평균 이용량이라는 개념을 도입해보자.
지역의 대여소 평균 이용량 = 지역의 대여건수의 합 / 지역의 대여소 개수로 정의된다.
즉, 한 대여소당, 평균 이용량이 얼마나 되는지, 지역구별로 살펴보자.

  • 역시나, 마포, 영등포는 대여소당 평균 이용률도 가장 높은 편이다.
  • 새롭게 눈에 띄는 것은 광진구다. 전체 이용량이 높은 것은 아니었지만, 
    자전거 대여소 대비 이용량이 많은 편이다. 자전거 대여소를 늘려주면, 이용량 자체가 더 늘어날까?
  • 대여소가 많았던 강남 3구중, 송파를 제외한 다른 지역은 왜 이용률이 높지 않을까? 
    대여소가 많이 설치되어도, 기대만큼 사람들이 잘 이용하지 않는걸까? 
    아니면 비교적 최근에 설치되어, 아직 사람들이 잘 모르는 걸까?

전체 기간은 아직 대여소가 설치 안된 시점을 포함하므로, 
어느정도 대여소가 설치된 17년 11월 - 18년 11월의 데이터만 가지고, 각 지역의 대여소당 평균 이용률의 합을 비교해보자.

 

  • 위에서 살펴본 것과 마찬가지로, 영등포, 마포, 광진구가 제일 높다.
  • 대여소당 평균 이용량이 가장 높은 지역(마포)과 낮은 지역(금천) 간의 차이가 약 4배 가량 난다.

 


정리  

  • 따릉이 이용률은 계속해서 증가하고 있지만, 증가율 폭은 이전 대비 감소하고 있다.
  • 따릉이 이용이 가장 꾸준하게 잘 사용되었던 지역은 영등포, 마포이다. 대여소당 평균 이용률도 높고, 주목해서 봐야할 지역이다.      
  • 따릉이 대여소는 초기에 특정 월에 몰아서 설치되었지만, 17년도 부터는 꾸준하게 설치되었다.
  • 광진은 대여소당 특히 평균 이용률이 높은 편이다.
  • 송파는 비교적 최근에 이용량이 눈에띄게 높았다.

 


남아있는 질문들

질문 1) 해당 지역에 자전거 대여소가 많아지면, 전체 이용률도 올라갈까?

전체 이용률이.. 자전거 대여소 수에만 영향받는게 아니기 때문에. 자전거 대여소 수 증가 -> 전체 이용률 수 증가 인지 알 수 없을듯 하다.

질문 2) 일일 정류소당 대여건수를 예측해볼 수 있을까?

해볼만 한 것 같다.
Kaggle Competition 에 꽤 유명한 "Predicting Bike sharing demand" 를 참고할 수도 있고, 일일 날씨 데이터와 조인하면, 시도해봄직 하다.
추후 해볼만한 시도다.

 


데이터 출처 및 참고