본문 바로가기

프로젝트들

[All about 따릉이 EDA, 3편] 따릉이 이용량 더 자세하게 살펴보기

이전 글에 이어, 이번에는 좀 더 딥하게 탐색해보기로 한다.
이전에는 15년 9월 - 18년 11월의 일일 데이터를 다루었다면, 
이번에는 가장 최근에 이용량이 많았던 18년 9월 시간별 데이터만 보기로 한다. 

이제부터는 요일, 시간 단위의 데이터를 볼 수 있다.
덧붙여, 아무래도 이전 글과 다른 데이터라, 별도로 글을 나누어 써본다.

 


1. 어떤 요일, 시간에 이용량이 많았을까?

가장 쉽게 떠오를 수 있는 질문이다.
요일, 시간, 그리고 지역별로 하나씩 살펴보자.

 

1.1. 요일별 이용량

평일보다 주말 이용량이 더 많은 것을 알 수 있다.
또, 평일 중엔 화요일 수요일이.
주말에는 토요일 이용량이 많다.

 

1.2. 시간별 이용량

평일과 주말에 따라 패턴이 다를 듯하여, 두 경우로 나누어 시각화 해보았다.

 

다음과 같은 사실들을 알 수 있다.

  • 평일의 경우, 대여/반납 시간대가 모두 8시와 18시에 몰려있다. 주로 출퇴근 시간에 몰린듯 하다.
  • 주말의 경우, 밤시간대로 갈수록 몰린다. 주로 18시 전후로 최고치를 찍는다. 해가 서서히 지는 시간대에 주로 타려고 하는 걸까?
  • 한편, 출근시간 제외하고, 일반적으로 낮에는 대여량 > 반납량이고, 밤에는 그 반대다.

그런데, 위와 같은 패턴이 모든 지역에 다 동일하게 드러날까? 이것도 확인해보자.

 

1.3. 시간에 따른 지역구별 이용량

시간에 따른 각 지역구별 이용량을 히트맵으로 살펴보자.
주말은 일단 제외하고, 평일만 살펴보도록 한다.

왼쪽(파란색)은 대여량, 오른쪽(주황색)은 반납량 히트맵이다.

나란히 두어, 보기 좀 복잡할 수 있지만, 발견할 수 있는 가장 간단한 사실은,
예외 없이, 전 지역에서 동일한 시간대별 이용량 패턴을 가진다는 것이다.

특히, 출/퇴근 시간에 색이 진하게 그려져있는 것이 인상적인데, 여기서 다음과 같은 생각이 들었다.
출근시간에 대여량이 반냡량보다 높은 지역은 어딜까?
또, 반대로 반냡랑이 대여량보다 높은 지역은 어딜까?
일반화 하면, 다음과 같은 질문이다.

출퇴근 시간에, 이용량 중 대여 혹은 반납이 집중되는 지역이 있을까?

이를 알아보기 위해, 위 데이터에서 출/퇴근 시간의 피크인 8시, 18시만 가져와보자.
그리고, 이용량 중, 대여와 반납의 비율을 살펴보자.

출근시간엔, 서대문구가 대여량이 반납량보다 전체의 약 27% 정도 많았다.
퇴근시간엔, 금천구가 대여량이 반납량보다 전체의 20% 정도 많았다.

하지만 위의 두 플롯은 y축의 순서가 달라, 지역별로 출퇴근 시간의 이용량을 비교하기 힘들다.
이를 위해 아래와 같이 다시 시각해해보자.
반납량 = 이용량 - 대여량이므로, 보기 쉽게 대여량만 시각화해본다.

출근시간 이용량 기준으로 정렬했다.

잘보면, 출근시간 막대그래프는 점점 내려가는데, 퇴근시간 막대그래프는 점점 올라가는 추세다.
즉, 출근시간에 대여비중이 높았던 지역은, 퇴근시간에는 반납비중이 높다. (상관계수가 0.8로 나온다.)
이를 쉽게 해석하면, 이용자들이 거주지 -> 근무지로 이동하는 것으로 상상해볼 수 있다.
즉, 거주지역은 출근시간 대여량이 높고, 근무지역은 퇴근시간 대여량이 높은 것이다.
어느정도 상식선의 이야기다.

이러한 관점에서 보면, 각 지역에서 타지역으로가는 유출/유입에 대해서도 생각해볼 수 있는데, 이에 관한 이야기는 뒤에 적어보도록 하겠다.


2. 요일별로 이용량이 높은 지역은 고정되어있을까?

위 히트맵에서, 시간대별로 모든 지역이 같은 이용량 패턴을 가지고 있음을 확인했다.
또한, 각 지역들의 이용량을 수치적으로 확인하고, 어디가 많고 적은지 알 수 있었다.
그렇다면, 이용량이 많은 지역들은 일주일 내내 많을까?
즉, 이용량이 많은 지역은 고정적일까?

 

2.1. 요일별, 지역의 이용량 순위

비교적 순위 변동이 없다. 바뀌어봐야 대부분 1~2등수 바뀌는 수준이다.
즉, 요일에 상관없이, 이용량이 많은 지역은 고정적이라고 볼 수 있다.


3. 평균 이용거리, 이용시간이 높은 지역은 어딜까?

어떤 지역에 평균 이용거리, 이용시간이 높다는 말은, 장거리 이동 또는 오래 이용하는 이용자가 많다는 뜻이다.
이용거리부터 하나씩 살펴보자.

 

3.1. 이용거리

먼저 이용거리 전체 분포를 boxplot 과 distplot 으로 보자.

꽤 많은 극단치들이 있어서, 굉장히 skewed 되어있다.
이대로도 의미가 있기는 하겠지만, 일반적인 상황에 대해 분석하기가 힘드므로, 극단치들을 잘라내고 다시 그려보자.

빨간색선은 최빈값, 파란색선은 중간값, 초록색석은 평균을 나타낸다.

그럼에도 skewed 되어있기는한데, 중간값은 2400m다.
최빈값은 910m로, 일반적인 라이트 유저(?)라면 이 정도 거리를 타는 듯 하다.

지역별로 살펴보면,

중간값을 기준으로 정렬했다.

  • 일단 모든 지역에서 분포가 skewed 하다.
  • 평균 이용거리가 큰 상위 지역들은, 중간값도 크지만, 극단치도 컸다. 일반적으로 다른지역들 보다 헤비하다(?)고 볼 수 있겠다.
  • 양천구의 경우, 중간값은 낮은편이지만, 꽤 높은 극단치들이 있다. 일부 사용자들이 굉장히 헤비하게 이용한다고 볼 수 있겠다.

 

3.2 이용시간

위 방법과 마찬가지로 살펴보면,

이상치들 미리 자르고 시각화 했다.

이용거리 분포와 거의 동일하다.
최빈값은 6분이고, 중간값은 17분이다.

위와 비슷하다.
다만 양천구에 길었던 꼬리가 없어졌다.
이용거리가 길었지만 이용시간은 짧았던 이용자... 엄청난 속도로 따릉이를 탄 사람이 양천구에 있나보다...

지도에 위 내용을 표현하면,

왼쪽(보라색)은 이용거리, 오른쪽(갈색)은 이용시간을 나타낸다.

  • 평균 이용거리, 이용시간이 높은 지역은 용산구다.
  • 이용거리 - 이용시간은 높은 선형관계다(상관계수 0.94). 멀리가려면, 오래 이용해야하니, 상식적으로 당연한 결과이긴 하다.

4. 유출/유입이 많은 지역은 어딜까?

이제 드디어, 유출/유입에 대한 이야기를 써볼까 한다.
유출/유입량이란, 어떤 지역에서 다른 지역으로 넘어가거나 넘어오는 따릉이 이용량을 말한다.
즉, 지역구간 이동하는 트래픽에 대해 알아볼 수 있다.

먼저, 각 지역별, 사용량의 스케일이 다르므로, 절대량이 아닌 상대비율로 지역간 비교를 해본다. 
여기서는 유출/유입 비율을 사용할 건데, 아래와 같이 정의한다.

유출비율 = A지역 대여 후 타 지역에 반납한 량 / A지역 총 대여량
유입비율 = 타 지역에서 대여 후 A지역에 반납한 량 / A지역 총 반납량

즉, 한마디로 말해, 해당 지역의 총 대여(반납)량 중에 몇 %가 타지역에 반납(대여)되었는지를 말하는 것이다.

 

4.1. 유출/유입비율 큰 순으로 보기

가장 먼저 생각해볼 수 있는 것은, 정말 말그대로 유출비율과 유입비율이 큰 지역을 살펴보는 것이다.
바로 지도로 시각화 해보자.

왼쪽(빨간색)은 유출비율, 오른쪽(초록색)은 유입비율을 나타낸다.

  • 한 눈에봐도 중구가 눈에 띈다. 또한, 서울 안쪽지역, 즉 중심부가 확실히 유입/유출 비율이 높다.
  • 유출비율과 유입비율은 거의 동일한 분포를 가진다. 즉 유출비율이 높은 지역은 유입비율도 높다. (상관계수 0.98)

 

4.2. 시간을 더해서 살펴보기

이번엔 시간의 개념을 더해서 살펴보자. (평일 기준)

왼쪽(빨간색)은 유출비율, 오른쪽(초록색)은 유입비율을 나타낸다.

시각화해서 보니, 시간에 따른 유출비율과 유입비율 패턴이 조금 다르다!
얼핏봐도, 위 두 히트맵에의 색 분포가 조금 다름을 느낄 수 있을 것이다.
자연스레 이런 생각이 든다.

시간에 따라, 유출 혹은 유입비율이 비슷한 패턴을 가지는 지역들이 있을까?

같은 시간대에, 유출비율과 유입비율을 동시에 확인해야 하므로, 측정값 = (유입비율에서 유출비율을 뺀 값)을 지표로 삼자.
즉, 측정값 > 0 이면, 해당 시간에 유입비율이 더 많다는 것이고, 측정값 < 0 이면, 유출비율이 더 많다는 것이다. 

이렇게 시간에 따라 측정값 패턴이 비슷한 지역들끼리 clustermap 으로 묶어보자.

 

총 3가지 클러스터가 보인다.

어느정도 뚜렷히 보인다.
시각화 이후 클러스터에 A, B, C 라는 이름을 주었다.

이제 측정값을 다시 시간에 따라서 살펴보면,

시간에 따른 각 지역별 (유입 - 유출비율) 히트맵. 빨간색은 유출이 압도함을, 초록색은 유입이 압도함을 의믜한다.

실제로 의미있게 클러스터링 된 듯하다.

A 클러스터에 속한 지역들은 출근시간에 유입이 많고, 퇴근시간에 유출이 많은 지역이다. 아무래도, 상업지역이지 않을까 싶다.
B 클러스터에 속한 지역들은 A 클러스터와 정반대의 양상이다. 출근하는 사람들이 많이 살고있는 주거지역일 듯 싶다.
C 클러스터는 A, B 두 클러스터에 속하지 않는 지역들이다. 다른 두 클러스터에 비해, 패턴이 뚜렷치 않다.

한편, 몇몇 눈에띄는 이상치(?) 들이 보이는데,

  • 새벽 1-3시에 중구에 눈에 띄게 유출비율이 높다는 점.
  • 새벽 5시에 금천구와 구로구에 유입비율이 유독 높다는 점.

정도가 보인다. 이유는 잘 모르겠다.
또 한편으로, 출퇴근 시간대를 잘보면, 유입비율이 높은 시간대는 유출비율이 높은 시간대보다 한 시간씩 밀려있는 것을 볼 수 있다.

 

4.3. 사람들이 주로 출/퇴근하는 지역은 어딜까?

위 히트맵에서, 출퇴근 시간대의 유출-유입비율을 이번엔 지도로 시각화 해보자.
출근시간은 7시~10시, 퇴근시간은 17~20시 사이로 가정하였다.

왼쪽은 출근시간대, 오른쪽은 퇴근시간대를 나타낸다.

출근시간대 유출비율이 높았던 지역이, 퇴근시간대에는 유입비율이 더 높은 것을 알 수 있다.

 

4.4. 출/퇴근시간대에 유입/유출이 활발한 지역은 어딜까?

이번에 궁금한 것은, 위와 같은 유입-유출의 변화가 가장 드라마틱한 지역은 어딜까? 이다.
예를 들어, 출근 시간대에 유입비율이 아주 높고, 퇴근시간에는 유출비율이 아주 높은 지역은 유입-유출의 변화가 드라마틱한 지역이라고 할 수 있다.
수식으로는, 절대값(유입비율) + 절대값(유출비율) 의 값인데, 이 값이 제일 큰 지역이 어딘지 살펴보자.

 

차이값이 큰 순으로 정렬

금천구가 32.8% 차이로 가장 크다!
다음은 은평구, 관악구 순이 되겠다.

이를 보기 쉽게 지도로 시각화 하면, 아래와 같다.

색이 진할수록 값이 크다.


정리

모든 내용을 다 정리하기보단, 따릉이 이용량에 특징있는 지역구만 정리해보면, 다음과 같다.

일반적으로 이용량이 많은 지역

 마포, 영등포, 송파구

평균 이용거리 및 이용시간이 큰 지역

 용산구

유출비율과 유입비율이 높은 지역

  중구

출/퇴근 시간에 유입/유출이 드라마틱하게 차이나는 지역

 금천구, 은평구


데이터 출처 및 참고