본문 바로가기

프로젝트들

[All about 따릉이 EDA, 4편] 따릉이, 유저 분석해보기

따릉이를 주로 타는 사람들은 과연 누구일까??
남자일까? 여자일까?
또, 20대가 주로 탈까? 50대 이상은 잘 타지 않을까?
한편, 따릉이로 장거리 주행하는 사람들은 대체 누굴까??

이번 글에서는, 이러한 호기심을 바탕으로, 따릉이 이용자에 대한 분석을 해본다.
데이터는 2017년 1월 ~ 2018년 12월 따릉이 데이터를 사용한다.


1. 성별로 나누어 살펴보기

1.1. 남자와 여자, 둘 중에 누가 더 많이 사용할까?

2년 동안의 남녀 이용량과 이용비율을 시각화 해서 보자.

너무나 직관적으로 다음과 같이 말할 수 있다.

남자가 더 많이 사용했고, 남성 이용자가 전체의 62.4% 다.

한편, 덧붙이면, 남자가 여자보다 65%(여자 이용기준) 더 많이 이용한다.

 

1.2. 년, 월별로 이용자의 남녀 비율 변화가 있었을까?

이 역시 다음과 같이 쉽게 말할 수 있을 듯 하다.

년으로 봤을때는 비율 변화가 없다.
월로 봤을 때는 타기좋은 날씨(여름 전, 후)에 
여성비율이 최악일 때보다 약 10% 정도 증가한다.

 

1.3. 17년->18년, 유저가 더 많이 증가한 성별은 어딜까?

 

남자 이용자가 전해대비 56.6%로 여자 48.4% 보다 더 많이 증가했다.

 

1.4. 남녀별로, 평균 이용거리, 이용시간 차이가 있을까?

이번에는 violinplot 을 이용하여 시각화해보자.

무턱대고 그렸더니, 이상치들까지 같이 표시된다.
하루 동안 따릉이로 1600000m, 즉 1600키로를 갈 일은 상식적으로 불가능하므로, 극단치가 아니라 이상치라고 봐야한다.

z-score 를 이용하여 이상치 값들을 제거 한 뒤, 다시 그려보면, ( z-score 가 3 미만 )

 

이용거리 분포. 이용시간은 이용거리와 선형관계이므로, 굳이 따로 플롯을 그리지 않았다.
사실, 그래도 분포는 비슷하고, 실질적인 차이를 보려면 중간값을 직접 봐야할듯 하다.

중간값을 뽑아보면 다음과 같은 수치가 나온다.

여자 : 이용거리 2690m, 이용시간 22분
남자 : 이용거리 2370m, 이용시간 17분

종합적으로 다음과 같은 결론을 낼 수 있다.

이용자는 남자가 더 많지만, 일반적으로 한 번 이용시간은 여자보다 짧다.

2. 연령대로 나누어 살펴보기

2.1. 어느 연령대가 제일 많이 사용할까?

데이터에는 10 단위 기준으로 연령대를 구분해놓았는데, 이를 바로 시각화해서 보자.

 

20대 > 30대 > 40대 > 50대 순으로 이용자가 많다.
20대 이용자는 전체의 48.2%로, 이용 비율은 50대까지 선형적으로 감소한다.

 

2.2. 년, 월별로 연령대 비율 변화가 있었을까?

연령대 역시 성별과 마찬가지로 년, 월로 변화 비율을 봐보자.

 

먼저, 왼쪽 플롯을 보면, 2017년에서 2018년으로 갈 때, 연령대 비율 변화가 거의 없었음을 알 수 있다.
있다면, 50대가 6.7 -> 5.8% 로 줄고, 10대가 1.9 -> 2.6% 로 증가한 정도가 있겠다.

오른쪽 플롯은 월별로 연령대별 이용자 비율을 나타내는데, 각 연령대마다 월이 지남에 따라 어떤 경향성을 가지는지 알기가 힘들다.
질문을 좀 바꿔, 어떤 연령대끼리 이용비율이 변하는데 있어 비슷한 경향을 가지는지 조사해보자.
피어슨 상관계수를 이용하여, 클러스터 맵으로 시각화하면 쉽게 알아낼 수 있다.

연령대 클러스터 맵

30, 40, 50, 60대가 월별 이용비율 변화에 비슷한 경향을 지니고 있다.
한편, 20대와 30대는 상관계수가 0.9로, 굉장히 강한 음의 선형관계를 가지는 것도 알 수 있다.
정리하면 다음과 같다.

년으로 봤을때는 비율 변화가 없다.
월로 봤을 때는 30~60대가 비슷한 경향으로 변화하고,
특히, 20대와 30대는 정반대 변화 경향을 갖는다.

 

2.3. 17년->18년, 어느 연령대 유저가 더 많이 증가했을까?

전반적으로 모든 연령대가 다 증가하였고,
특히, 50대 유저가 전해대비 약 80% 증가로 가장 많이 증가했다.

 

2.4. 연령별로, 평균 이용거리, 이용시간 차이가 있을까?

violinplot 보다 boxplot 이 데이터를 더 잘 보여줄듯 하여, 이번에는 boxplot 으로 시각화 해본다.

그대로 그리면, 이상치가 너무 많아서, z-score < 3 으로 몇번 거른뒤 시각화 하였다.
뭐, 상식적이게도, 역시 젊을수록 오래 이동한다. 10대를 제외하고는 말이다.
그래도 중간값은 생각보다 그렇게 큰 차이를 보이지는 않는다.

역시, 젊은 사람들(10대 제외)이 일반적으로 오래탄다.

3. 연령 x 성별로 좀 더 살펴보기

이번에는 각 연령대별을 이루고 있는 성별,
혹은 각 성별 내 연령대비율에 대해서 좀 더 자세히 살펴본다.

3.1. 연령대 내 성별 비율

먼저 전반적으로 전 연령대에서 남성비율이 많기는 하지만, 여성비율이 26~46%로 차이가 난다.
먼저 70대 이상에서, 여성 비율이 46.2%로 제일 많고,
주 이용자였던 20대 -> 40대로 갈수록 여성비율이 감소함을 알 수 있다.

전 연령대에서 남성비율이 53~73%로 여성보다 많지만, 
주 이용자 연령인 20대는 남성이 55.6%로 여성과 10% 차이밖에 안난다.

 

3.2. 성별 내 연령대 비율

여자의 경우 남자보다 20대 비율이 더 높음을 알 수 있다.
반대로, 남자의 경우 20대 비율은 여자보다 적지만, 나머지 30대와 40대 비율이 조금 더 높은 것을 알 수 있다.

여자의 경우, 20대에 이용자 비율이 남자보다 14% 정도 더 몰려있다.

4. 지역별로 나누어 살펴보기

4.1. 지역별로 연령이나 성별 비율이 다르진 않을까?

주 이용층인 20대를 기준으로 정렬했다.

위 플롯이 한 눈에 들어오지 않는다면, 주 이용층인 그냥 20대만 집중해서 살펴보자.
먼저, 광진구나 노원구의 경우, 이용자의 약 60%가 20대임을 알 수 있다.
한편, 서초, 금천의 경우 40%가 안된다.
20대의 비중이 크게는 지역별로 20%나 차이가 난다는 것이다.

그렇다면, 특정 지역구 내, 대여소에도 이런 차이가 있을까?
20대의 비중이 높은 광진구 내 대여소들만 살펴보도록 하자.

광진구 내 모든 대여소의 연령별 이용비율을 시각화 했다.

대여소 역시, 20대 비중이 많게는 80%를 넘고, 적게는 30%도 안된다.
20대 비중이 많은 상위 대여소들을 살펴보면, 세종대학교, 건국대학교 등.. 대부분 대학 근처 대여소들이다.
한편, 20대 비중이 낮은 곳은, 아파트, 중학교, 도서관 등.. 상식적으로 20대의 이용비율이 낮을만한 곳들이다.

그렇다면, 이번엔 지역별로 성별 비율을 보면 어떨까?

뭐 역시나, 전 지역에서 남성 이용자가 더 많은 패턴은 동일하다.
지역별 남녀 차이도 10% 내외로 그렇게 두드러지지 않는다.

정리하면,

지역별, 그리고 지역 내 대여소마다 이용자의 연령비율은 확연히 다르다.
성별비율은 그다지 유의미하게 다르지 않다.

5. 다루지 않은 내용들

사실 데이터를 열어보면, 더 확인하고 싶었고, 확인할 수 있는 내용들이 꽤 있었다.
예를 들어, 장거리 주행자는 누구일까? 라든가, 따릉이 속력 분포는 어떻게 되어있을까? 등 이라든지...

하지만 여기서 다루지 않는 이유는, 아니 사실 다뤄봤음에도 글을 쓰지 않는 이유는

  1. 장거리 주행자들? 위에서 살펴본 연령x성별 분포와 유사하다. 따로 살펴보는게 별 의미가 없을 듯 싶어서.
  2. 이용거리와 이용시간에 이상값들이 너무 많다. 예를 들어, 이용시간이 0이라든가, 이용거리가 300000이라든가..
    문제는, 이상치인지, 정상적인 범주에서의 극단값인지 명확하지가 않다.
    따라서, 구태여 위험을 무릎쓴 해석은 다른 분께 넘겨본다.