본문 바로가기

EDA

(6)
데이터로 내 티스토리 블로그 EDA 하기 요즘에 좀 여유가 생겨, 이번 기회에 평소에 해보고 싶었던 내 블로그 분석글을 올려본다. 사실 분석이라고 하기엔 좀 거창하고 그냥 EDA 정도가 될 거 같다. 데이터 및 활용 도구는 티스토리 REST API 와 구글 애널리틱스를 사용했다. 어떤 사람들이 내 블로그에 왔을까? 아마 블로그 하는 사람들이 은근 신경 쓰게 되는 것이 하루 방문자 수이지 않을까 싶다. 마치, 예전 싸이월드 미니홈피의 TODAY 수랑 비슷한 느낌이라고 생각하면 된다. 특히 블로그인 만큼 내가 올린 포스팅에 대한 어떤 보상이자, 내 블로그가 성장(?)하고 있음을 직접적으로 느끼게 해주는 지표라고 생각한다. 그리고 무엇보다 블로그 관리자 대시보드에 들어가면 제일 잘 보이는 곳에 위치해있다. 그래서 내 블로그를 들어오는 사람들에 대한 ..
[All about 따릉이 EDA, 5편] 마포구, 따릉이는 얼마나 어떻게 이용되고 있을까? 이번 글에서는, 서울 시내 지역구 중, 15년도부터 꾸준하게 따릉이 이용률이 높았던 지역인 마포구에 대해 좀 더 자세히 알아보려 한다. 저번과 마찬가지로 18년 9월 데이터를 통해 살펴본다. (*9월은 1년 중, 따릉이 이용량이 가장 높은 달이다. 대표적인 패턴을 가장 잘 보여줄 수 있는 기간이라 생각하여 9월 한 달만을 표본으로 선택하였다.) 1. 이용 수치량 살펴보기 가장 먼저, 수치적으로 쉽게 살펴볼 수 있는 것부터 보자. 시간에 따른 이용량 패턴, 이용거리, 시간 등이다. 1.1. 시간대별 사용량 평일의 경우, 아침 8시와 저녁 18시에 고점을 찍는 패턴은,일반적인 서울시 따릉이 패턴과 같다. **한편, 아침 8시엔 반납량이 대여량보다 더 많고, 저녁 18시에는 대여량이 더 많은 걸로 보아서, 마..
[All about 따릉이 EDA, 4편] 따릉이, 유저 분석해보기 따릉이를 주로 타는 사람들은 과연 누구일까?? 남자일까? 여자일까? 또, 20대가 주로 탈까? 50대 이상은 잘 타지 않을까? 한편, 따릉이로 장거리 주행하는 사람들은 대체 누굴까?? 이번 글에서는, 이러한 호기심을 바탕으로, 따릉이 이용자에 대한 분석을 해본다. 데이터는 2017년 1월 ~ 2018년 12월 따릉이 데이터를 사용한다. 1. 성별로 나누어 살펴보기 1.1. 남자와 여자, 둘 중에 누가 더 많이 사용할까? 2년 동안의 남녀 이용량과 이용비율을 시각화 해서 보자. 너무나 직관적으로 다음과 같이 말할 수 있다. 남자가 더 많이 사용했고, 남성 이용자가 전체의 62.4% 다. 한편, 덧붙이면, 남자가 여자보다 65%(여자 이용기준) 더 많이 이용한다. 1.2. 년, 월별로 이용자의 남녀 비율 변..
[All about 따릉이 EDA, 3편] 따릉이 이용량 더 자세하게 살펴보기 이전 글에 이어, 이번에는 좀 더 딥하게 탐색해보기로 한다. 이전에는 15년 9월 - 18년 11월의 일일 데이터를 다루었다면, 이번에는 가장 최근에 이용량이 많았던 18년 9월 시간별 데이터만 보기로 한다. 이제부터는 요일, 시간 단위의 데이터를 볼 수 있다. 덧붙여, 아무래도 이전 글과 다른 데이터라, 별도로 글을 나누어 써본다. 1. 어떤 요일, 시간에 이용량이 많았을까? 가장 쉽게 떠오를 수 있는 질문이다. 요일, 시간, 그리고 지역별로 하나씩 살펴보자. 1.1. 요일별 이용량 평일보다 주말 이용량이 더 많은 것을 알 수 있다. 또, 평일 중엔 화요일 수요일이. 주말에는 토요일 이용량이 많다. 1.2. 시간별 이용량 평일과 주말에 따라 패턴이 다를 듯하여, 두 경우로 나누어 시각화 해보았다. 다음..
[All about 따릉이 EDA, 2편] 따릉이, 이용량은 얼마나 변했을까? 이번에 알아보려고 하는 것은, 2015년 9월 - 2018년 11월까지의 따릉이 사용량에 대한 이야기다. 즉, 이전에 없던 시간의 개념이 분석에 더해진다. 년도, 월에 따라 사용량이 어떻게 달라지는지. 각 지역별로 차이가 있는지 등, 시간에 따라 사용량이 어떻게 달라지는지, 세세히 살펴보자. 여기서 사용량은 대여량 + 반납량을 말한다. 1. 연, 월 기준 사용량은 어떨까? 먼저 연, 월 기준으로 막대그래프를 그려보자. 확실히 해가 지날수록, 사용량이 많이 늘고있음을 알 수 있다. 다음으로 월 기준으로 보면, 여름 전후인, 5월 그리고 9, 10월에 피크를 찍고, 가장 사용량이 많은 달은 9월이다. 추운 겨울과, 더운 여름에는 사용량이 줄어드는 듯 보인다. 무엇보다, 1년을 주기로 이러한 패턴을 보인다. ..
[All about 따릉이 EDA, 1편] 대여소 살펴보기 짧은 서론. 무엇을 왜 하는가? 서울시에서 최근 계속해서 공공데이터를 많이 개방하고 있다. 그 중 가장 친숙하고도 대표적인 데이터는 '서울시 공공자전거', 일명 '따릉이' 데이터라는 생각이 든다. 이젠 정말 길거리에서 흔하게 볼 수 있는 따릉이. 이 글 시리즈에서는, 공개된 데이터를 통해 따릉이 이용과 사용 현황을 살펴보고자한다. 즉, 데이터를 다양하게 시각화 해보며, 해석해보는 EDA 를 해보고자 하는 것이다. 그럼 이걸 왜하느냐? 별 이유는.. 없다. 그냥 재밌을 것 같다. 하다보면 몰랐던 사실들도 알게될 수도 있을 것이고, 그냥 소소한 상식으로 쌓아갈 수 있지 않을까? 일단 무작정 데이터 속으로 들어가보자. 데이터는 2018년 11월 29일자 데이터다. 서울시내 따릉이 대여소 살펴보기. 이번 편에서..