본문 바로가기

데이터시각화

(4)
[All about 따릉이 EDA, 5편] 마포구, 따릉이는 얼마나 어떻게 이용되고 있을까? 이번 글에서는, 서울 시내 지역구 중, 15년도부터 꾸준하게 따릉이 이용률이 높았던 지역인 마포구에 대해 좀 더 자세히 알아보려 한다. 저번과 마찬가지로 18년 9월 데이터를 통해 살펴본다. (*9월은 1년 중, 따릉이 이용량이 가장 높은 달이다. 대표적인 패턴을 가장 잘 보여줄 수 있는 기간이라 생각하여 9월 한 달만을 표본으로 선택하였다.) 1. 이용 수치량 살펴보기 가장 먼저, 수치적으로 쉽게 살펴볼 수 있는 것부터 보자. 시간에 따른 이용량 패턴, 이용거리, 시간 등이다. 1.1. 시간대별 사용량 평일의 경우, 아침 8시와 저녁 18시에 고점을 찍는 패턴은,일반적인 서울시 따릉이 패턴과 같다. **한편, 아침 8시엔 반납량이 대여량보다 더 많고, 저녁 18시에는 대여량이 더 많은 걸로 보아서, 마..
[All about 따릉이 EDA, 2편] 따릉이, 이용량은 얼마나 변했을까? 이번에 알아보려고 하는 것은, 2015년 9월 - 2018년 11월까지의 따릉이 사용량에 대한 이야기다. 즉, 이전에 없던 시간의 개념이 분석에 더해진다. 년도, 월에 따라 사용량이 어떻게 달라지는지. 각 지역별로 차이가 있는지 등, 시간에 따라 사용량이 어떻게 달라지는지, 세세히 살펴보자. 여기서 사용량은 대여량 + 반납량을 말한다. 1. 연, 월 기준 사용량은 어떨까? 먼저 연, 월 기준으로 막대그래프를 그려보자. 확실히 해가 지날수록, 사용량이 많이 늘고있음을 알 수 있다. 다음으로 월 기준으로 보면, 여름 전후인, 5월 그리고 9, 10월에 피크를 찍고, 가장 사용량이 많은 달은 9월이다. 추운 겨울과, 더운 여름에는 사용량이 줄어드는 듯 보인다. 무엇보다, 1년을 주기로 이러한 패턴을 보인다. ..
pandas, bar 그래프(plot) 이쁘게 그리기 이 글의 결과물은 쥬피터에서 아래와 같은 그래프를 그리는 것이다. 이쁘게 그린다고 적어놓긴 했지만, 실제로 다루는 내용은 다음과 같다. 수직, 수평 막대 그래프 위에 값 표시(annotation)하기 수직, 수평 막대 그래프 안에 값 표시하기 그래프 figure 박스 제거 pandas 데이터프레임으로 그래프를 그리는 방법은, matplotlib.pyplpot, pandas.plot(), seaborn 등이 있지만, 여기서는 pandas.plot() 을 기본으로 사용한다. 수직, 수평 막대 그래프 위에 값 표시(annotation)하기 아래 그래프부터 그려보자. 먼저 데이터 프레임부터 보면, print(df) 년 2017 2018 성별 F 1789522 2655864 M 2852440 4467147 이를 ..
파이썬으로 데이터 시각화하기 1편. matplotlib. 쥬피터에서 데이터를 시각화 하는 일반적인 방법을 정리해보려고 한다. 1편은 matplotlib 을 다루는 것으로, 이후에 pandas, seaborn 등으로 다루기 전에, 가장 기초와 기본이 되는 상식이라 할 수 있다. 기본 형태 일반적인 matplotlib 방식을 따른다. matploblib 를 사용하던 사람에겐 가장 친숙한 형태이고, 처음하는 사람들한테는, 가장 1차원적이고 직관적인 방법이다. 일단 기본적인 꼴은 다음과 같다. import matplotlib.pyplot as plt # figure, 즉 그래프를 표현할 액자를 먼저 만든다. plt.figure() # figure 를 출력한다. plt.show() 여기에 이제 데이터를 추가해 그래프를 그려보자. 선 그래프 plt.figure() # (..