본문 바로가기

분류 전체보기

(249)
커널을 공부해본다. 목표는 Kaggle 에 있는 커널 최소 하루에 하나씩. 프로젝트니 대회니하고 깝치지 말고, 좀 더 충분히 공부를 먼저 해야겠다. 벌써 8월이 다가온다. 졸예하고 뭐했나 참. 하루에 최소 하나 이상!!! 까먹지 않고, 해보기로.
python 멀티 프로세싱은 parmap 으로 하자. [2020.07.24 에 남기는 글] 이 글은 레거시적인 성격이 있습니다. 파이썬에서 멀티프로세스, 쓰레드 이용하기 가장 좋은 법은 concurrent.futrues 에서의 ThreadPoolExecutor 와 ProcessPoolExecutor 를 사용하거나 asyncio 를 사용하는 것입니다. 따라서 이 글은 이제는 별로 추천드리고 싶지 않습니다. 파이썬3에서 일반적으로 멀티프로세스 사용하는 방법 최근에 파이썬으로 프로젝트를 하다가 단일 프로세스로 루프문 돌리니까 너어어무 느려서, 속도를 좀 올려보고자, 멀티프로세싱을 사용해보게 되었다. 파이썬3 에서 일반적으로 사용하는 멀티 프로세싱 방법은 다음과 같이 크게 2가지 방법이 있다. multiprocessing.Process(...) multiproce..
[All about 따릉이 EDA, 번외] 데이터에 없는 따릉이 대여소의 지역구 데이터 얻기 이번 글에서는, 데이터에는 없는 지역구에 대한 데이터를 얻는 방법을 다룬다. 기본적으로, 대여소명을 활용하고, 다음의 과정을 거친다. 공개된 대여소 데이터로 지역구 데이터를 얻는다. 대여소명과 카카오맵 rest api를 통해 얻는 방법에 대해 다룬다. 이 과정 중에, 카카오맵 rest api 사용법도 간략히 살펴보게 된다. 결과적으로 {대여소 이름: 지역구} 인 dictionary를 얻는다. 예를 들어 아래와 같다. {'MCM 본사 직영점 앞': '강남구', '교보타워 버스정류장(신논현역 3번출구 후면)': '강남구', '논현역 7번출구': '강남구', '신영 ROYAL PALACE 앞': '강남구', '압구정 한양 3차 아파트': '강남구', '압구정역 2번 출구 옆': '강남구', '압구정파출소 앞'..
[All about 따릉이 EDA, 6편] 대여소별 따릉이 대여건수 예측 이번 편에서는, 이전에 해볼만하다고 느꼈던 시간에 따른 따릉이 대여건수 예측을 해본다. 어떻게 따릉이 대여건수를 예측할 것이냐. 기본 아이디어는 Kaggle의 유명한 Competition 이었던, Bike sharing demand 문제해결과 동일하다. 즉, 한마디로 말해, 기본 자전거 이용량 데이터 + 날씨 데이터 로 대여건수를 예측한다. 한 시간뒤의 대여건수를 명확히 알 수는 없으나, 한 시간뒤의 날씨 데이터는 비교적 명확히 알 수 있고, 기상청에서 미리 공개된다. 따라서, 미래의 대여건수를 날씨예보를 활용하여 어느정도 예측이 가능할 거란 이야기다. 이는 Bike sharing demand 문제에서도 해결한 방식이다. 우리가 풀어야하는 문제는 회귀(Regression) 문제이다. 빠르게 만드는게 목적..
[All about 따릉이 EDA, 5편] 마포구, 따릉이는 얼마나 어떻게 이용되고 있을까? 이번 글에서는, 서울 시내 지역구 중, 15년도부터 꾸준하게 따릉이 이용률이 높았던 지역인 마포구에 대해 좀 더 자세히 알아보려 한다. 저번과 마찬가지로 18년 9월 데이터를 통해 살펴본다. (*9월은 1년 중, 따릉이 이용량이 가장 높은 달이다. 대표적인 패턴을 가장 잘 보여줄 수 있는 기간이라 생각하여 9월 한 달만을 표본으로 선택하였다.) 1. 이용 수치량 살펴보기 가장 먼저, 수치적으로 쉽게 살펴볼 수 있는 것부터 보자. 시간에 따른 이용량 패턴, 이용거리, 시간 등이다. 1.1. 시간대별 사용량 평일의 경우, 아침 8시와 저녁 18시에 고점을 찍는 패턴은,일반적인 서울시 따릉이 패턴과 같다. **한편, 아침 8시엔 반납량이 대여량보다 더 많고, 저녁 18시에는 대여량이 더 많은 걸로 보아서, 마..
[All about 따릉이 EDA, 4편] 따릉이, 유저 분석해보기 따릉이를 주로 타는 사람들은 과연 누구일까?? 남자일까? 여자일까? 또, 20대가 주로 탈까? 50대 이상은 잘 타지 않을까? 한편, 따릉이로 장거리 주행하는 사람들은 대체 누굴까?? 이번 글에서는, 이러한 호기심을 바탕으로, 따릉이 이용자에 대한 분석을 해본다. 데이터는 2017년 1월 ~ 2018년 12월 따릉이 데이터를 사용한다. 1. 성별로 나누어 살펴보기 1.1. 남자와 여자, 둘 중에 누가 더 많이 사용할까? 2년 동안의 남녀 이용량과 이용비율을 시각화 해서 보자. 너무나 직관적으로 다음과 같이 말할 수 있다. 남자가 더 많이 사용했고, 남성 이용자가 전체의 62.4% 다. 한편, 덧붙이면, 남자가 여자보다 65%(여자 이용기준) 더 많이 이용한다. 1.2. 년, 월별로 이용자의 남녀 비율 변..
[All about 따릉이 EDA, 3편] 따릉이 이용량 더 자세하게 살펴보기 이전 글에 이어, 이번에는 좀 더 딥하게 탐색해보기로 한다. 이전에는 15년 9월 - 18년 11월의 일일 데이터를 다루었다면, 이번에는 가장 최근에 이용량이 많았던 18년 9월 시간별 데이터만 보기로 한다. 이제부터는 요일, 시간 단위의 데이터를 볼 수 있다. 덧붙여, 아무래도 이전 글과 다른 데이터라, 별도로 글을 나누어 써본다. 1. 어떤 요일, 시간에 이용량이 많았을까? 가장 쉽게 떠오를 수 있는 질문이다. 요일, 시간, 그리고 지역별로 하나씩 살펴보자. 1.1. 요일별 이용량 평일보다 주말 이용량이 더 많은 것을 알 수 있다. 또, 평일 중엔 화요일 수요일이. 주말에는 토요일 이용량이 많다. 1.2. 시간별 이용량 평일과 주말에 따라 패턴이 다를 듯하여, 두 경우로 나누어 시각화 해보았다. 다음..
[All about 따릉이 EDA, 2편] 따릉이, 이용량은 얼마나 변했을까? 이번에 알아보려고 하는 것은, 2015년 9월 - 2018년 11월까지의 따릉이 사용량에 대한 이야기다. 즉, 이전에 없던 시간의 개념이 분석에 더해진다. 년도, 월에 따라 사용량이 어떻게 달라지는지. 각 지역별로 차이가 있는지 등, 시간에 따라 사용량이 어떻게 달라지는지, 세세히 살펴보자. 여기서 사용량은 대여량 + 반납량을 말한다. 1. 연, 월 기준 사용량은 어떨까? 먼저 연, 월 기준으로 막대그래프를 그려보자. 확실히 해가 지날수록, 사용량이 많이 늘고있음을 알 수 있다. 다음으로 월 기준으로 보면, 여름 전후인, 5월 그리고 9, 10월에 피크를 찍고, 가장 사용량이 많은 달은 9월이다. 추운 겨울과, 더운 여름에는 사용량이 줄어드는 듯 보인다. 무엇보다, 1년을 주기로 이러한 패턴을 보인다. ..