본문 바로가기

데이터와 함께 탱고를

(38)
커널을 공부해본다. 목표는 Kaggle 에 있는 커널 최소 하루에 하나씩. 프로젝트니 대회니하고 깝치지 말고, 좀 더 충분히 공부를 먼저 해야겠다. 벌써 8월이 다가온다. 졸예하고 뭐했나 참. 하루에 최소 하나 이상!!! 까먹지 않고, 해보기로.
pandas, bar 그래프(plot) 이쁘게 그리기 이 글의 결과물은 쥬피터에서 아래와 같은 그래프를 그리는 것이다. 이쁘게 그린다고 적어놓긴 했지만, 실제로 다루는 내용은 다음과 같다. 수직, 수평 막대 그래프 위에 값 표시(annotation)하기 수직, 수평 막대 그래프 안에 값 표시하기 그래프 figure 박스 제거 pandas 데이터프레임으로 그래프를 그리는 방법은, matplotlib.pyplpot, pandas.plot(), seaborn 등이 있지만, 여기서는 pandas.plot() 을 기본으로 사용한다. 수직, 수평 막대 그래프 위에 값 표시(annotation)하기 아래 그래프부터 그려보자. 먼저 데이터 프레임부터 보면, print(df) 년 2017 2018 성별 F 1789522 2655864 M 2852440 4467147 이를 ..
pyplot 그래프의 범주박스 위치 변경하기 matplotlib.pyplot 그래프에서 범주(legend) 의 위치를 조정하고 싶을 때가 있다. 일반적으로, 범주는 다음과 같이 그린다. print(df) 성별 F M 년 2017 0.380887 0.619113 2018 0.372857 0.627143 df.plot(kind='barh', stacked=True, title="년도별 남녀 이용비율", rot=0, ax=axes[0], colors=['C1', 'C0']) plt.show() 데이터의 프레임의 열(column) 에 맞춰 라벨(label)이 생기고, 별도로 옵션을 지정해주지 않으면 dataframe.plot() 은 알아서 그려준다. 문제는, 저 범주 박스를 내가 좀 커스터마이징해서, 좀 이쁘게하고 싶은데 어떻게 건드릴 수 있냐는 것이다...
네이버 커넥티드 연수원 간다~! 이번주 면접갔다가, 엄청 죽쒀서 별로 기대 안했는데, 쩌도보니 붙었다. 뭐 암튼 좋다. 커넥티드 연수원 작년 5월에 가보고, 다시 또 가보게 되었다~! 시각화나 분석, 전달에 대한 고민과 이슈들을 가지고 있었는데, 이번 기회로 좀 제대로 알게되었음 좋겠다. 암튼 갔다와서 후기 남겨야지.
folium 의 plugins 패키지 샘플 살펴보기 2 저번 포스팅에 이어, examples 에 있는 plugins 관련된 기능들을 좀 더 살펴보려 한다. DualMap This plugin is using the Leaflet plugin Sync by Jieter: https://github.com/jieter/Leaflet.Sync The goal is to have two maps side by side. When you pan or zoom on one map, the other will move as well. import folium import folium.plugins The DualMap class accepts the same arguments as the normal Map class. Except for these: 'width..
folium 의 plugins 패키지 샘플 살펴보기 지리 데이터 시각화 라이브러리인 folium 쓰다가, 공식 도큐먼트를 보고 조금 놀랐다. documentation을 비롯한 examples 들이 생각보다 잘 정리되었기 때문… 정말 이래야 쓸 맛이 난다. Folium, 지리 데이터 시각화 라이브러리 folium 은 leaflet.js 를 파이썬 + 쥬피터에서 쓸 수 있게 만들어놓은 라이브러리다. 이전에 웹에서 지도를 그려본 사람이라면 leaflet 을 알텐데, 뭐 여하튼 경량화 되어있고, 모바일에도 최적화되어있는 유명한 라이브러리다. 아무튼, 이런 라이브러리를 파이썬에서 사용할 수 있는건, 꽤나 강력하다는 생각이 든다. folium 공식 깃허브 https://github.com/python-visualization/folium folium 공식 docum..
세 집단 이상의 평균차이에 대한 가설 검정 이전에는 단일 집단 혹은 두 집단의 평균 비교분석을 공부했었다. 이제 그 다음 단계로 세 집단 이상의 평균 비교분석에 대해 공부해본다. 대부분의 글들과 내용은 Sapientia a Dei님 유튜브 에 있고, 이 글은 이 강의를 보고 개인적으로 정리해놓은 내용이다. 세 집단 이상의 평균차이에 대한 가설 검정 예를 들면, 이런 식이다. 어떤 금융회사에서 고객의 총 지출금액이 지불방법에 따라 차이가 나는지 알고싶어 한다. 지불 방법은 다음과 같은 방법이 있다. 실시간 계좌 이체 신용카드 무통장 입금 지불 방법에 따라 세 집단이 등장하고, 각 방법에 따른 총 지출금액의 평균이 등장한다. ANOVA (ANalysis Of Variance), 분산 분석 Z-test, T-test 가 안되는 이유 두 개 이하의 집단..
두 집단의 평균차이에 대한 가설 검정 가설 검정을 배우는 이유는, 실제로 써먹기 위함이고, 써먹으려면 실제 현실의 여러 상황에 맞게 배워야 한다. 고로, 현실의 여러 상황들을 정의하고 분류한 뒤, 각 상황에 맞는 테스트를 배우는 것이 가설검정의 목표라고 할 수 있겠다. 대부분의 글들과 내용은 Sapientia a Dei님 유튜브 를 참고한다. (매우 잘 설명되어있어서, 금방 볼 수 있다.) 한 집단의 가설검정 이전까지의 가설검정은 하나의 집단, 즉 단일 집단에 대한 가설 검정 내용이었다. 예를 들어, 다음과 같은 상황과 질문이었다. 배터리 A의 수명은 1년이라고 알려져있는데, 최근 소비자들로부터 1년이 아닌 것 같다는 말이 나오고 있다. 이에, 배터리 A 25개를 표본으로 뽑아 조사하였더니, 평균 수명이 11개월이 나왔다고 한다. 어느 의견..