본문 바로가기

프로젝트들

데이터로 내 티스토리 블로그 EDA 하기

요즘에 좀 여유가 생겨, 이번 기회에 평소에 해보고 싶었던 내 블로그 분석글을 올려본다.
사실 분석이라고 하기엔 좀 거창하고 그냥 EDA 정도가 될 거 같다.

데이터 및 활용 도구는 티스토리 REST API구글 애널리틱스를 사용했다.


어떤 사람들이 내 블로그에 왔을까?

아마 블로그 하는 사람들이 은근 신경 쓰게 되는 것이 하루 방문자 수이지 않을까 싶다.
마치, 예전 싸이월드 미니홈피의 TODAY 수랑 비슷한 느낌이라고 생각하면 된다.

특히 블로그인 만큼 내가 올린 포스팅에 대한 어떤 보상이자, 내 블로그가 성장(?)하고 있음을 직접적으로 느끼게 해주는 지표라고 생각한다. 그리고 무엇보다 블로그 관리자 대시보드에 들어가면 제일 잘 보이는 곳에 위치해있다.
그래서 내 블로그를 들어오는 사람들에 대한 내용을 첫 번째 주제로 잡았다.

분석 기간은 2019년도 1월 1일 - 2020년 2월 27일 (현재) 로 두었다.
하지만 구글 애널리틱스에서 6월 중순부터 데이터가 잡히기 시작한 듯 하여, 일부 데이터는 6월 이후가 되기도 한다.

1) 사람들이 얼마나 들어왔을까?

이 글을 쓰기 시작한 시점은 2월 25일. 아직 2월이 끝난게 아닌데도!

작년부터 꾸준히 월간 방문 수가 증가하고 있다. 방문 수라고 하면 유저 수가 아닌 PV(Page View) 수 인 거 같다. 이번 달 기준, 일일 방문 수는 평균적으로 600 - 800 사이다.
감소가 한 번도 없이 꾸준히 증가한다는 게 좀 인상적이긴 하다. 조금만 있으면 10만 누적 방문수에 도달할 거 같다. 와!

실질적으로 들어오는 사람 유저 수(세션 수)는 GA를 통해 다음과 같이 볼 수 있다. (물론 구체적인 수치는 정확하지 않을 거라 생각하지만)

당연히 PV 보다 작다. 즉 한 사람이 들어와서 1개 이상의 페이지를 봤을거라는 말이다.
실제로, 세션 당 페이지 수를 확인해보면 다음과 같다.

세션당 페이지 수도 점점 증가한다. 즉, 블로그에 한 번 들어와서 하나의 글만 보고 나가는게 아니라, 다른 글도 본다는 의미다. 이 값이 증가하는게 실질적으로 내 블로그가 좀 더 흥미를 끄는 블로그가 되고 있음을 보여주는 거라고 생각한다.
이번 달 기준으로 세션당 페이지수는 평균 3.03 이란다. 앞으로 이 값이 더 오르면 좋겠다!

2) 주로 언제 들어왔을까?

기간 동안의 방문 그래프를 쭈욱 보면, 일정한 그래프 패턴이 보인다.

요일과 시간 중심으로 살펴보면 다음과 같다.

보통 평일 낮 시간대에 유입이 제일 높다. 다만, 금요일에는 다른 평일보다 조금 떨어지는 경향을 보인다.
확실히 금요일은 다른 날 보다 공부나 일에 집중이 떨어지는 걸까? 나만의 경험이 아니었던 것인가!

주말에는 평일보다 확실히 낮다. 위 그래프 패턴에서 훅훅 떨어지는 구간이 바로 주말임을 알 수 있다.
한편, 늦게까지 블로그에 들어오는 사람들도 대부분 1시까지다.

대부분 Organic Search (구글, 다음 검색) 으로 들어온다.
기술 내용을 '일부' 담고 있는 블로그 특성상 당연한 듯?!

3) 어떤 사람들이 들어왔을까?

18 - 34 나이대가 압도적으로 많다. 사실 IT 관련 컨텐츠 어딜 가나 다 이런 패턴일 듯.
여자는 생각보다(?) 많았다. 파이 그래프가 보이는가? 무려 1/4 이나 차지하고 있다!
이 정도 비율... 공대에서는 흔치 않다구...

재 방문한 사람의 비율도 알 수 있었는데, 내 블로그에 처음 들어온 사람이 아닌 경우를 말하는 것 같았다.
여하튼 정확한 수치인지는 모르겠지만 약 18% 정도가 재 방문하는 사람들이라고 한다.
내 경험상 구글 서치 엔진이 이전에 클릭했던 페이지를 더 상위에 노출시키는 듯했는데 그런 여파가 아닐까 싶다.

또 구글 애널리틱스의 사용자 탐색기를 보면 들어온 사람들의 로그를 볼 수 있는데, 좀 재밌는 게 있다.

맨 위에 있는 사람, 어떤 분이길래 내 블로그에 390번이나 들어왔을까?
순간 나인가 싶어서, 로그 기록을 상세히 보았다.

로그 보면.. 나 아니다... 누굴까??
아무튼 되게 열심히 봐주신다니 고맙다.


난 어떤 글들을 썼을까?

이번에는 블로그에 올린 글들을 한번 살펴보려 한다.
내가 뭘 해왔는지 좀 알 수 있지 않을까 싶다.

1) 나는 그동안 몇 개의 글들을 썼을까?

월별 포스팅된 글 수를 살펴보자.

총 포스팅 개수는 184개.
2019년도 들어서 되게 많이 썼다. 1~2월에는 인턴 하느라 바빠서 포스팅 수가 0이었고 4월에는 한창 공부 뿜빠이할 때였나 보다. 42개나 썼네...

각 포스팅은 하나 이상의 카테고리를 달고 있는데, 이번에는 카테고리 데이터도 얹어서 봐보자.

Area Chart 다. 각 해당 카테고리의 넓이가 포스팅 개수라고 보면 된다.

역시 3~4월에는 취업 시즌이라 그런지, '취업과 기본기 튼튼' 에 속하는 글이 많았다.
'공부하며 적어놓기 1' 에는 파이썬 위주의 글들이 많은데, 이때 인턴 끝나고 파이썬 공부를 더 했던 게 생각이 난다.

7월에는 '프로젝트' 관련 글, 따릉이 EDA를 올렸었다. 그래서 저기가 저렇게 뾰족하다.
9월에 다시 취업 시즌이라 '취업과 기본기 튼튼' 글들이 많다.
나란 놈, 취업 시즌이 다가와야 저렇게 급하게 공부하는 걸까...

그나마 '공부하며 적어놓기 1' 글들은 꾸준히 쓴 듯하다.
2020년 들어서는 '공부하며 적어놓기 2' 글들이 급 상승한다. 모두 JAVA 관련된 글들이다.

이번에는 시간대별로 한번 봐보자.
내가 주로 올리는 시간대가 있었을까?

각 막대그래프는 해당 시간에 올라간 글의 개수다.

17시나 23시에 제일 많이 포스팅했다.
뭔가 낮에 공부한 거 정리하거나, 침대 눕기 전에 포스팅 올리고 자러 간 거 같다.
새벽 한 시까지도 올린 적 있다니, 좀 열심히 한 거 같아서 뿌듯하네.
근데 새벽 3시... 에도 올린 적이 있네?

혹시 시간대별로 올라간 카테고리 수가 좀 차이가 나지 않을까 싶어서 이것도 한번 살펴봤다.

각 막대그래프는 해당 시간에 올라간 글 중, 해당 카테고리의 글의 비율이다.

이렇게 보니 확실히 14-17 시에 '공부하며 적어놓기 2' 글들을 많이 올렸다.
아무래도 낮에 카페에서 인프런 자바 강좌 들으면서 바로바로 필기하고 포스팅한 듯?

18-23 시에는 '취업과 기본기' 글들이 비중이 높다.
하기 싫은 건 저녁으로 미뤄서 한 건가 ㅋㅋㅋㅋㅋ

3시에 뭐 올렸나 했더니, 프로젝트 관련 글이었네.
그치, 그런 글들은 아무래도 마무리 잘 지어서 블로그에 올리고 딱 기분 좋게 자고 싶은 게 있다.

2) 어떤 글들을 썼을까?

나는 어떤 글들을 썼을까?
먼저 큰 상위 카테고리 기준으로 그 비율을 살펴보자.

'취업과 기본기 튼튼', '공부하며 적어놓기 1', '공부하며 적어놓기 2' 관련 글들이 순서대로 제일 많았다.
이 상위 3개 카테고리만 좀 더 살펴보자.

이 3개 각각의 하위 카테고리의 비율을 살펴보면 다음과 같았다.

  • 취업과 기본기 튼튼
    • 코딩 테스트도 CS 공부(빽 투더 기본기)도 거의 반반 비율이다.
    • 중간에 2%는 하위 카테고리 설정이 안 된 글이다.
  • 공부하며 적어놓기 1
    • 비율에 뭐 큰 차이는 없는 듯.
    • 데이터 시각화 관련 글이 27%로 그나마 비중이 제일 높다.
    • 그다음엔 머신러닝이랑 데이터 with 파이썬이 높다.
  • 공부하며 적어놓기 2
    • 이건 뭐 그냥 사실상 백엔드 공부하며 기록해놓으려고 만든 카테고리라...
    • 웹 백엔드 with 자바 글만 있다고 보면 될 거 같다.
    • 나중에 자바 공부도 해서 '자바로 개발하기' 이거도 채워야지

이번엔 각 카테고리에 어떤 글들이 올라왔는지 살펴보자.
LDA를 이용했고 Topic 개수는 각 카테고리의 하위 카테고리 개수만큼 설정했다.
corpus는 글 제목으로 구성하였다. 글 내용으로 하면 뭔가 제대로 된 결과가 안 나온다.

슬프게도 수치상으로 보면 별로 유의미한 LDA 결과라고 보이지는 않지만...
그래도 개략적으로나마 어떤 글들이 올라왔는지 이렇게나마 볼 수 있다.
키워드만 봐도 뭐했는지 나는 그냥 다 떠올라서 별도의 설명을 적지는 않겠다.

중간중간에 한글이 깨져 나오는데, 이건 이유를 모르겠다.. 해결 방법 아시는 분?!

3) 어떤 글이 인기 많았나?

어떤 글들이 인기가 많았을까? 여기서 PV (페이지 뷰) 를 지표로 두겠다.
상위 top 10 개 포스팅은 다음과 같았다.

각 막대그래프는 해당 글의 총 PV 값을 나타낸다.

  • pip3? pip? 및 conda 내 pip 정리
    • 이거 내 티스토리 대시보드에도 꾸준히 가장 높은 방문 수를 보이던 글이다.
    • pip 사용하다가 나처럼 헷갈리시던 분들이 많았나 보다.
  • 파이썬으로 데이터 시각화하기 1편. matplotlib
    • 작년에 한창 시각화로 애쓰다가, 이렇게 겪은 시행착오 다 정리해놔야지 해서 썼던 글
    • matplotlib -> pandas.plot -> seaborn -> plotly 순으로 쓰려고 했으나
    • 1편으로 끝나버린 시각화 정리 글 ㅋㅋㅋㅋㅋㅋ
    • 여담이지만 나는 pandas.plot 이 제일 편하고, 커스터마이징은 matplotlib으로 한다.
    • 근데 요즘은 애초에 cufflinks + plotly 만 사용하려는 중.
  • 파이썬 정렬, 다중 조건으로 한 번에 하기
    • 한창 최대한 '파이썬 스럽게' 코딩하는 거에 신경 쓸 때 쓰던 글이다.
    • 파이썬 내장 기능을 이용하면 여러 조건의 소팅도 매우 쉽게 가능하다.
    • 코딩 테스트 문제 풀 때 아주 유용함.

그 외에도 보면, 대부분 파이썬 코딩에 대한 팁이거나 데이터 시각화 위주의 글들인 듯?

이번에는 상위 10개 글들의 평균 머문 시간을 살펴보자.

각 막대그래프는 해당 글의 평균 머문시간(초) 를 나타낸다.

[지도 데이터 시각화] Part 4. Folium 살펴보기 가 압도적이다.
아무래도 내용도 많고, 코드가 많아서 그런 거 같다.

뭐 이 외에도 PV 와 평균 머문 시간과 어떤 상관관계가 있지 않을까? 등이 있지 않을까 싶었지만, 딱히 그런 관계는 없었다. 아래 그림 참고.

상관계수는 피어슨 상관계수를 사용했다.

한편, 카테고리 기준으로 PV의 비율을 살펴보면 다음과 같다.

공부하며 적어놓기 1 이랑 취업과 기본기 튼튼 비율이 대부분이다.
좀 더 하위 카테고리로 보면

데이터 시각화랑 파이썬으로 데이터 다루는 글들이 전체 PV의 50% 이상이나 차지한다.
음 이런 쪽의 글들이 인기가 많군.
나중에 블로그 조회수 올리고 싶으면 이쪽 글들을 좀 써봐야겠다 ㅋㅋㅋㅋ


마무리

분석까지는 아니고 그냥 EDA로 블로그를 능력껏 살펴봤다.
뭐 별다른 의미는 없고, 아 내가 이런 글들을 올렸구나... 이런 글들이 인기가 많네? 정도 느낄 수 있었던 듯.
LDA 가 잘 안돼서 아쉬웠은데, 아무래도 블로그 글이 더 쌓여야 의미 있게 될 거 같다.

하루 이틀이면 될 줄 알았는데 생각보다 시각화에서 너무 시간을 질질 끌었다...
하면서 plotly 에서 매우 짜증 났음... 잘 만들었다가 싶으면서도 또 뭔가 세세하게 안되거나 인터페이스가 이상한 게 종종 있다. 다음에 시간 날 때 제대로 공부해서 아예 Plotly 소개하는 식으로 글을 써야겠다.

요즘 구독자가 아주 조금씩 느는데, 나중에 구독자가 좀 쌓이면 나도 내 블로그 구독자 EDA 나 해봐야겠다.

위 분석을 하며 사용한 코드와 노트북은 이 링크에 공유해두었다.