Contents

FreeTalk
2018.03.19 17:49

후니넷에 접속하는 검색 키워드

조회 수 1337 댓글 0
Atachment
첨부 '1'
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄

또 하나의 잉여짓..


3월 부터 후니넷(hooni.net) 평일 기준 일일 방문자가 천 명이 넘었다.

크롤링하는 봇인지 실제 사용자인지.. 그리고 실제 사용자라면 어떤 경로로 접속을 하는지..

그 유입 경로를 확인해보려고 PHP로 프로그램을 간단한 만들어서 HTTP Referer 로그를 쌓고 그 데이터를 살펴봤다.

굳이 왜 직접 만들었냐면..? 처음엔 XE의 플러그인을 적용했더니 사이트 속도가 현저히 떨어졌고 이후로 몇 가지 외부 Tool을 사용해 봤지만 데이터를 실시간으로 확인할 수 없거나 일부 데이터만 일시적으로 제공하는 등.. 내 입맛에 맞는 것을 찾지 못했기 때문이다.

(혹시 제가 만든 것과 비슷한게 이미 있었다면.. 추천 좀 ㅠㅠ;)


유입 경로와 검색 키워드에 대한 히스토리는 아래 링크를 통해 접속할 수 있고,

관리자가 아니라도 모든 데이터를 열람할 수 있다.




parsed01.png


몇 주 동안 데이터를 모아 확인해보니 주로 실제로 Google, Naver, Daum, Nate 등의 검색엔진을 통해서 유입되고 있었다. 크롤링 봇(Crawling Bot)도 꽤 있었지만 그들이 실제 사용자를 물어오고 있다는 것이니 나쁘지 않았다. 처음엔 단순히 Raw 데이터를 저장하고 원시적으로 확인하는 정도였지만 데이터가 쌓이니 검색어만 추출하고 관리해보고 싶다는 생각이 들었다. 그래서 Raw 데이터를 수집하는 부분만 분리해서 더 빠르게 실행될 수 있도록 했고, Referer 정보를 가공하고 필요한 정보를 추출하는 등의 기능에 대한 DB 스킴과 로직을 단계별로 추가했다.


다행히(?) 국내 검색엔진들을 통해서 검색 키워드를 추출해서 저장하는데 어려움이 없었다. 하지만 Google은 더 이상 Referer에 검색 키워드 정보를 제공하지 않는다.

Google은 개인정보와 보안 이라는 그럴 듯한 핑계로 제공하지 않는다고 하지만 사실 자체 서비스(구글 웹마스터; Google Analytics)에서 통계 정보를 독점하려고 제공하지 않는 듯 하다. 실제로 검색 결과에서 해당 링크로 이동하기 전에 Referer 정보와 그 해시를 자체적으로 저장한 후, 이동 시 Referer 정보를 없애버리는 것 같다.


Naver도 언젠가는 Google처럼 Referer의 정보를 없애버릴 것 같지만, 아직까지는 친절하게 이전의 검색어 정보까지 oquery라는 파라미터로 얻어낼 수 있었다.

그리고 Daum 쪽의 쿼리를 보면서 좀 특이한 부분을 발견했다. Nate가 Daum의 검색엔진을 쓰고 있는 듯 했다. 싸이월드가 한참 잘나갈 때 SK커뮤니케이션즈에서 일했던 나로써는 Nate의 약한 모습이 안쓰러울 뿐이다. 실제 사업적으로 어떤 관련이 있는지는 모르지만 단지 데이터만 가지고 확인할 수 있었던 것은 daum.net/search? 일 때는 실제 Daum 데이터를 검색하는 것이고 daum.net/nate? 일 때는 Nate 데이터를 검색하는 것 같다.

그 밖에 Zum을 통해서 유입되는 경우도 간간히 있다는게 신기하다.


키워드는 대부분 프로그래밍 관련 단어들인데 그 중 좀 억울하고 부끄럽고 특이한 단어는..

"일본야동" 관련..

모두 이 컨텐츠로 연결되고 있었다. (실제로.. 야동은 없다!! ㅋㅋ)

일본야동 스샷 hooni.net/67319


어찌됐든...

악의적이거나 의미 없는 봇의 접속이 아니라 실제로 검색엔진을 통해서 유입된다는 경우가 많았다는 사실을 확인했고 최근 몇 주 동안 그 검색 키워드와 관련 컨텐츠를 다시 보는 재미가 있었다.

이 후 주기적으로 통계를 작성하는 스크립트도 만들고 그 결과 시각화하는 기능을 추가해 볼 예정이다.




?

List of Articles
번호 분류 제목 글쓴이 날짜 조회 수
899 FreeTalk MBTI 궁합 보기 file hooni 2020.06.15 1527
898 FreeTalk 하자가 잔뜩 있는 생명체 file hooni 2020.03.24 851
897 FreeTalk 현대 질병, 번아웃 증후군 이겨내기 file hooni 2020.03.24 738
896 FreeTalk 카메라 조리개, 셔터, ISO 설명 file hooni 2020.03.24 907
895 FreeTalk 기업은 언제 망하는 거임? file hooni 2020.03.24 577
894 FreeTalk 코난 오브라이언의 얘기 file hooni 2020.03.24 420
893 FreeTalk 낭만닥터 김사부2 16회 부제목 file hooni 2020.02.29 789
892 FreeTalk RPA 구축과 업무 효율성 file hooni 2020.01.28 793
891 FreeTalk 우한 바이러스 (신종 코로나 바이러스) hooni 2020.01.28 507
890 FreeTalk 인생이란 얼마를 버는지가 중요한게 아니라 file hooni 2019.12.06 1022
889 FreeTalk 성공의 비용 file hooni 2019.12.06 562
888 FreeTalk 질투보다 내가 행복하면 되는거지 file hooni 2019.12.06 542
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 80 Next
/ 80