크롤링
-
크롤링 개발팁 - Redirect 금지소프트웨어개발 이야기 2020. 2. 18. 11:40
초급 개발자에게 프로그래밍 학습을 위한 콘텐츠로 크롤링만큼 "안녕~ 세상아!"를 출력하는 프로그램 코드 100번 작성하는 것보다 자신이 애용하는 웹사이트에 있는 내용을 가져와서 출력하는 프로그램 작성하는 게 훨씬 재밌기 때문이다. 언어를 가장 효율적으로 습득하는 방법 두 가지는 "자주 사용"하고 "재밌어야" 한다는 것이다. 프로그램 언어도 컴퓨터와 대화하기 위한 수단이기 때문에 실용성과 재미없이는 러닝 커브를 넘기가 쉽지 않다. 때문에 필자는 초급 개발자가 새로운 언어를 배우거나 스킬업이 필요할 때 크롤링 개발을 추천한다. 그런데, 단순히 학습 목적이 아니라 실제 크롤링 서비스를 개발을 하다 보면 고려해야 할 요소들이 나타난다. 가령 로그인이 필요한 페이지를 크롤링해야 할 경우도 있고, 화면(Client..
-
Postman 사용하기소프트웨어개발 이야기 2020. 2. 10. 14:02
크롤링을 보다 쉽게 해보자 크롤링 서비스를 만들기 위해서는 크롤링 대상 웹사이트에 대한 분석이 선행되야 한다. 그런데, 이게 은근히 일이다. 정보의 중요도가 높을 수록, 그 정도는 심해진다. 최근 포털에 제공하는 뉴스 콘텐츠 통계를 통합하여 리포팅하는 서비스를 개발할 일이 있었는데, 단순히 referer 체크부터, 로그인 세션이 필요한 경우 쿠키에 대한 분석 그리고 숨어있는 암호화 키까지... Google CAPTCHA 들어가 있는 녀석이 제일 끔찍하더라. 같은 이미지 찾으려면 패턴 분석이라도 해야 하려나. 무튼, 이걸 하나씩 다 따라가는게 은근 재밌으면서도(-_ -;;;) 시간과 노력이 필요한데, 이를 보다 편하게 할 수 있는 방법(크롬 브라우저)을 찾게 되어 정리한다. 늘 사용하던 REST API 도..