본문 바로가기
728x90
반응형

크롤링2

JDBC 개발자 수업 85일차 - 크롤링(crawling) - 셀레니움, 웹 자동화 프로그램 셀레니움(Selenium) 셀레니움(Selenium) - 웹 응용 프로그램(웹 사이트)에서 자동화 프로그램을 만들 수 있다. - 사람 대신에 프로그램이 사람처럼 웹 사이트에 방문해서 여러가지 행동(테스트)를 하는 프로그램 - 크롤링 작업이 가능하다. [ Jsoup 사용방식 ] - 인증이 불필요한 사이트만 사용 가능 - 인증이 필요한 사이트에서는 사용 불가능 - JavaScript 실행이 필요한 페이지에서는 사용이 불가능(Ajax가 대부분을 차지한다.) [ 준비 작업 ] - 크롬 웹 드라이버 설치: https://chromedriver.chromium.org/downloads (꼭 자신의 크롬 버전에 맡게 설치할 것) - 셀레니움 Java 버전 설치: https://www.selenium.dev/downl.. 2021. 7. 28.
JDBC 개발자 수업 84일차 - 크롤링(crawling) 크롤링(crawling) 크롤링(crawling) [ 정의 ] - 웹상의 페이지들에게서 내가 원하는 정보를 수집하는 행위 - ex) 맛집 블로그 방문 > 식당 정보를 얻고 싶다면? > 블로그의 소스를 긁어서 원하는 데이터 추출 > "크롤링" [ 주의점 ] - 허가 문제, 저작권 문제가 상당히 많다. ( 크롤링을 하려면 "정도껏" 긁는 작업을 해야한다. ) - 이유? 프로그램 > 속도 빠름 & 횟수 많음 > 서버 입장 > 트래픽 과부하 > 소송 > 크롤링 금지(동작 불능) 사이트가 많아졌다. [ 크롤링을 하려면? ] 1) HTML / CSS 이해도 ( JavaScript 조금 ) 2) jsoup 다운로드 https://jsoup.org/download Download and install jsoup Dow.. 2021. 7. 28.
728x90
반응형