본문 바로가기
반응형

전체 글65

[python] 웹페이지 크롤링 - selenium에서 자주 사용하는 함수(1) (find_element) 이전 글에서 간단하게 Selenium를 사용하는 방법에 대해서 설명했다. https://dongdu-blog.tistory.com/5 [python] 웹페이지 크롤링 - selenium 시작하기 크롤링 업무가 막바지로 향하고있다. 그동안 너무 바빠서 글을 전혀 쓰지 못했었다.. 이제 슬슬 업무를 통해 새로 배운 것들을 정리하고 공유하려고 한다! Html에서 원하는 부분을 추출할 때는 Sel dongdu-blog.tistory.com 이번 포스팅에서는 자주 사용되는 함수들에 대해 설명하도록 하겠다. Selenium은 HTML 요소에 직접 접근하여 원하는 데이터를 스크래핑 할 수 있도록 하는 동적 크롤링 도구이다. 직접 사용자가 마우스로 웹 페이지를 조작하는 것과 유사하게 동작한다. 따라서 데이터가 화면에 .. 2023. 9. 21.
[python] 웹페이지 크롤링 - selenium 시작하기 크롤링 업무가 막바지로 향하고있다. 그동안 너무 바빠서 글을 전혀 쓰지 못했었다.. 이제 슬슬 업무를 통해 새로 배운 것들을 정리하고 공유하려고 한다! Html에서 원하는 부분을 추출할 때는 Selenium을 사용하여 얻을 수 있다. Selenium은 주로 WebDriver와 함께 사용하는 웹 스크래핑 도구이다. 나는 Chrome driver만 사용해 봤지만, 브라우저에 따라 firefox driver도 사용 가능하다고 한다. 웹 브라우저로 Chrome을 사용한다 가정하고, 현재 자신의 Chrome의 버전을 확인하여 Chrome driver를 설치한다. 1. Chrome driver 준비 1) 나의 Chrome 버전을 확인한다. 2) https://chromedriver.chromium.org/downl.. 2023. 9. 18.
[여의도] 별미볶음 2호점 7월 초 까지는 회사 근처 구내식당에서 주로 먹어왔지만, 7월 중순~ 말 부터 너무 덥기도 하고.. 맛있는것도 먹고싶고? 해서 근처 음식점 위주로 많이 다니고있다. 주로 IFC몰이나, 회사 건물 지하 등 가까운데 위주로 도장깨기 중이다. 그러던 중, 회사 선배님들이 여기 진짜 맛있다고 같이 데려가주셨던 곳이 있다. 별미볶음이었다. 별미볶음은 본점? 과 2호점이 있는데 나는 2호점밖에 안가봤다. 본점도 근처에 있긴 한데, 어쩌다보니 2호점으로만 가는중... 나름 맛집으로 유명한 곳이라 그런지 항상 줄 서서 먹어야한다. 기본 20분정도는 기다려줘야 함... 줄 서서 먹는게 좀 귀찮긴 하지만 사람들이 몰리는데는 이유가 있는 법~ 여의도 평균 점심 단가 대비 저렴한 편. 2023년 8월 기준 제육직화, 오삼직화.. 2023. 8. 16.
웹페이지 복사금지 푸는법 코딩을 하다보면 블로그 글에서 정말 많은 도움을 받는다. 그러나 가끔.. 복붙이 안되는 게시글을 보면 어느 세월에 이거 다 치고 있냐는 생각이 들 때가 많은데, 최근에 프로그램 없이 빠르게 복사금지(드래그 금지) 해제하는 법을 알게 되었다. 과정은 다음과 같다. 1. 복사하고 싶은 페이지 접속. (크롬이어야 함) 2. f12로 개발자 도구에 진입. 3. f12가 켜진 상태에서 f1 누르기. 4. 그대로 가장 아랫부분으로 이동하여 Debugger의 Disable JavaScript를 눌러 체크 해준다. 5. 드래그가 활성화된다. 6. 사진의 경우 당연히 텍스트가 아니므로 드래그가 안된다. 사진인지 복사금지 텍스트인지 확인하고 드래그 하자. 예전부터 복사금지 푸는 프로그램을 다운받아서 썼어서 이런 쉬운 방법.. 2023. 8. 14.
url이 바뀌지 않는 페이지 url 찾아내기 이번에 프로젝트를 하나 맡으면서, 크롤링을 통해 데이터를 수집해야 하는 업무를 맡았다. 이전에 크롤링을 몇번 해 봐서 파이썬을 통한 크롤링 방법은 알고있으나 완벽하게 이해하고 있지는 않고, 네트워크나 request 와 같은 웹에 대한 지식은 전무한 수준이다ㅋㅋ. 현재 내가 크롤링하려는 홈페이지의 경우 url이 변하지 않아서, selenium을 통해 클릭과 액션으로 어찌저찌 진행하여 텍스트는 긁어왔으나 url을 얻지 못하고 있는 상황이다. 이 문제를 해결하기 위해 관련된 블로그 글을 많이 읽어봤는데, 그 중 가장 가능성 높아 보이는 payload를 이용해 보기로 했다. 과정은 다음과 같다. 1. 먼저 url을 알고싶은 페이지의 이전 페이지에서 f12로 개발자도구를 연다. 2. f12 상단에서 Element.. 2023. 8. 14.
반응형