'Web 크롤링' 카테고리의 글 목록

서울 중구청 조직도 크롤링 Python 코드 (1)	2025.03.16
강동구청 조직도 크롤링 (0)	2025.03.02
종로구청 조직도 크롤링 (0)	2025.03.01
[Python] 종로구청 동주민센터 크롤링 (0)	2025.02.18
정부(행정안전부) 주소 검증 (0)	2024.04.20

네이버 증권 뉴스 크롤링 (0)	2025.04.05
강동구청 조직도 크롤링 (0)	2025.03.02
종로구청 조직도 크롤링 (0)	2025.03.01
[Python] 종로구청 동주민센터 크롤링 (0)	2025.02.18
정부(행정안전부) 주소 검증 (0)	2024.04.20

네이버 증권 뉴스 크롤링 (0)	2025.04.05
서울 중구청 조직도 크롤링 Python 코드 (1)	2025.03.16
종로구청 조직도 크롤링 (0)	2025.03.01
[Python] 종로구청 동주민센터 크롤링 (0)	2025.02.18
정부(행정안전부) 주소 검증 (0)	2024.04.20

서울 중구청 조직도 크롤링 Python 코드 (1)	2025.03.16
강동구청 조직도 크롤링 (0)	2025.03.02
[Python] 종로구청 동주민센터 크롤링 (0)	2025.02.18
정부(행정안전부) 주소 검증 (0)	2024.04.20
파이썬 selenium CentOS 7 환경설정 및 juso.go.kr 자료 파싱처리 (0)	2024.03.25

강동구청 조직도 크롤링 (0)	2025.03.02
종로구청 조직도 크롤링 (0)	2025.03.01
정부(행정안전부) 주소 검증 (0)	2024.04.20
파이썬 selenium CentOS 7 환경설정 및 juso.go.kr 자료 파싱처리 (0)	2024.03.25
파이썬 selenium 드라이버 설치 없이 사용하자. (0)	2024.03.24

네이버증권 일별 시세 크롤링 (0)	2024.08.24
네이버 증권 오늘의 종가 및 고가 크롤링 (0)	2024.08.18
네이버 증권 최대주주 지분율 크롤링 (0)	2024.08.17

네이버증권 52주최고 주가 크롤링 (0)	2024.08.25
네이버 증권 오늘의 종가 및 고가 크롤링 (0)	2024.08.18
네이버 증권 최대주주 지분율 크롤링 (0)	2024.08.17

네이버증권 52주최고 주가 크롤링 (0)	2024.08.25
네이버증권 일별 시세 크롤링 (0)	2024.08.24
네이버 증권 최대주주 지분율 크롤링 (0)	2024.08.17

네이버증권 52주최고 주가 크롤링 (0)	2024.08.25
네이버증권 일별 시세 크롤링 (0)	2024.08.24
네이버 증권 오늘의 종가 및 고가 크롤링 (0)	2024.08.18

종로구청 조직도 크롤링 (0)	2025.03.01
[Python] 종로구청 동주민센터 크롤링 (0)	2025.02.18
파이썬 selenium CentOS 7 환경설정 및 juso.go.kr 자료 파싱처리 (0)	2024.03.25
파이썬 selenium 드라이버 설치 없이 사용하자. (0)	2024.03.24
네이버 증권 정보 크롤링 예제 2 - 일별 시세 정보 가져오기 (0)	2023.03.31

파이썬 selenium CentOS 7 환경설정 및 juso.go.kr 자료 파싱처리

Web 크롤링/Python Crawling 2024. 3. 25. 00:05

윈도우즈 환경에서 잘 동작하던 코드가 리눅스(CentOS 7) 환경에서 테스트하니까 동작이 안된다.

아래와 같이 설정하면 제대로 동작되는 걸 확인할 수 있다.

1. Google Chrome 설치

yum -y install https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm

2. Chrome Driver 설치

먼저 google-chrome --version 을 실행하여 현재 버전을 확인한다.

wget https://storage.googleapis.com/chrome-for-testing-public/123.0.6312.58/linux64/chromedriver-linux64.zip
로 파일을 다운로드 한다.

압축을 풀고 chromedriver 파일을 아래와 같이 옮긴다. (이게 중요하더라)

mv chromedriver /usr/bin/

3. 이제 코드 상에서 동작되도록 구현된 코드를 살펴보자.

chromedriver 를 /usr/bin 으로 옮겨서

driver = webdriver.Chrome(options=options) 만으로 코드가 잘 동작된다.

구글링해보면 아래와 같은 설정으로 동작이 되는 것처럼 설명되어 있지만...

driver = webdriver.Chrome(
executable_path='크롬드라이버 설치경로', options=options
)

로 테스트 한 것은 동작이 안되었다.

pip install selenium 을 하면 4.18.1 버전이 설치된다. (pip list 로 확인)

# pip install selenium  
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
 
import time
 
def jusoGet(keyword):
    # 크롬 드라이버 생성
    options = Options()
    options.add_argument("headless") # 창 숨기는 옵션
    options.add_argument("--no-sandbox")
    driver = webdriver.Chrome(options=options)
    #driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)
 
    # 사이트 접속하기
    url = 'https://www.juso.go.kr/support/AddressMainSearch.do?searchKeyword='
    driver.get(url+keyword) # url 페이지로 이동
    time.sleep(2) # 로딩 대기
 
    try:
        h = driver.find_element(By.XPATH, value='//*[@id="list1"]/div[2]/span[2]').text
        print(h)
    except:
        pass
 
 
if __name__ == "__main__":
    keyword = '서초구청'
    jusoGet(keyword)

Python3.9 버전이 설치된 환경 변수 설정 방법

1. Python 환경변수 3.9 설정 (alias)
vi /etc/profile
 
alias python3='/usr/local/bin/python3.9'
alias python='/usr/local/bin/python3.9'
alias pip='/usr/local/bin/pip3.9'
 
source /etc/profile
 
2. 설치 확인
python
python3 -V

Python 3.9 버전과 3.11 버전 모두 정상 동작함을 확인했다.

728x90

저작자표시 비영리 (새창열림)

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

[Python] 종로구청 동주민센터 크롤링 (0)	2025.02.18
정부(행정안전부) 주소 검증 (0)	2024.04.20
파이썬 selenium 드라이버 설치 없이 사용하자. (0)	2024.03.24
네이버 증권 정보 크롤링 예제 2 - 일별 시세 정보 가져오기 (0)	2023.03.31
네이버 증권 정보 크롤링 예제 1 - 상장주식수 가져오기 (0)	2023.03.26

Link2Me

,

파이썬 selenium 드라이버 설치 없이 사용하자.

Web 크롤링/Python Crawling 2024. 3. 24. 10:57

오랫만에 크롤링을 해보려고 하니까 selenium 드라이브 설치없이 auto 로 설정하는 옵션이 전혀 동작하지 않는다.

버전업이 중단되어서 동작이 안되는가 보다.

방식이 새롭게 변경되었다는 걸 검색하고 테스트 해본 결과 확인했다.

아래 코드를 CentOS 7 에서 실행해보니 안된다. Windows10 환경에서는 잘 된다.

CentOS 7 환경에서 성공한 사항은 다음 게시글에 기록해둔다.

# pip install -U selenium  # Selenium is upgraded to v4.0.0
# pip install webdriver-manager  # Webdriver Manager for Python is installed
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
 
import time
 
def jusoGet(keyword):
    # 크롬 드라이버 생성
    options = Options()
    #options.add_experimental_option("detach", False) # 브라우저 창 떳다기 사라지기(False), 계속 유지(True)
    options.add_argument("headless") # 창 숨기는 옵션
    driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)
    # driver.maximize_window() # 브라우저 창 최대로 하는 옵션인데 필요없을 거 같다.
 
    # 페이지 로딩이 완료될 때 까지 기다리는 코드
    driver.implicitly_wait(1)
 
    # 사이트 접속하기
    url = 'https://www.juso.go.kr/support/AddressMainSearch.do?searchKeyword='
    driver.get(url+keyword) # url 페이지로 이동
    time.sleep(2) # 로딩 대기
 
    try:
        h = driver.find_element(By.XPATH, value='//*[@id="list1"]/div[2]/span[2]').text
        print(h)
    except:
        pass
 
 
if __name__ == "__main__":
    keyword = '서초구청'
    jusoGet(keyword)

크롬 브라저에 맞는 driver 설치방법 → 불필요

드라이버 설치하고 해보면 아래와 같은 경고 문구가 나온다.

DeprecationWarning: executable_path has been deprecated, please pass in a Service object

아래 내용은 불필요한 사항이지만 나중에 보면서 이런 적도 있었구나 하는 셈치고 적어둔다.

chrome://settings/help 를 크롬 브라우저에서 실행하여 현재 버전을 찾아야 한다.

https://chromedriver.chromium.org/downloads/version-selection

ChromeDriver - WebDriver for Chrome - Version Selection

Version selection is the process of matching a Chrome binary of a given version to a compatible ChromeDriver binary. For versions 115 and newer Starting with M115 the ChromeDriver release process is integrated with that of Chrome. The latest Chrome + Chrom

chromedriver.chromium.org

사이트에 접속하면 최신버전과 맞지 않는다.

더 최신버전을 위에서 찾아들어가야 한다.

https://googlechromelabs.github.io/chrome-for-testing/

Chrome for Testing availability

chrome-headless-shellmac-arm64https://storage.googleapis.com/chrome-for-testing-public/123.0.6312.58/mac-arm64/chrome-headless-shell-mac-arm64.zip200

googlechromelabs.github.io

728x90

저작자표시 비영리 (새창열림)

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

정부(행정안전부) 주소 검증 (0)	2024.04.20
파이썬 selenium CentOS 7 환경설정 및 juso.go.kr 자료 파싱처리 (0)	2024.03.25
네이버 증권 정보 크롤링 예제 2 - 일별 시세 정보 가져오기 (0)	2023.03.31
네이버 증권 정보 크롤링 예제 1 - 상장주식수 가져오기 (0)	2023.03.26
파이썬 selenium 활용 네이버 뉴스 스탠드 크롤링 (0)	2021.06.28

Link2Me

,

네이버 증권 정보 크롤링 예제 2 - 일별 시세 정보 가져오기

Web 크롤링/Python Crawling 2023. 3. 31. 00:42

최초작성 : 2023.3.31

네이버 증권에서 일별 시세 정보를 가져오는 코드이다.

아래 코드로는 100% 만족된 결과를 도출하지 못한다.

IF 조건문을 사용해서 원하는 결과를 도출하는 건 개발자의 몫이다.

또한 DB에 저장되는 순서를 날짜가 적은 데이터를 먼저 저장하기 위한 방법으로 수정하는 것이 좋다.

 
import requests
from fake_useragent import UserAgent
# BeautifulSoup은 HTML 과 XML 파일로부터 데이터를 수집하는 라이브러리
from bs4 import BeautifulSoup
# BeautifulSoup 에서는 Xpath 사용 불가능
import pymysql
import re
 
def financialSiseDayData(code,page):
    
    ua = UserAgent()
    headers = {'User-agent': ua.ie}
    url = f'https://finance.naver.com/item/sise_day.naver?code={code}&page={page}'
    # print(url)
 
    res = requests.get(url, headers=headers)
    #
    if res.status_code == 200:
        html = res.text
 
        # HTML 페이지 파싱 BeautifulSoup(HTML데이터, 파싱방법)
        soup = BeautifulSoup(html, 'html.parser')
 
        # find() : 가장 먼저 검색되는 태그 반환
        body = soup.select_one("table")
        # print(body)
 
        items = body.find_all('tr', {'onmouseover':'mouseOver(this)'})
        # print(items)
 
        conn = pymysql.connect(host="localhost", user="", password="", db="studydb", charset="utf8")
        curs = conn.cursor()
 
        for item in items:
            information = item.text
            info = information.split('\n')
            # print(info)
            # print(info[2], "type: ", type(info[2]))
            # print(code, info[1],info[2],info[8],info[9],info[10],info[11],info[5].strip())
            closeM = re.sub(r'[^0-9]', '', info[2])
            openM = re.sub(r'[^0-9]', '', info[8])
            highM = re.sub(r'[^0-9]', '', info[9])
            lowM = re.sub(r'[^0-9]', '', info[10])
            volume = re.sub(r'[^0-9]', '', info[11])
 
            # 기존 DB에 있는 데이터인 경우에는 중복 저장하지 말고 무시하라.
            sql = "insert ignore into stock_day (code,date,close,open, high, low, volume) values (%s, %s, %s, %s, %s, %s, %s)"
            val = (str(code), info[1], closeM, openM, highM, lowM, volume)
            curs.execute(sql,val)
            conn.commit()
        conn.close()
 
    else:
        print(res.status_code)
 
 
if __name__ == '__main__':
    code = 140670
    for i in range(1, 4): # 1개월 데이터만 추출
        financialSiseDayData(code,str(i))
 
    print('완료되었습니다.')

DB에 저장하기 위한 SQL 코드

CREATE TABLE stock_day (
  idx int(11) NOT NULL,
  code varchar(8) NOT NULL COMMENT '종목코드',
  date char(10) NOT NULL COMMENT '날짜',
  close double NOT NULL DEFAULT 0 COMMENT '종가',
  open double NOT NULL DEFAULT 0 COMMENT '시가',
  high double NOT NULL DEFAULT 0 COMMENT '고가',
 low double NOT NULL DEFAULT 0 COMMENT '저가',
  volume double NOT NULL DEFAULT 0 COMMENT '거래량',
  display int(2) NOT NULL DEFAULT 1,
  reg_date timestamp NOT NULL DEFAULT current_timestamp()
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
 
ALTER TABLE stock_day
  ADD PRIMARY KEY (idx),
  ADD UNIQUE KEY code_date (code,date);
 
ALTER TABLE stock_day
  MODIFY idx int(11) NOT NULL AUTO_INCREMENT;
COMMIT;

코드와 날짜를 UNIQUE KEY 로 설정하였다.

Updated : 2024.08.30

위 코드를 가지고 PHP simple_html_dom 라이브러리를 이용하는 코드로 변환을 시도했었다.

결과가 만족스럽지 못해서 DOM 을 분석하면서 다시 작성을 했다.

그리고 다시 ChatGTP를 이용하여 Python 코드로 변경해 달라고 했더니 좀 더 깔끔한 결과를 얻었다.

import requests
from fake_useragent import UserAgent
from bs4 import BeautifulSoup
import re
 
def financialSiseDayData(code,page):
    ua = UserAgent()
    headers = {'User-agent': ua.ie}
    url = f'https://finance.naver.com/item/sise_day.naver?code={code}&page={page}'
    # print(url)
 
    res = requests.get(url, headers=headers)
    #
    if res.status_code == 200:
        html = res.text
 
        # HTML 페이지 파싱 BeautifulSoup(HTML데이터, 파싱방법)
        soup = BeautifulSoup(html, 'html.parser')
 
        # table = soup.select_one(".type2")
        # items = table.find_all('tr', {'onmouseover':'mouseOver(this)'})
 
        items = soup.select('.type2 tr[onmouseover="mouseOver(this)"]')
 
        stock_day_temp = []
        for item in items:
            info = []
            tds = item.find_all('td')
            for td in tds:
                info.append(td.get_text(strip=True))  # <td> 내부 텍스트를 추출하여 리스트에 저장
 
            sdate = re.sub(r'[^0-9.]', '', info[0])  # 날짜
            closeM = re.sub(r'[^0-9]', '', info[1])  # 종가
            openM = re.sub(r'[^0-9]', '', info[3])  # 시가
            highM = re.sub(r'[^0-9]', '', info[4])  # 고가
            lowM = re.sub(r'[^0-9]', '', info[5])  # 저가
            volume = re.sub(r'[^0-9]', '', info[6])  # 거래량
 
            cv30 = float(closeM) * 1.3  # 상한가
            cv60 = float(closeM) * 1.6  # 단기 투경 기준
            cv100 = float(closeM) * 2  # 4주 투경 기준
 
            stock_day_temp.append([
                code, sdate, closeM, openM, highM, lowM, volume, cv30, cv60, cv100
            ])
 
        for items in reversed(stock_day_temp):
            print(items)
 
    else:
        print(res.status_code)
 
 
if __name__ == '__main__':
    code = '039610'
    for i in range(1,3,1): # 1개월 데이터만 추출
        financialSiseDayData(code,str(i))
 
    print('완료되었습니다.')

728x90

저작자표시 비영리 (새창열림)

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

파이썬 selenium CentOS 7 환경설정 및 juso.go.kr 자료 파싱처리 (0)	2024.03.25
파이썬 selenium 드라이버 설치 없이 사용하자. (0)	2024.03.24
네이버 증권 정보 크롤링 예제 1 - 상장주식수 가져오기 (0)	2023.03.26
파이썬 selenium 활용 네이버 뉴스 스탠드 크롤링 (0)	2021.06.28
파이썬 selenium 활용 다나와 제품 검색 모든 페이지 크롤링 (0)	2021.06.28

Link2Me

,

네이버 증권 정보 크롤링 예제 1 - 상장주식수 가져오기

Web 크롤링/Python Crawling 2023. 3. 26. 13:16

초보수준으로 약간 배우고 오랫만에 Python 을 사용하니까 생각나는게 하나도 없어서 테스트하면서 적어둔다.

가장 먼저 해야 할일은 크롬 브라우저에서 개발자 모드(F12) 상태에서 원하는 정보를 클릭하는 것이다.

//*[@id="tab_con1"]/div[1]/table/tbody/tr[3]/td/em

XPath 복사 결과는 위와 같다.

selector 복사를 하면....

#tab_con1 > div.first > table > tbody > tr:nth-child(3) > td > em

와 같은 결과를 반환해준다.

이 결과를 그대로 사용하면 원하는 결과가 나오지 않기 때문에 태그 구조를 파악하면서 결과를 얻어내야 한다.

원하는 정보를 가져오기 위한 준비를 마치고 Code 상에서 확인하는 작업을 한다.

텍스트 형태의 데이터에서 원하는 HTML 태크를 추출하는 쉽게 도와주는 라이브러리가 BeautifulSoup 이다.

먼저 table 태그를 출력해보고 원하는 자료가 몇번째 tr 에 있는지 확인하고 원하는 값을 추출한다.

데이터의 형태가 추출하기 쉽게 되어 있지 않는 경우도 있으니 split('\n') 를 사용하여 배열 구조를 파악해서

원하는 결과를 출력해야 하는 시가총액 정보도 있다.

import requests
# BeautifulSoup은 HTML 과 XML 파일로부터 데이터를 수집하는 라이브러리
from bs4 import BeautifulSoup
# BeautifulSoup 에서는 Xpath 사용 불가능
 
def financialData(code):
    url = 'https://finance.naver.com/item/sise.naver?code='+ str(code)
    res = requests.get(url)
 
    if res.status_code == 200:
        html = res.text
 
        # HTML 페이지 파싱 BeautifulSoup(HTML데이터, 파싱방법)
        soup = BeautifulSoup(html, 'html.parser')
 
        # parents : 선택한 요소 위로 올라가면서 탐색하는 도구
        # next_siblings : 동일 레벨에 있는 태그들을 가져온다.
 
        # //*[@id="tab_con1"]/div[1]/table/tbody/tr[3]
 
        # find() : 가장 먼저 검색되는 태그 반환
        body = soup.select_one("#tab_con1 > div.first > table")
        print(body.prettify()) # 보기 좋게 출력
 
        # 시가총액 가져오기
        market_sum_init= soup.select('#tab_con1 > div.first > table > tr')[0].find('td').text.split('\n')
        print(market_sum_init)
        market_sum = market_sum_init[4].strip() + market_sum_init[7].strip()
        print(market_sum)
 
        # 상장 주식수 가져오기
        stock_num = soup.select('#tab_con1 > div.first > table > tr')[2].find('td').text
        print(stock_num)
 
    else:
        print(res.status_code)
 
if __name__ == '__main__':
   financialData(140670)

거래량 가져오기

find는 가장 가까운 태그 하나를 찾는다.

find(태그,Class명)

find(태그, id='address')

개발자모드에서 select 값을 찾아 보니 아래와 같다.

이걸 활용하여 soup.select('#chart_area > div.rate_info > table > tr')[0] 를 한 다음에 print 출력으로 구조를 파악한다.

td 태그 중에서 3번째 태크가 원하는 값이 있다는 걸 확인할 수 있다.

.select('td')[2].find('span','blind').text 으로 최종 원하는 결과를 얻을 수 있다.

# #chart_area > div.rate_info > table > tbody > tr:nth-child(1) > td:nth-child(3) > em
stock_rateinfo = soup.select('#chart_area > div.rate_info > table > tr')[0].select('td')[2].find('span','blind').text
print(stock_rateinfo)

728x90

저작자표시 비영리 (새창열림)

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

파이썬 selenium 드라이버 설치 없이 사용하자. (0)	2024.03.24
네이버 증권 정보 크롤링 예제 2 - 일별 시세 정보 가져오기 (0)	2023.03.31
파이썬 selenium 활용 네이버 뉴스 스탠드 크롤링 (0)	2021.06.28
파이썬 selenium 활용 다나와 제품 검색 모든 페이지 크롤링 (0)	2021.06.28
파이썬 selenium 으로 다나와 제품 검색 페이지 전환 엑셀 저장 (0)	2021.06.27

Link2Me

,

파이썬 selenium 활용 네이버 뉴스 스탠드 크롤링

Web 크롤링/Python Crawling 2021. 6. 28. 13:33

네이버 뉴스 스탠드 정보를 크롤링하는 예제이다.

소스코드 구현

# 네이버 뉴스 스탠드 크롤링
# BeautifulSoup은 HTML 과 XML 파일로부터 데이터를 수집하는 라이브러리
# pip install selenium
# pip install chromedriver-autoinstaller 
# pip install bs4
 
from selenium import webdriver
import chromedriver_autoinstaller
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
 
options = Options()
options.add_argument('headless'); # headless는 화면이나 페이지 이동을 표시하지 않고 동작하는 모드
 
# webdirver 설정(Chrome, Firefox 등)
chromedriver_autoinstaller.install()
driver = webdriver.Chrome(options=options) # 브라우저 창 안보이기
# driver = webdriver.Chrome() # 브라우저 창 보이기
 
# 크롬 브라우저 내부 대기 (암묵적 대기)
driver.implicitly_wait(5)
 
# 브라우저 사이즈
driver.set_window_size(1920,1280)
 
# 페이지 이동(열고 싶은 URL)
baseURL = 'https://www.naver.com/'
driver.get(baseURL)
 
soup = BeautifulSoup(driver.page_source, 'html.parser')
news_stand = soup.select('div.thumb_area > div')
 
print('-' * 25, end=' ')
print('네이버 뉴스 스탠드',end=' ')
print('-' * 25)
for v in news_stand:
    title = v.select_one('a.thumb > img').get('alt')
   news_url_all = v.select('div.popup_wrap > a')
    for x in news_url_all:
        if x.text.strip() == '기사보기':
           news_url = x.get('href')
    print(title, ', ', news_url)
print('-' * 70)
 

crawling_24.py

0.00MB

728x90

저작자표시 비영리 (새창열림)

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

네이버 증권 정보 크롤링 예제 2 - 일별 시세 정보 가져오기 (0)	2023.03.31
네이버 증권 정보 크롤링 예제 1 - 상장주식수 가져오기 (0)	2023.03.26
파이썬 selenium 활용 다나와 제품 검색 모든 페이지 크롤링 (0)	2021.06.28
파이썬 selenium 으로 다나와 제품 검색 페이지 전환 엑셀 저장 (0)	2021.06.27
파이썬 selenium 으로 다나와 제품 검색 페이지 전환 크롤링 (0)	2021.06.26

Link2Me

,

파이썬 selenium 활용 다나와 제품 검색 모든 페이지 크롤링

Web 크롤링/Python Crawling 2021. 6. 28. 05:00

클래스와 함수를 사용한 완성본(?)이라고 볼 수 있는 예제이다.

이미지를 엑셀에 저장하는 것은 성공하지 못했다.

전체 페이지가 얼마인지 값을 가져오는 로직을 추가로 구현했다.

# pip install selenium
# pip install chromedriver-autoinstaller 
# pip install bs4
# pip install xlsxwriter
 
from selenium import webdriver
import chromedriver_autoinstaller
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import time
import xlsxwriter  # 엑셀 처리 임포트
from io import BytesIO # 이미지 바이트 처리
import requests
 
class CRAWL:
    def __init__(self):
        self.options = Options()
        self.options.add_argument('headless'); # headless는 화면이나 페이지 이동을 표시하지 않고 동작하는 모드
        chromedriver_autoinstaller.install()
        self.driver = webdriver.Chrome(options=self.options) # 브라우저 창 안보이기
        # self.driver = webdriver.Chrome() # 브라우저 창 보이기
 
        # Excel 처리 선언
        self.savePath = "./"
        self.workbook = xlsxwriter.Workbook(self.savePath + 'crawling_result.xlsx')
        # 워크 시트
        self.worksheet = self.workbook.add_worksheet()
 
        self.totalPage = 1 # 전체 페이지수
 
    def getBaseURL(self,url):
        self.driver.implicitly_wait(5)  # 크롬 브라우저 내부 대기 (암묵적 대기)
        self.driver.set_window_size(1920,1280) # 브라우저 사이즈
        self.driver.get(url)
 
        # 제조사별 검색
        mft_xpath = '//*[@id="dlMaker_simple"]/dd/div[2]/button[1]'
        WebDriverWait(self.driver,3).until(EC.presence_of_element_located((By.XPATH,mft_xpath))).click()
        
        # 원하는 모델 카테고리 클릭
        model_xpath = '//*[@id="selectMaker_simple_priceCompare_A"]/li[16]/label'
        WebDriverWait(self.driver,3).until(EC.presence_of_element_located((By.XPATH,model_xpath))).click()
 
        time.sleep(3) # 검색 결과가 랜더링될 때까지 잠시 대기
 
    def getTotalPage(self,url):
        self.getBaseURL(url)
        soup = BeautifulSoup(self.driver.page_source, 'html.parser')
        page_list = soup.select('div.number_wrap > a.num')
        for v in page_list:
            cur_Page = v.text.strip()
        self.totalPage = cur_Page
        del soup
 
    def crawling(self,url):
 
        self.getTotalPage(url)
 
        totalPage = int(self.totalPage)  # 크롤링할 전체 페이지수
        print('total Pages : ',totalPage)
        curPage = 1  # 현재 페이지
        excel_row = 1 # 엑셀 행 수
        
        self.worksheet.set_column('A:A', 40) # A 열의 너비를 40으로 설정
        self.worksheet.set_row(0,18) # A열의 높이를 18로 설정
        self.worksheet.set_column('B:B', 12) # B 열의 너비를 12로 설정
        self.worksheet.set_column('C:C', 60) # C 열의 너비를 60으로 설정
        
        self.worksheet.write(0, 0, '제품 모델명')
        self.worksheet.write(0, 1, '가격')
        self.worksheet.write(0, 2, '이미지 URL')
 
        while curPage <= totalPage:
            #bs4 초기화
            soup = BeautifulSoup(self.driver.page_source, 'html.parser')
            # 상품 리스트 선택
            goods_list = soup.select('li.prod_item.prod_layer')
        
            # 페이지 번호 출력
            print('----- Current Page : {}'.format(curPage), '------')
        
            for v in goods_list:
                # 상품모델명, 가격, 이미지
                name = v.select_one('p.prod_name > a').text.strip()
                if not 'APPLE' in name:  # 개발자 모드 및 브라우저 상에서는 보이지 않는 데이터 대상에서 제외
                    continue
                price = v.select_one('p.price_sect > a').text.strip()
                img_link = v.select_one('div.thumb_image > a > img').get('data-original')
                if img_link == None:
                    img_link = v.select_one('div.thumb_image > a > img').get('src')
        
                imgLink = img_link.split("?")[0].split("//")[1]
                img_url = 'https://{}'.format(imgLink)
                
                # 이미지 요청 후 바이트 반환
                res = requests.get(img_url) # 이미지 가져옴
                img_data = BytesIO(res.content) # 이미지 파일 처리
                image_size = len(img_data.getvalue()) # 이미지 사이즈 
        
                # 엑셀 저장(텍스트)
                self.worksheet.write(excel_row, 0, name)
                self.worksheet.write(excel_row, 1, price)
        
                # 엑셀 저장(이미지)
                if image_size > 0: # 이미지가 있으면
                    # 이미지 저장이 안되어서 그냥 텍스트로 이미지 URL 저장 처리
                    # worksheet.insert_image(excel_row, 2, img_url, {'image_data' : img_data})
                    self.worksheet.write(excel_row,2,img_url) # image url 텍스트 저장
                        
                excel_row += 1 # 엑셀 행 증가
        
            # 페이지별 스크린 샷 저장
            self.driver.save_screenshot(self.savePath + 'target_page{}.png'.format(curPage))
            
            curPage += 1  # 페이지 수 증가
            if curPage > totalPage:
                print('Crawling succeed!')
                break
        
            # 페이지 이동 클릭
            cur_css = 'div.number_wrap > a:nth-child({})'.format(curPage)
            WebDriverWait(self.driver,3).until(EC.presence_of_element_located((By.CSS_SELECTOR,cur_css))).click()
            
            del soup  # BeautifulSoup 인스턴스 삭제
            time.sleep(3) # 3초간 대기
 
    def closing(self):    
        self.driver.close()  # 브라우저 종료  
        # 엑셀 파일 닫기
        self.workbook.close() # 저장
         
if __name__ == "__main__":
    baseURL = 'http://prod.danawa.com/list/?cate=112758&15main_11_02'
    crawl = CRAWL()
    crawl.crawling(baseURL)
    crawl.closing()
 

728x90

저작자표시 비영리 (새창열림)

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

네이버 증권 정보 크롤링 예제 1 - 상장주식수 가져오기 (0)	2023.03.26
파이썬 selenium 활용 네이버 뉴스 스탠드 크롤링 (0)	2021.06.28
파이썬 selenium 으로 다나와 제품 검색 페이지 전환 엑셀 저장 (0)	2021.06.27
파이썬 selenium 으로 다나와 제품 검색 페이지 전환 크롤링 (0)	2021.06.26
파이썬 selenium 으로 다나와 제품 리스트 크롤링 (4)	2021.06.26

Link2Me

,

파이썬 selenium 으로 다나와 제품 검색 페이지 전환 엑셀 저장

Web 크롤링/Python Crawling 2021. 6. 27. 00:43

https://link2me.tistory.com/2003 에서 작성한 코드를 수정하여 엑셀로 저장하기 위한 부분을 보완하고 엑셀 저장을 시도했다.

텍스트 저장은 잘 되는데 엑셀에 이미지 저장하는 것은 실패가 된다.

이미지를 저장하는 속도 문제인지 여부는 테스트를 좀 더 해봐야 할 거 같다.

그래서 이미지 URL 을 텍스트로 저장하는 로직으로 코드를 구현했다.

# pip install selenium
# pip install chromedriver-autoinstaller 
# pip install bs4
# pip install xlsxwriter
 
from selenium import webdriver
import chromedriver_autoinstaller
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import time
# 엑셀 처리 임포트
import xlsxwriter
# 이미지 바이트 처리
from io import BytesIO
import requests
 
# 다나와 사이트 검색
 
options = Options()
options.add_argument('headless'); # headless는 화면이나 페이지 이동을 표시하지 않고 동작하는 모드
 
# Excel 처리 선언
savePath = "c:/Users/zx/Documents/Python/"
workbook = xlsxwriter.Workbook(savePath + 'crawling_result.xlsx')
 
# 워크 시트
worksheet = workbook.add_worksheet()
 
# webdirver 설정(Chrome, Firefox 등)
chromedriver_autoinstaller.install()
driver = webdriver.Chrome(options=options) # 브라우저 창 안보이기
# driver = webdriver.Chrome() # 브라우저 창 보이기
 
# 크롬 브라우저 내부 대기 (암묵적 대기)
driver.implicitly_wait(5)
 
# 브라우저 사이즈
driver.set_window_size(1920,1280)
 
# 페이지 이동(열고 싶은 URL)
driver.get('http://prod.danawa.com/list/?cate=112758&15main_11_02')
 
# 페이지 내용
# print('Page Contents : {}'.format(driver.page_source))
 
# 제조사별 검색 (XPATH 경로 찾는 방법은 이미지 참조)
mft_xpath = '//*[@id="dlMaker_simple"]/dd/div[2]/button[1]'
WebDriverWait(driver,3).until(EC.presence_of_element_located((By.XPATH,mft_xpath))).click()
 
# 원하는 모델 카테고리 클릭 (XPATH 경로 찾는 방법은 이미지 참조)
model_xpath = '//*[@id="selectMaker_simple_priceCompare_A"]/li[16]/label'
WebDriverWait(driver,3).until(EC.presence_of_element_located((By.XPATH,model_xpath))).click()
 
# 2차 페이지 내용
# print('After Page Contents : {}'.format(driver.page_source))
 
# 검색 결과가 렌더링 될 때까지 잠시 대기
time.sleep(3)
 
# 현재 페이지
curPage = 1
 
# 크롤링할 전체 페이지수
totalPage = 6
 
# 엑셀 행 수
excel_row = 1
 
worksheet.set_column('A:A', 40) # A 열의 너비를 40으로 설정
worksheet.set_row(0,18) # A열의 높이를 18로 설정
worksheet.set_column('B:B', 12) # B 열의 너비를 12로 설정
worksheet.set_column('C:C', 60) # C 열의 너비를 60으로 설정
 
worksheet.write(0, 0, '제품 모델명')
worksheet.write(0, 1, '가격')
worksheet.write(0, 2, '이미지')
 
while curPage <= totalPage:
    #bs4 초기화
    soup = BeautifulSoup(driver.page_source, 'html.parser')
    # 상품 리스트 선택
    goods_list = soup.select('li.prod_item.prod_layer')
 
    # 페이지 번호 출력
    print('----- Current Page : {}'.format(curPage), '------')
 
    for v in goods_list:
        # 상품모델명, 가격, 이미지
        name = v.select_one('p.prod_name > a').text.strip()
        if not 'APPLE' in name:
            continue
        price = v.select_one('p.price_sect > a').text.strip()
        img_link = v.select_one('div.thumb_image > a > img').get('data-original')
        if img_link == None:
            img_link = v.select_one('div.thumb_image > a > img').get('src')
 
        imgLink = img_link.split("?")[0].split("//")[1]
        img_url = 'https://{}'.format(imgLink)
        
        # 이미지 요청 후 바이트 반환
        res = requests.get(img_url) # 이미지 가져옴
        img_data = BytesIO(res.content) # 이미지 파일 처리
        image_size = len(img_data.getvalue()) # 이미지 사이즈 
 
        # 엑셀 저장(텍스트)
        worksheet.write(excel_row, 0, name)
        worksheet.write(excel_row, 1, price)
 
        # 엑셀 저장(이미지)
        if image_size > 0: # 이미지가 있으면
            # worksheet.insert_image(excel_row, 2, img_url, {'image_data' : img_data})
            worksheet.write(excel_row,2,img_url) # image url 텍스트 저장
 
        # 엑셀 행 증가
        excel_row += 1
 
        # print(name,', ', price,', ', img_url)
    print()
 
    # 페이지 수 증가
    curPage += 1
 
    if curPage > totalPage:
        print('Crawling succeed!')
        break
 
    # 페이지 이동 클릭
    cur_css = 'div.number_wrap > a:nth-child({})'.format(curPage)
    WebDriverWait(driver,3).until(EC.presence_of_element_located((By.CSS_SELECTOR,cur_css))).click()
 
    # BeautifulSoup 인스턴스 삭제
    del soup
 
    # 3초간 대기
    time.sleep(3)
 
# 브라우저 종료
driver.close()    
 
# 엑셀 파일 닫기
workbook.close() # 저장
 

728x90

저작자표시 비영리 (새창열림)

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

파이썬 selenium 활용 네이버 뉴스 스탠드 크롤링 (0)	2021.06.28
파이썬 selenium 활용 다나와 제품 검색 모든 페이지 크롤링 (0)	2021.06.28
파이썬 selenium 으로 다나와 제품 검색 페이지 전환 크롤링 (0)	2021.06.26
파이썬 selenium 으로 다나와 제품 리스트 크롤링 (4)	2021.06.26
파이썬 selenium driver 설치 및 스크래핑 기초 학습 (0)	2021.06.26

Link2Me

,

파이썬 selenium 으로 다나와 제품 검색 페이지 전환 크롤링

Web 크롤링/Python Crawling 2021. 6. 26. 18:17

이전 예제에서는 1페이지에 있는 내용만 크롤링했다면, 이번 예제에서는 모든 페이지를 전부 크롤링하는 방법이다.

# pip install selenium
# pip install chromedriver-autoinstaller 
# pip install bs4
 
from selenium import webdriver
import chromedriver_autoinstaller
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import time
 
# 다나와 사이트 검색
 
options = Options()
options.add_argument('headless'); # headless는 화면이나 페이지 이동을 표시하지 않고 동작하는 모드
 
# webdirver 설정(Chrome, Firefox 등)
chromedriver_autoinstaller.install()
driver = webdriver.Chrome(options=options) # 브라우저 창 안보이기
# driver = webdriver.Chrome() # 브라우저 창 보이기
 
# 크롬 브라우저 내부 대기 (암묵적 대기)
driver.implicitly_wait(5)
 
# 브라우저 사이즈
driver.set_window_size(1920,1280)
 
# 페이지 이동(열고 싶은 URL)
driver.get('http://prod.danawa.com/list/?cate=112758&15main_11_02')
 
# 페이지 내용
# print('Page Contents : {}'.format(driver.page_source))
 
# 제조사별 검색 (XPATH 경로 찾는 방법은 이미지 참조)
mft_xpath = '//*[@id="dlMaker_simple"]/dd/div[2]/button[1]'
WebDriverWait(driver,3).until(EC.presence_of_element_located((By.XPATH,mft_xpath))).click()
 
# 원하는 모델 카테고리 클릭 (XPATH 경로 찾는 방법은 이미지 참조)
model_xpath = '//*[@id="selectMaker_simple_priceCompare_A"]/li[16]/label'
WebDriverWait(driver,3).until(EC.presence_of_element_located((By.XPATH,model_xpath))).click()
 
# 2차 페이지 내용
# print('After Page Contents : {}'.format(driver.page_source))
 
# 검색 결과가 렌더링 될 때까지 잠시 대기
time.sleep(2)
 
# 현재 페이지
curPage = 1
 
# 크롤링할 전체 페이지수
totalPage = 6
 
while curPage <= totalPage:
    #bs4 초기화
    soup = BeautifulSoup(driver.page_source, 'html.parser')
 
    # 상품 리스트 선택
    goods_list = soup.select('li.prod_item.prod_layer')
 
    # 페이지 번호 출력
    print('----- Current Page : {}'.format(curPage), '------')
 
    for v in goods_list:
        # 상품명, 가격, 이미지
        name = v.select_one('p.prod_name > a').text.strip()
        if not 'APPLE' in name:
            continue
        price = v.select_one('p.price_sect > a').text.strip()
        img_link = v.select_one('div.thumb_image > a > img').get('data-original')
        if img_link == None:
            img_link = v.select_one('div.thumb_image > a > img').get('src')
        print(name,', ', price,', ', img_link)
    print()
 
    # 페이지 수 증가
    curPage += 1
 
    if curPage > totalPage:
        print('Crawling succeed!')
        break
 
    # 페이지 이동 클릭
    cur_css = 'div.number_wrap > a:nth-child({})'.format(curPage)
    WebDriverWait(driver,3).until(EC.presence_of_element_located((By.CSS_SELECTOR,cur_css))).click()
 
    # BeautifulSoup 인스턴스 삭제
    del soup
 
    # 3초간 대기
    time.sleep(3)
 
# 브라우저 종료
driver.close()    
 

728x90

저작자표시 비영리 (새창열림)

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

파이썬 selenium 활용 다나와 제품 검색 모든 페이지 크롤링 (0)	2021.06.28
파이썬 selenium 으로 다나와 제품 검색 페이지 전환 엑셀 저장 (0)	2021.06.27
파이썬 selenium 으로 다나와 제품 리스트 크롤링 (4)	2021.06.26
파이썬 selenium driver 설치 및 스크래핑 기초 학습 (0)	2021.06.26
[크롤링기초] 다나와 로그인 스크래핑 예제 (2)	2021.06.25

Link2Me

,

파이썬 selenium 으로 다나와 제품 리스트 크롤링

Web 크롤링/Python Crawling 2021. 6. 26. 16:00

다나와(https://www.danawa.co.kr) 사이트 제품 검색에서 원하는 것만 필터링해서 해당 제품 리스트를 크롤링하는 예제이다.

제조사별 검색

APPLE 을 보기 위해서는 우측에 + 버튼을 눌러야 보인다.

5번 Copy XPath 로 얻는 결과는 //*[@id="dlMaker_simple"]/dd/div[2]/button[1]

WebDriverWait(driver,3).until(EC.presence_of_element_located((By.XPATH,'//*[@id="dlMaker_simple"]/dd/div[2]/button[1]'))).click()

특정 제품 선택하여 제품 리스트 선택

동일한 방법으로 XPath 를 얻어서 붙이면 된다.

WebDriverWait(driver,2).until(EC.presence_of_element_located((By.XPATH,'//*[@id="selectMaker_simple_priceCompare_A"]/li[16]/label'))).click()

여기서 APPLE 은 16번째에 있는 걸 확인할 수 있다.

APPLE 제품 정보 중에서 상품명, 가격, 이미지 링크만 크롤링하는 방법

번호 순서대로 살펴보면 금방 원하는 정보가 어떤 것인지 확인할 수 있다.

li 태그 중에서 class 가 prod_item.prod_layer 인 것 전부를 크롤링하면 된다는 걸 알아내는 것이 매우 중요하다.

goods_list = soup.select('li.prod_item.prod_layer')

제품정보 크롤링

ㅇ 상품 모델명

제품 가격

제품 이미지 경로

파이썬 코드

# pip install selenium
# pip install chromedriver-autoinstaller 
# pip install bs4
 
from selenium import webdriver
import chromedriver_autoinstaller
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import time
 
# 다나와 사이트 검색
 
options = Options()
options.add_argument('headless'); # headless는 화면이나 페이지 이동을 표시하지 않고 동작하는 모드
 
# webdirver 설정(Chrome, Firefox 등)
chromedriver_autoinstaller.install()
driver = webdriver.Chrome(options=options) # 브라우저 창 안보이기
# driver = webdriver.Chrome() # 브라우저 창 보이기
 
# 크롬 브라우저 내부 대기 (암묵적 대기)
driver.implicitly_wait(5)
 
# 브라우저 사이즈
driver.set_window_size(1920,1280)
 
# 페이지 이동(열고 싶은 URL)
driver.get('http://prod.danawa.com/list/?cate=112758&15main_11_02')
 
# 페이지 내용
# print('Page Contents : {}'.format(driver.page_source))
 
# 제조사별 검색 (XPATH 경로 찾는 방법은 이미지 참조)
WebDriverWait(driver,3).until(EC.presence_of_element_located((By.XPATH,'//*[@id="dlMaker_simple"]/dd/div[2]/button[1]'))).click()
 
# 원하는 모델 카테고리 클릭 (XPATH 경로 찾는 방법은 이미지 참조)
WebDriverWait(driver,2).until(EC.presence_of_element_located((By.XPATH,'//*[@id="selectMaker_simple_priceCompare_A"]/li[16]/label'))).click()
 
# 2차 페이지 내용
# print('After Page Contents : {}'.format(driver.page_source))
 
# 검색 결과가 렌더링 될 때까지 잠시 대기
time.sleep(2)
 
#bs4 초기화
soup = BeautifulSoup(driver.page_source, 'html.parser')
 
# 소스코드 정리
# print(soup.prettify())
 
# 상품 리스트 선택
# goods_list = soup.select('div.main_prodlist.main_prodlist_list > ul > li')
goods_list = soup.select('li.prod_item.prod_layer')
 
# 상품 리스트 확인
# print(goods_list)
 
for v in goods_list:
    if v.find('div', class_='prod_main_info'):
        # 상품 모델명, 가격, 이미지
        name = v.select_one('p.prod_name > a').text.strip()
        price = v.select_one('p.price_sect > a').text.strip()
        img_link = v.select_one('div.thumb_image > a > img').get('data-original')
        if img_link == None:
            img_link = v.select_one('div.thumb_image > a > img').get('src')
        print(name, price, img_link)
    print()
 
# 브라우저 종료
driver.close()    
 

728x90

저작자표시 비영리 (새창열림)

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

파이썬 selenium 으로 다나와 제품 검색 페이지 전환 엑셀 저장 (0)	2021.06.27
파이썬 selenium 으로 다나와 제품 검색 페이지 전환 크롤링 (0)	2021.06.26
파이썬 selenium driver 설치 및 스크래핑 기초 학습 (0)	2021.06.26
[크롤링기초] 다나와 로그인 스크래핑 예제 (2)	2021.06.25
[크롤링기초] 네이버 쇼핑 정보 가져오기 (0)	2021.06.25

Link2Me

,

파이썬 selenium driver 설치 및 스크래핑 기초 학습

Web 크롤링/Python Crawling 2021. 6. 26. 07:20

Beautiful Soap는 웹사이트에서 버튼을 클릭해야 얻을 수 있는 데이터라던가, Javascript 에 조건이 충족되어야만 얻을 수 있는 데이터에 접근하는 것에 한계가 있다.
그래서, 직접적으로 웹 사이트에 접근할 수 있게 해주는 Selenium을 사용해야 한다. 웹 브라우저를 대신해 줄 Driver가 필요하다.

Updated : 2025.04.06

현재 설치된 크롬 브라우저 정보를 확인하는 방법이다.

구동할 드라이버를 현재 사용중인 크롬 브라우저와 동일한 버전으로 받아서 설치해야 동작이 제대로 된다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import os
 
# Chrome WebDriver 경로 설정 (현재 폴더의 이전 폴더)
BASE_DIR = os.path.abspath(os.path.join(os.getcwd(), "./driver"))  # 현재 폴더의 아래 driver 폴더
CHROME_DRIVER_PATH = os.path.join(BASE_DIR, "chromedriver.exe")  # Chrome WebDriver의 경로
 
# WebDriver 경로 확인
if not os.path.exists(CHROME_DRIVER_PATH):
    raise FileNotFoundError(f"ChromeDriver 파일이 '{CHROME_DRIVER_PATH}'에 존재하지 않습니다. 경로를 확인하세요.")
 
options=Options()
options.add_experimental_option("detach", True) # 브라우저 창 떳다기 사라지기(False), 계속 유지(True)
# options.add_argument('headless'); # headless는 화면이나 페이지 이동을 표시하지 않고 동작하는 모드
 
# webdirver 설정(Chrome)
# driver = webdriver.Chrome() # 브라우저 창 보이기
service = Service(CHROME_DRIVER_PATH)
driver = webdriver.Chrome(service=service, options=options)
 
# 크롬 브라우저 내부 대기 (암묵적 대기)
driver.implicitly_wait(5)
 
# 브라우저 사이즈
driver.set_window_size(1920,1280)
 
# 페이지 이동(열고 싶은 URL)
driver.get('https://www.naver.com')
 
# 세션 값 출력
print('Session ID : {}'.format(driver.session_id))
 
# 타이틀 출력
print('Title : {}'.format(driver.title))
 
# 현재 URL 출력
print('URL : {}'.format(driver.current_url))
 
# 현재 쿠기 정보 출력
print('Cookies : {}'.format(driver.get_cookies()))
 
# 검색창 input 선택
element = driver.find_element(By.CSS_SELECTOR, '#query') # 네이버 검색
 
# 검색어 입력
element.send_keys('스프링부트')
 
# 엔터키 입력
element.send_keys(Keys.ENTER)
 
# 브라우저 종료
# driver.quit()
 

위 코드의 원본 소스

crawling_16.py

0.00MB

olde 버전은 현재 크롬브라우저와 정보가 일치하지 않기 때문에 문제가 되더라.

selenium 설치

pip install selenium

pip install chromedriver-autoinstaller

# pip install selenium
# pip install chromedriver-autoinstaller 
 
from selenium import webdriver
import chromedriver_autoinstaller
# 파이썬으로 셀레니움을 사용하기 위해 필요한 모듈을 import한다.
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.select import Select
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.alert import Alert
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
 
options = Options()
options.add_argument('disable-gpu');
options.add_argument('disable-extensions');
options.add_argument('proxy-server="direct://"');
options.add_argument('proxy-bypass-list=*');
options.add_argument('start-maximized');
# options.add_argument('headless'); # headless는 화면이나 페이지 이동을 표시하지 않고 동작하는 모드
 
# webdirver 설정(Chrome, Firefox 등)
# autoinstaller를 설정한 경우
chromedriver_autoinstaller.install()
driver = webdriver.Chrome()
# 직접 PC에 설치한 드라이버 경로를 설정한 경우
# driver = webdriver.Chrome('./webdriver/chrome/chromedriver.exe')
 
# 크롬 브라우저 내부 대기 (암묵적 대기)
driver.implicitly_wait(5)
 
# 속성 확인
print(dir(driver))
 
# 브라우저 사이즈
driver.set_window_size(1920,1280)
 
# 페이지 이동(열고 싶은 URL)
# driver.get('https://www.daum.net')
driver.get('https://www.naver.com')
 
# 페이지 내용
print('Page Contents : {}'.format(driver.page_source))
 
print()
 
# 세션 값 출력
print('Session ID : {}'.format(driver.session_id))
 
# 타이틀 출력
print('Title : {}'.format(driver.title))
 
# 현재 URL 출력
print('URL : {}'.format(driver.current_url))
 
# 현재 쿠기 정보 출력
print('Cookies : {}'.format(driver.get_cookies()))
 
# 검색창 input 선택
# element = driver.find_element_by_css_selector('div.inner_search > input.tf_keyword') # 다음 검색
element = driver.find_element_by_css_selector('div.green_window > input#query') # 네이버 검색
 
# 검색어 입력
element.send_keys('마마무')
 
# 검색(Form Submit)
element.submit()
 
# 스크린 샷 저장 1
savePath = "c:/Users/zx/Documents/Python/"
driver.save_screenshot(savePath + 'website_ch1.png')
 
# 스크린 샷 저장 2
driver.get_screenshot_as_file(savePath+ 'website_ch2.png')
 
# 브라우저 종료
driver.quit()
 

검색창 input 태그를 찾는 방법이다. --> Firefox 브라우저에서 실행

크롬브라우저에서의 선택 화면

728x90

저작자표시 비영리 (새창열림)

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

파이썬 selenium 으로 다나와 제품 검색 페이지 전환 크롤링 (0)	2021.06.26
파이썬 selenium 으로 다나와 제품 리스트 크롤링 (4)	2021.06.26
[크롤링기초] 다나와 로그인 스크래핑 예제 (2)	2021.06.25
[크롤링기초] 네이버 쇼핑 정보 가져오기 (0)	2021.06.25
[크롤링기초] 네이버 주식 현재가 가져오기 (0)	2021.06.25

Link2Me

,

'Web 크롤링'에 해당되는 글 31건

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

'Web 크롤링 > PHP Crawling' 카테고리의 다른 글

'Web 크롤링 > PHP Crawling' 카테고리의 다른 글

'Web 크롤링 > PHP Crawling' 카테고리의 다른 글

'Web 크롤링 > PHP Crawling' 카테고리의 다른 글

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

selenium 설치

'Web 크롤링 > Python Crawling' 카테고리의 다른 글

카테고리

태그목록

글 보관함

달력

공지사항

링크

Link2Me

LATEST FROM OUR BLOG

LATEST COMMENTS

BLOG VISITORS

티스토리툴바