본문 바로가기

Python 100제 따라하기/1. 웹스크래핑9

(9) CSS Selector 활용하기 (2) CSS 선택자 중에서 클래스 선택자와 id 선택자를 사용하는 방법을 이해한다. 클래스 선택자는 ‘.’ 식별자로 나타내고, id선택자는 ‘#’ 식별자를 이용한다. id 선택자와 class선택자를 쓰는 이유는 css에서 디자인할때 내용이 중복되거나 (class선택자 사용), 특정부분에만 디자인하고 싶을때 (id선택자 사용) 이름을 부여해서 디자인을 한다. 아이디선택자는 id=’이름’ / css표시: #이름 클래스선택자는 class=’이름’ / css표시: .이름 import requests from bs4 import BeautifulSoup #라이브러리를 불러온다. url = "" resp = requests.get(url) html_src = resp.text soup = BeautifulSoup(htm.. 2022. 10. 13.
(8) CSS Selector 활용하기 (1) CSS(Cascading Style Sheets)는 HTML과 같은 마크업 언어의 디자인을 꾸미기 위해 사용하는 스타일 지정 도구이다. BeautifulSoup에서는 select() 메소드에 CSS 선택자를 매개변수로 전달하는 방법을 사용한다. select() 메소드는 해당하는 태그를 모두 찾아서 리스트로 리턴한다. 크롬 개발자 도구의 음영으로 선택된 부분에서 마우스 오른쪽 버튼을 클릭하면, CSS Selector를 복사할 수 있는 팝업 메뉴가 나타난다. Copy→Copy selector 순서로 선택하고 메모장 또는 IDE 등에 붙여넣기 하면 CSS 선택자를 확인 할 수 있다. 이내용을 select() 메소드의 매개변수로 전달하면 해당 태그 요소를 찾는다. import requests from bs4 i.. 2022. 10. 13.
(7) 웹 문서에 포함된 모든 하이퍼링크 추출하기 import requests, re from bs4 import BeautifulSoup #라이브러리를 불러온다. 정규식 표현을 사용하기 위해 re 모듈을 추가한다. url = "" resp = requests.get(url) html_src = resp.text soup = BeautifulSoup(html_src, 'html.parser') #웹 페이지 문서의 HTML 소스코드를 추출, 파싱하여 BeautifulSoup 객체를 생성한다. #변수 soup에 저장한다. links = soup.find_all("a") print("하이퍼링크의 개수: ", len(links)) print("\\n") print("첫 3개의 원소: ", links[:3]) print("\\n") #BeautifulSoup의 .. 2022. 10. 13.
(6) 웹 문서의 그림 이미지 파일을 PC에 저장하기 웹 문서에서 그림 이미지를 선택하여 사용자 PC에 저장할 수 있다. import requests from bs4 import BeautifulSoup #라이브러리를 불러온다. url = "" resp = requests.get(url) html_src = resp.text soup = BeautifulSoup(html_src, 'html.parser') target_img = soup.find(name='img', attrs={'alt':'Seoul Metro 2000 series train on Line 2'}) print('HTML 요소:', target_img) print("\\n") #웹페이지문서의 HTML 소스코드를 추출, 파싱하여 BeautifulSoup 객체(soup)를 생성한다. #이 객체.. 2022. 10. 1.