뷰티풀 수프란 무엇인가? beautifulsoup4
beautifulsoup4 는 외부모듈이여서 파이썬을 설치한 다음 CMD 명령어에서 직접설치를 해야 사용할수 있습니다.
from urllib import request # 특정 주소의 값을 읽어들이자
from bs4 import BeautifulSoup # 읽어들인 데이터 분석하자
1. cmd 들어가기
2. Python 을 설치한 다음 pip list 입력하면 처음에 파이썬을 설치하면 모듈이 설치되어 있지 않아서
pip install beautifulsoup4 를 입력하여 모듈을 설치한다. (beautifulsoup4 는 패키지입니다.)
3. 맞게 잘 설치되었는지 확인하려면 pip list 를 입력하면 여러가지 폴더가 생성된것을 확인할 수 있다.
- 패키지 설치: pip install 패키지이름으로 원하는 패키지를 설치
- 패키지 삭제: pip uninstall 패키지이름으로 불필요한 패키지를 제거
- 패키지 목록 보기: pip list로 현재 설치된 패키지를 확인
# cmd
python --version
pip --version
pip list
pip install beautifulsoup4
cls 지우기
뷰티풀 수프 이용해서 관심 종목의 현재가 구하기
1. 네이버를 들어가서 증권을 들어가기
2. 국내증시 → 원하는 종목을 검색한다 → 카테고리 시세 클릭
Ex. LG 주식을 검색하였습니다. 2024.09.27.10:46:28 기준
3. 웹페이지 코드를 확인하는 방법
- ctrl + u
- F12 를 누르고 ctrl+ shift + c 를 누르고 본인은 궁금한부분에 마우스로 클릭하기
상단의 웹페이지 주소를 복사한다
현재가를 나타내는 태그가 Strong 인 것을 확인합니다.
https://finance.naver.com/item/sise.naver?code=003550
ex)
from flask import Flask # 서버 생성을 위한 클래스
from urllib import request # 특정 주소의 값을 읽어들이자
from bs4 import BeautifulSoup # 읽어들인 데이터 분석하자
from urllib import request # 특정 주소의 값을 읽어들이자
from bs4 import BeautifulSoup # 읽어들인 데이터 분석하자
soup = BeautifulSoup(target, "html.parser")
# soup 안에서 주식의 "현재가"만 찾으면 땡!
# 현재가를 나타내는 태그는 <stong> 인데, 페이지 전반에 여러개 있음
# 그러나 현재가에는 _nowVal 이라는 고유한 id가 있어서 쉽게 찾을수 있다.
# 변수 설정
# .string : 태그 안의 문자열만 가져오겠다!
# #_nowVal : 아이디가 _nowVal 이라는 의미의 문자열
# soup.select(태그명) : 해당 태그 다 가져와
# soup.select_one(태그명) : 태그 중 첫 번째 하나만 가져와
soup = BeautifulSoup(target, "html.parser")
price = soup.select_one("strong#_nowVal").string
print(price)
print("LG의 현재가는{}원입니다!".format(price))
웹 크롤링이란 무엇인가?
'Python' 카테고리의 다른 글
Python_Database -SQLite 2024.10.07. (0) | 2024.10.07 |
---|---|
PyQt5 파이썬 학습 GUI 연습하기.2024.10.04. (0) | 2024.10.04 |
Python 자료형과 문자열 (1) | 2024.09.25 |
Python 기초부터 시작하자! (4) | 2024.09.24 |
Python 시작 2024.09.23 (파이썬 문자열 포맷팅 방법) (0) | 2024.09.23 |