如何在Python中使用Selenium和Beautifulsoup解析網站?
我們可以在Python中使用Selenium和Beautiful Soup解析網站。Web爬取是一個從網頁中提取內容的概念,廣泛用於資料科學和指標準備。在Python中,它透過BeautifulSoup軟體包實現。
要獲得BeautifulSoup和Selenium,我們應該執行命令−
pip install bs4 selenium

讓我們抓取頁面上出現的以下連結 −

然後調查上述元素的html結構 −

示例
from selenium import webdriver
from bs4 import BeautifulSoup
#path of chromedriver.exe
driver = webdriver.Chrome (executable_path="C:\chromedriver.exe")
#launch browser
driver.get ("https://tutorialspoint.tw/about/about_careers.htm")
#content whole page in html format
s = BeautifulSoup(driver.page_source, 'html.parser')
#access to specific ul element with BeautifulSoup methods
l = s.find('ul', {'class':'toc chapters'})
#get all li elements under ul
rs = l.findAll('li')
for r in rs:
#get text of li elements
print(r.text)輸出

廣告
資料結構
網路
RDBMS
作業系統
Java
iOS
HTML
CSS
Android
Python
C語言
C++
C#
MongoDB
MySQL
JavaScript
PHP