Semalt –如何抓取網頁?

Beautiful Soup是一個Python庫,通過從XML和HTML文檔創建解析樹,廣泛用於抓取網頁。 Web抓取是一種從網站和頁面中提取數據的技術,已廣泛用於數據分析和管理領域。在大多數情況下,Python編程語言是數據科學的先決條件。

Python 3具有抓取工具和模塊應用到數據管理項目。該模塊當前以Beautiful Soup 4的形式運行,與Python 3和Python 2.7兼容。 Beautiful Soup 4模塊還能夠為非封閉標籤湯創建解析樹。在本教程中,您將學習如何抓取頁面並將抓取的數據寫入CSV文件。

入門

首先,請在您的PC上設置服務器或基於本地的Python編碼環境。您還應該在計算機上安裝Beautiful Soup and Requests模塊。了解使用兩個模塊的知識也是必要的先決條件。熟悉HTML標記和結構也是一個額外的優勢。

了解您的數據

在這種情況下,來自國家美術館的真實數據將用於幫助您了解如何使用美麗湯4。由大約13,000名藝術家完成的120,000件作品。該藝術總部位於美國華盛頓特區。

使用Beautiful Soup進行Web數據提取並不那麼複雜。例如,如果您專注於字母Z,則在列表上標記並記下名字。在這種情況下,名字叫Niccola Zabaglia。為了保持一致性,請指明頁面數和該頁面上最後一位歌手的姓名。

如何導入請求和精美湯庫

要導入庫,請激活您的Python 3編程環境。檢查以確保您與編程環境位於同一目錄中。運行以下命令開始。 my_env/bin/activate。

創建一個新文件,然後開始導入Beautiful Soup and Requests庫。 Requests庫將允許您以可讀格式在Python程序中使用HTTP。另一方面,Beautiful Soup可以快速刮取頁面。使用bs4導入Beautiful Soup。

如何收集和解析網頁

使用請求收集您首頁的URL。第一頁的URL將分配給可變頁。從Requests構建一個BeautifulSoup對象,然後從Python的解析器中解析該對象。

在本教程中,目的是收集鏈接和藝術家的名字。例如,您可以收集藝術家的日期和國籍。對於Windows用戶,請右鍵單擊藝術家的名字。在這種情況下,請使用尼古拉的Zabaglia。對於Mac OS用戶,請點擊“ CTRL”,然後單擊名稱。單擊屏幕上彈出的“檢查元素”菜單,以訪問Web開發人員的工具。打印出藝術家的名字,以使Beautiful Soup快速解析一棵樹。

刪除底部鏈接

要刪除網頁上的底部鏈接,請右鍵單擊該元素以檢查DOM。您將確定這些鏈接位於HTML表下。使用Beautiful Soup,使用“分解方法”從解析樹中刪除標籤。

如何從標籤中提取內容

您不必打印整個鏈接標籤,而使用Beautiful Soup可以刪除標籤中的材料。您還可以使用Beautiful Soup 4捕獲與藝術家相關的URL。

將抓取的數據捕獲到CSV文件中

CSV文件可讓您以純文本格式存儲結構化數據,該格式主要用於數據表。建議您具備使用Python處理純文本文件的知識。

Web數據提取用於抓取頁面並獲取信息。考慮從中提取信息的網站。一些動態網站限制其網站上的Web數據提取。使用Beautiful Soup和Python 3抓取頁面很簡單。