dice.camp is one of the many independent Mastodon servers you can use to participate in the fediverse.
A Mastodon server for RPG folks to hang out and talk. Not owned by a billionaire.

Administered by:

Server stats:

1.7K
active users

#數據擷取

0 posts0 participants0 posts today

Web Scraping with your Web Browser: Why Not?

Link
📌 Summary: 本文探討在網頁瀏覽器中進行網頁爬蟲的可能性,否認了傳統上僅依賴Python和Beautiful Soup的做法。作者指出,雖然一些擴展工具聲稱能無需編碼進行爬蟲,但這僅限於簡單網站。從歷史上看,JavaScript的發展使其在網頁爬蟲的應用上進展緩慢。文章詳細介紹了如何處理CORS問題、代理伺服器的使用及簡單範例,並引導讀者以幾行代碼建立自己的爬蟲。最終,作者提到瀏覽器在檢索數據方面的優勢並提出繼續開發本地代理伺服器的建議。

🎯 Key Points:
- 網頁爬蟲普遍使用Python,JavaScript的應用較少。
- CORS(跨來源資源共享)對JavaScript的存取有影響,解決方案包括使用代理伺服器。
- 使用本地代理伺服器進行更複雜的爬蟲工作更為有效。
- 提供了一個簡單的爬蟲範例,可用瀏覽器直接運行。
- 強調無需繁瑣的第三方工具,即可在瀏覽器中實現網頁數據抓取。

🔖 Keywords: #網頁爬蟲 #JavaScript #CORS #代理伺服器 #數據擷取
8chananon.github.ioWeb Scraping with your Web Browser: Why Not?