Scraping Links ohne/without Beautiful Soup

Scarping ist das englische Wort für kratzen (engl. to scrap) und meint das Suchen und Speichern von Text, Links, Bildern, Videos und Audios aus dem Netz. Es ist immer beliebter geworden, ein wichtiger Bestandteil von BigData und Analytics und hat durch die große Belastung auf den Servern, dazu geführt, dass diese Tätigkeit von vielen Websiten aktiv verhindert wird. Hier lernst Du wie Du Links scrapst ohne das Modul Beautiful Soup.

In diesem Beispiel möchte ich Links aus einer Website scrapen, die sich in einer Auflistung befinden. Wie z.B. diese List mit den Topten machinelearning Modulen in Python.

Hat man einmal die Links gescrapt, kann man weitere Analysen mit den Daten auf diesen Siten programmieren.

  1. Scikit Die am meisten verwendete Machinelearning-Sofware
  2. Nupic
  3. Iepy
  4. Quepy
  5. Featureforge
  6. Skdata
  7. Mlxtend
  8. Machine learning samples
  9. Rep
  10. Python-ELM

Für das Scraping verwendet man normalerweise das Modul Beautiful Soup. Es gibt unzählige Posts und Websites, die sich damit beschäftigen und gute Beispiele liefern (siehe 1, 2, 3, 4, 5, 6 und 7). In diesem Post will ich aber das Scrapen ohne dieses Modul ermöglichen.

The script loads a page, saves the text under html. Next it splits the text into a list, where the separator are quotations marks in the text and save it under html2. Now we generate a new list htmllist2 by appending every item in the list html2, which starts with https//. The rest is just for reporting the results.

 

Literature about Scraping in Python
Gute Literatur ist z.B. dieser Blogeintrag “Web Scraping With Scrapy and MongoDB

Scraping with Python
Scraping with Python

oder das Buch “Web Scraping with Python” vom O’Reilly-Verlag.

Web Scraping with Python
Web Scraping with Python
Please follow and like us:

One thought to “Scraping Links ohne/without Beautiful Soup”

Leave a Reply

Your email address will not be published. Required fields are marked *