Scraping BigData companies from websites

Scraping BigData companies from websites is not much different than scraping Google scholar profiles. In this small examples I want to show you how to scrape specific names on a webpage, which are are/are not taged with a class. In the first example I wanted to scrape the names of companies on three pages of datanation.com. The pages only highlighted the names by putting them in bold, which is done by putting the text in the html file within a <strong> environment. The solution was easy.

Read More

Please follow and like us:

Scrape Google Scholar

Google Scholar is a useful application. It refers every publications to its authors and allows to access easily the scientific output of every researcher. Two import key indicators are the number of citations and the H-Index. In this short python script you will see, how to extract/scrape these two parameters in Python.

hindex VS citations scrape Google Scholar

Read More

Please follow and like us:

Google Scholar Profiles mit Python scrapen

Google Scholar ist ein Google Applikation, die automatisch alle Publikationen seinen Autoren zuordnet und so schnell den wissenschaftlichen Output von Forschern berechnen kann. Zwei wichtige Kennzahlen sind die Anzahl an Zitationen, die ein Wissenschaftler akkumuliert hat sowie seinen H-Index. Dieses folgende kleine Python-Skript zeigt Dir, wie man diese zwei Kennzahlen für eine Liste von Wissenschaftlern auslesen kann und gegeneinander plottet.

Read More

Please follow and like us:

Jobbörsen nach Data-Scientist-Stellen scrapen

Data-Scientist erfreuen sich gerade grosser Beliebheit. Fobes taxiert deren Gehälter auf über 91.000 US Dollar.  Das vorgestellte Skript verwendet einen Code von Jesse Steinweg-Woods. Es ruft die Jobbörse Indeed auf und such nach Data-Scientist Stellen. Anschliessend zählt es die Anzahl der Programmiersprachen auf, die in den Stellenbeschreibungen erwähnt werden.
Data Science Job/Population vs Population

 

Read More

Please follow and like us:

Scraping Github für lineare Regression

In diesem Beitrag lernst man wie Daten von einer Website gescrapt, die Daten verarbeitet, zur Analyse plottet und mit einer linearen Funktion fittet. 

scatter regression python projects lineare regression

Der erste Teil des unteren Pythonskriptes scrapt die Website, die er in diesem Linkbeitrag findet. Damit wählt er nur die Dateien aus, die “Github” in der URL enthalten. Dieser erste Teil ist angelehnt an einen bereits veröffentlichten Pythoncode.

Read More

Please follow and like us:

Seaborn – Datenvisualisierung in Python!

Schon immer neidisch auf das schönere Layout von R-Graphen gewesen? Python braucht sich nicht mehr vor R verstecken! Der Astrophysiker Jake VanderPlas stellt in diesem Post auf O’Reilly Seaborn vor, das einem eine schönere Visualisierung von Daten als Matplotlib ermöglicht. Hier lernst Du wie Du das mit Seaborn schöne Graphen erstellst und Dataanalytics betreibst. 
Matplotlib wurde 1999 zum ersten Mal vorgestellt und hat daher ein etwas altmodisches Layout. Zudem harmonisiert es nicht sehr gut mit neuen Datenverabeitungsmodulen in Python wie Pandas oder Numpy.

Read More

Please follow and like us:

IPython in WordPress einfügen

IPython ist einer der besten Erweiterungen für Python. Schnell kann man seine Skripte als IPythonnotebook-, PDF- oder HTML-File exportieren. Die Importierung und Integration in WordPress-Post ist jedoch etwas komplizierter. Hier lernst Du, wie es reibungslos und schnell funktioniert.

Da es noch kein WordPressplugin gibt, um IPythonfiles in WordPress einzufügen, muss man etwas tiefer in WordPress einsteigen. Mehrere User haben sich bereits mit diesem Problem beschäftigt (1, 2, 3 und 4).

Read More

Please follow and like us: