Jobbörsen nach Data-Scientist-Stellen scrapen

Data-Scientist erfreuen sich gerade grosser Beliebheit. Fobes taxiert deren Gehälter auf über 91.000 US Dollar.  Das vorgestellte Skript verwendet einen Code von Jesse Steinweg-Woods. Es ruft die Jobbörse Indeed auf und such nach Data-Scientist Stellen. Anschliessend zählt es die Anzahl der Programmiersprachen auf, die in den Stellenbeschreibungen erwähnt werden.
Data Science Job/Population vs Population

 

Indeed nach Data-Scientist-Stellen scrapen

Im ersten Teil wernden alle nötigen Module geladen. BeautifulSoup ist ein bekanntes Modul, um Websiten zu scrapen. Eine gute Einführung in das Scraping kann hier gefunden werden.

from bs4 import BeautifulSoup # For HTML parsing
import urllib2 # Website connections
import re # Regular expressions
from time import sleep # To prevent overwhelming the server between connections
from collections import Counter # Keep track of our term counts
from nltk.corpus import stopwords # Filter out stopwords, such as 'the', 'or', 'and'
import pandas as pd # For converting results to a dataframe and bar chart plots
%matplotlib inline

Im nächsten Teil wird eine Funktion definiert, die eine durch den User bestimmte Website ansteuert und den darin enthaltenen Text extrahiert. Im zweiten Teil “skills_info” werden alle Seiten, die einen “Data-Scientist”-Titel haben nach Programmiersprachen, Datenbanken oder Programmierumgebungen abgefragt und die Häufigkeit bestimmt. Am Ende wird aus dieser Information ein Histogram geplottet aus der man leicht erkennen kann, welche Begriffe besonders häufig nachgefragt werden. Auffällig ist dabei, dass Python stärker in den USA als in Deutschland nachgefragt wird. Die Programmiersprache “R” ist dagegen auf beiden Kontinenten beliebt.

Nachfrage nach Data-Scientists relativ zur Bevölkerung

Im letzten Teil des Phythoncodes berechnen wir das Verhältnis der Data-Scientist-Stellen und der Anzahl der Population in den jeweiligen Städten. Dabei fällt auf, dass die amerikanischen Städte eine wesentlich höhere Nachfrage nach Data-Scientists haben als die deutschen Metropolen München, Berlin und Hamburg. Dies liegt einmal natürlich an der höheren Startupdichte in den USA (besonders in San Francisco) im Vergleich zu Deutschland. Ein anderer Grund ist die Jobbörse Indeed, die eher auf den amerikanischen Markt fokussiert ist und daher nicht so viele Stelle listet, wie deutsche Jobbörsen wie Stepstone oder Monsters.

Data Science Job/Population vs Population Scrapen

Anbei der benutzte Code zum Scrapen und Plotten in Python:

Please follow and like us:

Leave a Reply

Your email address will not be published. Required fields are marked *