Scraping Github für lineare Regression

In diesem Beitrag lernst man wie Daten von einer Website gescrapt, die Daten verarbeitet, zur Analyse plottet und mit einer linearen Funktion fittet. 

scatter regression python projects lineare regression

Der erste Teil des unteren Pythonskriptes scrapt die Website, die er in diesem Linkbeitrag findet. Damit wählt er nur die Dateien aus, die “Github” in der URL enthalten. Dieser erste Teil ist angelehnt an einen bereits veröffentlichten Pythoncode.

Im zweiten Teil, werden die gescrapten Seiten geöffnet und es werden die zwei Parameter “Commits” und “Contributors” herausgelesen und zusammen mit dem Namen des Phytonmoduls in drei Arrays geschrieben.

Panda Dataframes erstellen aus Listen

Im dritten Skriptblock definieren wie ein Dictionary, das aus vier Listen “Contributors’ : x1,
‘Commits’ : x2,”Module name’ : x3 und “Ratio Contr/Commits” besteht. Diesen Dictionary kann einfach in ein Dataframe umgewandelt werden und mit dem Plotbefehlt als Graph dargestellt werden. Im vierten Block benutzen wir den Befehl scatter, um die Daten in ein Streudiagram zu plotten. Im Gegensatz zum ersten Graphen, enthält dieser aber eine zusätzlich Dimension, dem Quotienten aus dem X- und Y-Wert, der durch die Kreisgröße dargestellt wird.

Lineare Regression

Im nächsten Block führen wir eine lineare Regression an den Daten durch und plotten das Ergebnis in einem Graphen. Die erste Erkenntnis ist, dass ein grössere Anzahl an Commits mit einer grösseren Anzahl an Contributors zusammen hängt. Die zweit ist, dass Scikit-Learn das erfolgreichste Pythonmodul im Bereich MachineLearning ist.

Please follow and like us:

Leave a Reply

Your email address will not be published. Required fields are marked *