Scraping BigData companies from websites is not much different than scraping Google scholar profiles. In this small examples I want to show you how to scrape specific names on a webpage, which are are/are not taged with a class. In the first example I wanted to scrape the names of companies on three pages of datanation.com. The pages only highlighted the names by putting them in bold, which is done by putting the text in the html file within a <strong> environment. The solution was easy.
Machine learning based on Euclidean distance in Python
Ever wondered how Amazon or Youtube knows what books, movies or products you will probably like? In this short example you will see a simple way to measure the similarity of taste between two person. This can help to propose new movies, books or products, which one of the two, doesn’t know yet.
Python basics for machine learning!
Basic machine learning programs can be realized with a few lines of code. To do this one has to understand how one can save numbers, text to a variable and go through this array. The Python basics for machine learning consists of lists, dictionaries and how to go through theses lists or dictionairies using loops or list comprehensions. Once you installed Python you can start with this code.
a= 1 b="Loernz" list_of_numbers = [0,1,2,3,4,5] list_of_characters=['My', 'name', 'is', 'Lorenz'] list_characters_numbers=['I am ', 12, 'years old'] print a, b, list_of_numbers, list_of_characters
The result will be:
1 Loernz [0, 1, 2, 3, 4, 5] [‘My’, ‘name’, ‘is’, ‘Lorenz’]
Four steps to master machine learning with python (including free books & resources)
To understand and apply machine learning techniques you have to learn Python or R. Both are programming languages similar to C, Java or PHP. However, since Python and R are much younger and “farer away” from the CPU, they are easier. The advantage of Python is that it can be adopted to many other problems than R, which is only used for handling data, analysing it with e.g. machine learning and statistic algorythms and ploting it in nice graphs. Because Python has a broader distribution (hosting websites with Jango, natural language proecssing, accessing APIs of websites such as Twitter, Linkedin etc.) and resembles more classical programming languages like C Python is more popular.
Scrape Google Scholar
Google Scholar is a useful application. It refers every publications to its authors and allows to access easily the scientific output of every researcher. Two import key indicators are the number of citations and the H-Index. In this short python script you will see, how to extract/scrape these two parameters in Python.
Google Scholar Profiles mit Python scrapen
Google Scholar ist ein Google Applikation, die automatisch alle Publikationen seinen Autoren zuordnet und so schnell den wissenschaftlichen Output von Forschern berechnen kann. Zwei wichtige Kennzahlen sind die Anzahl an Zitationen, die ein Wissenschaftler akkumuliert hat sowie seinen H-Index. Dieses folgende kleine Python-Skript zeigt Dir, wie man diese zwei Kennzahlen für eine Liste von Wissenschaftlern auslesen kann und gegeneinander plottet.
Jobbörsen nach Data-Scientist-Stellen scrapen
Data-Scientist erfreuen sich gerade grosser Beliebheit. Fobes taxiert deren Gehälter auf über 91.000 US Dollar. Das vorgestellte Skript verwendet einen Code von Jesse Steinweg-Woods. Es ruft die Jobbörse Indeed auf und such nach Data-Scientist Stellen. Anschliessend zählt es die Anzahl der Programmiersprachen auf, die in den Stellenbeschreibungen erwähnt werden.
Scraping Github für lineare Regression
In diesem Beitrag lernst man wie Daten von einer Website gescrapt, die Daten verarbeitet, zur Analyse plottet und mit einer linearen Funktion fittet.
Der erste Teil des unteren Pythonskriptes scrapt die Website, die er in diesem Linkbeitrag findet. Damit wählt er nur die Dateien aus, die “Github” in der URL enthalten. Dieser erste Teil ist angelehnt an einen bereits veröffentlichten Pythoncode.
Scraping Links ohne/without Beautiful Soup
Scarping ist das englische Wort für kratzen (engl. to scrap) und meint das Suchen und Speichern von Text, Links, Bildern, Videos und Audios aus dem Netz. Es ist immer beliebter geworden, ein wichtiger Bestandteil von BigData und Analytics und hat durch die große Belastung auf den Servern, dazu geführt, dass diese Tätigkeit von vielen Websiten aktiv verhindert wird. Hier lernst Du wie Du Links scrapst ohne das Modul Beautiful Soup.
In diesem Beispiel möchte ich Links aus einer Website scrapen, die sich in einer Auflistung befinden. Wie z.B. diese List mit den Topten machinelearning Modulen in Python.
Seaborn – Datenvisualisierung in Python!
Schon immer neidisch auf das schönere Layout von R-Graphen gewesen? Python braucht sich nicht mehr vor R verstecken! Der Astrophysiker Jake VanderPlas stellt in diesem Post auf O’Reilly Seaborn vor, das einem eine schönere Visualisierung von Daten als Matplotlib ermöglicht. Hier lernst Du wie Du das mit Seaborn schöne Graphen erstellst und Dataanalytics betreibst.
Matplotlib wurde 1999 zum ersten Mal vorgestellt und hat daher ein etwas altmodisches Layout. Zudem harmonisiert es nicht sehr gut mit neuen Datenverabeitungsmodulen in Python wie Pandas oder Numpy.