Data Scientist gegen Data Analyst gegen Data Engineer mit Word Cloud

Die Begriffe Data Scientist, Data Analyst und Data Engineer werden häufig synonym verwendet. Obwohl alle drei Rollen datenorientiert sind, unterscheiden sie sich geringfügig voneinander. Da selbst die Personalvermittler die Berufsbezeichnungen austauschbar verwenden, schauen wir uns an, wie wir die Berufsbezeichnungen selbst verstehen, indem wir ... verwenden. DATEN!!

First Love .. Fragen wir Google

Datenwissenschaftler

Datenwissenschaftler sind Big Data Wrangler. Sie nehmen eine enorme Menge unordentlicher Datenpunkte (unstrukturiert und strukturiert) und nutzen ihre beeindruckenden Fähigkeiten in Mathematik, Statistik und Programmierung, um sie zu reinigen, zu massieren und zu organisieren. Dann wenden sie all ihre analytischen Fähigkeiten an - Branchenwissen, Kontextverständnis, Skepsis gegenüber bestehenden Annahmen -, um versteckte Lösungen für geschäftliche Herausforderungen zu finden.

Daten Analyst

Datenanalysten sammeln, verarbeiten und führen statistische Datenanalysen durch. Ihre Fähigkeiten sind möglicherweise nicht so fortgeschritten wie die von Datenwissenschaftlern (z. B. können sie möglicherweise keine neuen Algorithmen erstellen), aber ihre Ziele sind dieselben - herauszufinden, wie Daten zur Beantwortung von Fragen und zur Lösung von Problemen verwendet werden können.

Dateningenieur

Dateningenieure bauen riesige Reservoire für Big Data. Sie entwickeln, konstruieren, testen und warten Architekturen wie Datenbanken und große Datenverarbeitungssysteme. Sobald kontinuierliche Pipelines zu und von diesen riesigen „Pools“ gefilterter Informationen installiert sind, können Datenwissenschaftler relevante Datensätze für ihre Analysen abrufen.

Die obigen Definitionen sind etwas vage und erklären nicht eindeutig, welche Fähigkeiten ein Unternehmen von einem potenziellen Kandidaten für die angegebenen Rollen erwartet.

Den Ansatz würden wir wählen, um die Unterschiede in den Berufsbezeichnungen zu verstehen

Wortwolke

Word Cloud ist ein Bild, das aus Wörtern besteht, die in einem bestimmten Text oder Thema verwendet werden, wobei die Größe jedes Wortes die Häufigkeit in den Dokumenten angibt.

Daten von LinkedIn

Wir haben für jede der von mehreren Unternehmen auf LinkedIn, kaggle und Glassdoor veröffentlichten Rollen rund 20 Daten zu Stellenbeschreibungen und Verantwortlichkeiten gesammelt. Das Generieren von Wortwolken unter Verwendung dieser Daten kann uns dabei helfen, die Rollen klar zu unterscheiden. Wie bei vielen datenwissenschaftlichen Analysen nehmen Sie diese Analyse jedoch mit ein wenig Salz, bis wir einen umfangreichen Datensatz mit Stellenbeschreibungen und Verantwortlichkeiten erstellt haben, vorzugsweise 100 Unternehmen für jede Berufsbezeichnung :)

Generieren von Word Cloud - Python-Code

Die extrahierten Daten werden in Textdateien gespeichert und zum Generieren der Wortwolke verwendet. Hierfür wird die Bibliothek word_cloud verwendet, die mit "pip install word cloud" installiert werden kann.

aus WordCloud importieren WordCloud
importiere matplotlib.pyplot als plt
## Verantwortlichkeiten der Datenanalysten
f = open ('data / Data_analyst_responsibility.txt', 'r')
    data_analyst_resp = f.read ()
    f.close ()

##### Fähigkeiten als Datenanalyst
f = open ('data / Data_analyst_skill.txt', 'r')
    data_analyst_skill = f.read ()
    f.close ()
##### Verantwortlichkeiten der Datenwissenschaftler
f = open ('data / data_scientist_responsibility.txt', 'r')
    data_scientist_responsibility = f.read ()
    f.close ()
##### Fähigkeiten als Datenwissenschaftler
f = open ('data / data_scientist_skills.txt', 'r')
    data_scientist_skills = f.read ()
    f.close ()
def word_cloud_job_title (data, font_size = 40, title = ''):
   Funktion zum Zeichnen der Wortwolke
    stopwords = ['etc', 'years', 'Etc', 'degree', 'skill',
'using', 'preferred', 'field', 'based', 'related', 'inclusive', 'ability', 'experience']
    data = data.lower ()
    für Wort in Stoppwörtern:
        wenn Wort in Daten:
           data = data.replace (word, "")

           #Erstellen Sie ein Wortwolkenbild
           wordcloud = WordCloud (). generate (data)

           # Zeigen Sie das generierte Bild an:
           # die matplotlib Weise:
           plt.imshow (wordcloud, interpolation = 'bilinear')
           plt.axis ("off")
           fig = plt.gcf ()
           fig.set_size_inches (15,10)
           plt.title (Titel, Schriftgröße = 24)
           plt.show ()

           ### Data_analyst Verantwortung
           word_cloud_job_title (data_analyst_resp, title = 'data_analyst_responsibility')

           ### Data_analyst-Fähigkeit
          word_cloud_job_title (data_analyst_skill, title = 'data_analyst_skill')

           ### Verantwortung der Datenwissenschaftler
          word_cloud_job_title (data_scientist_responsibility, title = 'data_scientist_responsibility')

           ### Data Scientist Fähigkeiten
          word_cloud_job_title (data_scientist_skills, title = 'data_scientist_skills')

           ### Verantwortung des Dateningenieurs
          word_cloud_job_title (data_scientist_responsibility, title = 'data_scientist_responsibility')

           ### Data Engineer Fähigkeiten
          word_cloud_job_title (data_scientist_skills, title = 'data_scientist_skills')
Exportierte Matplotlib-Bilder
Fazit

In jedem Unternehmen, das mit der Verarbeitung großer Datenmengen befasst ist, arbeiten Mitarbeiter in allen drei Rollen zusammen. In der Wortwolke für Dateningenieurfähigkeiten sind viele Schlüsselwörter wie SQL, Spark und Hadoop zu finden, die hauptsächlich für die Datenverarbeitung verwendet werden. Dateningenieure verarbeiten Big Data mit dieser Software und erleichtern Data Scientists und Analysten die Arbeit mit den gesammelten Daten.

Während sowohl Data Scientists als auch Analysten eng mit dem Geschäftsteam zusammenarbeiten, um sie bei Entscheidungen zu beraten, die auf ihren Erkenntnissen mit den angegebenen Daten basieren, arbeiten Data Scientists auch an der Entwicklung von Vorhersagemodellen, sodass von ihnen mehr Qualifikationen in Programmierung, Statistik und quantitativer Eignung erwartet werden. Und dies zeigt sich erneut an den generierten Wortwolken-Schlüsselwörtern für datenwissenschaftliche Fähigkeiten (Python, Statistik, maschinelles Lernen).

Varianten:

Datenanalyst: Produkt- / Marketing- / Risikoanalytiker

Datenwissenschaftler: Associate / Senior / Lead / Product Data Scientist

Dateningenieur: Ingenieur für maschinelles Lernen / Ingenieur für große Datenmengen

Dieser Artikel ist Co-Autor von Ashish Khan, der auch als freier Mitarbeiter für maschinelles Lernen, Android-App, Webdesign und Datenwissenschaft tätig ist. Schauen Sie sich seine Website hier an, um Spaß und aufregende Dinge zu erleben, die man mit DATA machen kann. Und meine Arbeit auf GitHub findet ihr hier.

Verweise:

  1. Google!
  2. LinkedIn, Kaggle und Glassdoor-Stellenbeschreibungen und Verantwortlichkeiten für Datenanalyst, Datenwissenschaftler und Dateningenieur
  3. Sprungbrett-Karrierematerial. (Derzeit bin ich Teil des Data Science Career Track-Programms.)