Wie werde ich Datenwissenschaftler?

Als ich anfing, im Internet über Datenwissenschaft zu lesen, verwendete ich zu dieser Zeit nur C und Matlab. Ich war anständig darin, aber alles, was ich bis zu diesem Zeitpunkt getan hatte, war Ingenieurinformatik. Ich habe viele Daten generiert und ein paar Diagramme erstellt. Als ich von einer enormen Datenmenge umgeben war und sah, dass andere diese Daten verwendeten, suchte ich nach verschiedenen Kursen und Methoden, um verschiedene Dinge zu lernen, und war mir nicht sicher, wo ich anfangen sollte, was ich lernen sollte und so weiter . Zum Glück war ich fast immer von mehreren Personen umgeben, die sich intensiv mit Data Science beschäftigten.

Ich arbeite mit Leuten zusammen, die C / C ++ – Programme schreiben, die GB Daten erzeugen, mit Leuten, die TB Daten verwalten, die über riesige Datenbanken verteilt sind, mit Leuten, die erstklassige Programmierer in SQL, Python, R sind, und mit Leuten, die unternehmensweite Datenbanken eingerichtet haben mit Hadoop, Sap, Business Intelligence usw.

Meine Inspiration für alle und jeden wäre:

  1. Lernen Sie alle Grundlagen von Coursera kennen, aber wenn ich wirklich vergleichen muss, was Sie mit Coursera im Vergleich zur Fülle der Datenwissenschaft herausholen würden, lassen Sie uns sagen: ~ Coursera ist so gut wie ein Burrito im Chipotle Mexican Grill. Sie können sich sicherlich sättigen, und Sie haben dort ein paar Dinge zu essen.
  2. Der Weg zur Wertschöpfung in der Datenwissenschaft ist sehr tief und entspricht meines Erachtens einem Fünf-Sterne-Buffet mit 20 Gerichten und rund 500 verschiedenen Rezepten.
  3. Coursera ist sicherlich ein guter Ausgangspunkt, und man sollte diese Kurse auf jeden Fall durchgehen, aber ich persönlich habe Coursera nie Geld gezahlt, und ich konnte mit der Zeit leicht eine Vielzahl von Dingen nach und nach lernen.
  4. Kaggle ist eine wirklich gute Ressource für angehende Ingenieure, um sich die Ideen verschiedener anderer Leute anzuschauen und darauf aufzubauen.

Mein eigenes Lernen kam vom tatsächlichen Bauen von Dingen. Ich habe mit SQL begonnen , dann habe ich Python gelernt, dann habe ich R gelernt, dann habe ich viele Bibliotheken in Python und R gelernt. Dann habe ich HTML gelernt, eine anständige GUI-Programmierung mit VB-Skript, C # -Programmierung. Dann habe ich gelernt, Scikit zu lernen. Schließlich habe ich mit verschiedenen Statistikern an meinem Arbeitsplatz gesprochen, deren tägliche Aufgabe darin besteht, aus Daten Schlussfolgerungen zu ziehen, und dabei JMP / JSL-Skripterstellung erlernt. Dabei habe ich viele Statistiken gelernt.

Hier ist eine allgemeine Abfolge, wie ich mich weiterentwickelt habe.

Das erste, was ich irgendjemanden und jeden inspirieren möchte, ist, die „Wissenschaft“ zu lernen. Data Science besteht zu 90% aus Wissenschaft und zu 10% aus Datenverwaltung. Ohne die Kenntnis der Wissenschaft und ohne zu wissen, was Sie erreichen wollen und warum Sie es erreichen wollen, könnten Sie das, was Sie auf Coursera lernen, in keiner Weise anwenden. Das kann ich Ihnen fast garantieren.

Ich habe gesehen, wie meine Freunde einige dieser Kurse durchgingen, aber am Ende des Tages bauen sie nichts auf, leiten keine richtigen Schlussfolgerungen ab und „verwenden“ nicht wirklich alles, was sie lernen. Darüber hinaus nutzen sie die erworbenen Fähigkeiten nicht einmal wirklich.

So ist mir das alles ergangen:

  1. Ich tauchte tief in Daten ein, verstand ihre Struktur, verstand ihre Typen. Ich verstand, warum wir all diese Daten überhaupt sammelten, wie wir sie sammelten, wie wir sie speicherten und wie wir sie verarbeiteten, bevor wir sie speicherten.
  2. Ich habe gelernt, wie mit diesen Programmiersprachen effektiv mit Daten umgegangen werden kann. Ich lernte, die Daten zu bereinigen, so oft ich wollte zu verarbeiten und sie so gut ich konnte zu plotten. Das einfache Zeichnen der Daten dauerte Stunden und Stunden, um zu sehen, wie verschiedene Diagramme die Daten auf eine Weise im Vergleich zu einer anderen darstellen konnten.
  3. Ich habe von meinen Freunden, die Datenbanken verwalten, gelernt, wie sie das gemacht haben und was im Hintergrund passiert ist. Ich habe die Strukturen der Datenbanktabellen gelernt.
  4. Dann lernte ich, einige relevante Diagramme zu zeichnen und die Kapitalrendite zu berechnen, um etwas zu tun. Hier begann Data Science zusammen zu kommen. Es gibt keine Handlung, die ich nicht zeichnen kann. Grundsätzlich – bei jeder Handlung, die ich im Internet gesehen habe, habe ich gelernt, wie man sie zeichnet. Dies ist äußerst wichtig und führt Sie zum Geschichtenerzählen.
  5. Dann habe ich gelernt, Dinge zu automatisieren, und das ist wirklich erstaunlich, denn Sie könnten einige Dinge automatisch erledigen, was Ihnen viel Zeit sparen würde.
  6. Mit der Python-, R-, VBscript- und C # -Programmierung war die Automatisierung sehr einfach.
    Ich kann Ihnen sagen, dass es ungefähr nichts gibt, was für mich nicht automatisiert ist. Ich habe ein Computerprogramm für alles und jedes, und die meisten meiner Dinge werden mit einem Knopfdruck erledigt ~ Oder sagen wir mal – ein paar Knopfdrucke.
  7. Dann habe ich das Schreiben von Berichten gelernt. Was ich gelernt habe, ist, dass ich viele Daten und Zeichnungen per E-Mail an andere senden musste. Und glauben Sie mir, die Leute haben keine Zeit und kein Interesse. Wenn Sie jedoch farbenfrohe Zeichnungen anfertigen, einen zusammenhängenden Bericht aufschreiben, der zeigt, was Sie sagen möchten, und enorme und aussagekräftige Informationen in wenigen wirklich farbenfrohen Zeichnungen zusammenfassen, können Sie eine Argumentation anfertigen.
  8. Dann lernte ich Geschichten zu erzählen. Dies bedeutet einfach, dass Sie dem Vizepräsidenten des Unternehmens mitteilen können, welche Probleme in Ihrem Geschäftsbereich am häufigsten auftreten. Und diese Schlussfolgerungen können Sie daraus ableiten, indem Sie packende Handlungen erstellen, die eine Geschichte erzählen. Ohne das können Sie niemanden überzeugen. Menschen interessieren sich nicht für Zahlen. Sie erinnern sich nur an Namen, Orte, Dinge, Inspiration und warum jemand etwas tun möchte. Ein wahrer Datenwissenschaftler ist auch ein wahrer Präsentator der Daten.
  9. Dann las ich jeden möglichen Blog im Internet, um zu sehen, wie andere diese Dinge taten. Wie Leute ihre Programme schrieben, wie sie verschiedene Handlungen erstellten, wie sie Dinge automatisierten und so weiter. Ich habe auch viele Ideen abgeleitet, wie jemand seine Fähigkeiten einsetzte, um ein großartiges Projekt zu realisieren. Dies ist eine wirklich schöne Möglichkeit, um zu sehen, wie sich andere vorstellen. Dann können Sie sich ihre Vorstellungskraft ausleihen und Dinge bauen, und schließlich, da die Dinge für Sie einfacher sind, würden Sie anfangen, sich Dinge selbst vorzustellen.

Schauen Sie sich einfach die Anzahl der verfügbaren Blogs an, in denen Sie viele Dinge lernen können.

Der ultimative Leitfaden für Data Science-Blogs.

Ich habe viele dieser Blogs durchgesehen und sie gründlich gelesen. Dies erforderte wochenlange Anstrengungen und mehrere Samstage und Sonntage, um mit Daten und Programmiersprachen zu experimentieren.

Meine am häufigsten verwendeten Websites:

  1. Paketüberfluss
  2. Python-Programmier-Tutorials
  3. Das umfassende R-Archiv-Netzwerk
  4. Seaborn: Statistische Datenvisualisierung
  5. Ihr Zuhause für Data Science
  6. 16+ kostenlose Data Science-Bücher
  7. ipython / ipython
  8. vinta / awesome-python
  9. Scikit-Learn: Maschinelles Lernen in Python
  10. Grace: Galerie
    1. Schauen Sie sich die erstaunlichen Grundstücke hier an.
  11. Praktisches Programmieren für Anfänger
  12. Lerne Python auf die harte Tour
  13. Youtube. Ja! Geben Sie einfach Ihre Frage hier ein und Sie sollten eine Antwort bekommen.
  14. Krötenwelt
  15. SQL Tutorial
  16. CodeAcademy: Python
  17. http://mahout.apache.org/
  18. http://www.netlib.org/lapack/
  19. http://www.netlib.org/eispack/
  20. http://www.netlib.org/scalapack/
  21. RegExr: Lernen, Erstellen und Testen von RegEx
  22. Regex für JavaScript, Python, PHP und PCRE
  23. StatsModels: Statistik in Python: Dies ist ein Killer! Damit kann man viel anfangen.
  24. NLTK installieren – NLTK 3.0-Dokumentation

Meistgelesene Bücher:

  1. Python lernen
  2. Die Kunst der R-ProgrammierungKunst der R-Programmierung http://shop.oreilly.com/product/…
  3. Ich glaube wirklich nicht, dass ich eine Buchperson bin, aber ich lese sie gelegentlich gern, wenn ich mich im Modus „Es gibt keinen Weg, nur das Handbuch zu lesen“ befinde. Ich habe viele Statistikbücher gelesen und werde sie hier aktualisieren.

Ich würde Ihnen jetzt einen umfassenderen Ansatz geben, damit Sie viel Inspiration zum Festhalten haben.

Wie sieht ein typischer Ingenieurberuf aus und wie kann Data Science in diesen Bereichen helfen?

  1. Entscheidungsfindung: In meinem Job muss ich mehrere Entscheidungen treffen und mehrere Maßnahmen an einem Tag ergreifen. Darüber hinaus muss ich verschiedene Interessengruppen aktualisieren, verschiedene Personen beraten, verschiedene Datensätze einsehen und verschiedene Werkzeuge und Maschinen handhaben. Einige dieser Maschinen sind physische Maschinen, die Dinge herstellen, und andere sind einfach Computerprogramme und Softwareplattformen, die Einstellungen für diese Maschinen erstellen.
  2. Daten: Die meisten Daten befinden sich auf verschiedenen Servern, die auf verschiedene Einheiten verteilt sind, oder auf einem gemeinsam genutzten Laufwerk oder auf einer Festplatte, die auf einem Server verfügbar ist.
  3. Datenbanken: Diese Datenbankserver können zum Abrufen von Daten mit SQL oder zum direkten Abrufen von Daten verwendet werden oder indem sie auf irgendeine Weise abgerufen (z. B. per FTP kopiert), manchmal sogar manuell kopiert und in Excel, CSV oder Editor eingefügt werden. Normalerweise haben wir mehrere Methoden, um Daten direkt von den Servern abzurufen. Es gibt verschiedene SQL-Plattformen wie TOAD, Business Intelligence und sogar integrierte Plattformen.
    1. SQL kann auf diesen Plattformen leicht erlernt werden, und es können zahlreiche SQL-Skripte erstellt werden.
    2. Sie können sogar Skripte erstellen, die Skripte schreiben können.
    3. Ich würde Sie dazu inspirieren, SQL zu lernen, da es eine der am häufigsten verwendeten Sprachen ist, um nur Daten abzurufen.
  4. Nochmals Daten: Die Daten in diesen Datenbanken können stark strukturiert oder etwas unstrukturiert sein, z. B. menschliche Kommentare.
    1. Diese Daten können häufig eine feste Anzahl von Variablen oder eine variierende Anzahl von Variablen aufweisen.
    2. Manchmal können auch Daten fehlen, und manchmal können sie falsch in die Datenbanken eingegeben werden.
      1. Jedes Mal, wenn so etwas gefunden wird und eine sofortige Antwort an die Datenbankmanager gesendet wird, korrigieren diese die Fehler, falls sie im System vorhanden sind.
      2. In der Regel vereinigen sich mehrere Personen und diskutieren, wie die Daten aussehen sollen, wie sie auf verschiedene Tabellen verteilt werden sollen und wie die Tabellen miteinander verbunden werden sollen, bevor ein riesiges Projekt zum Einrichten einer Datenbank erstellt wird.
      3. Solche Leute sind wahre Datenwissenschaftler, da sie immer wieder wissen, was der Endbenutzer täglich wollen wird.
      4. Sie versuchen immer, die Daten so gut wie möglich zu strukturieren, weil es sehr einfach ist, damit umzugehen.
  5. Skripterstellung und Zeitplanung: Mit mehreren Skripten, deren Ausführung zu bestimmten Zeiten geplant ist oder die manchmal für die Ausführung auf Ad-hoc-Basis eingerichtet sind, werden Daten in verschiedenen Ordnern auf einem dedizierten Computer abgerufen und gesichert. Ich habe eine anständig große Festplatte, um viele Daten zu speichern.
    1. Normalerweise hänge ich neue Daten an vorhandene Datensätze an und lösche ältere Daten rechtzeitig.
    2. Manchmal habe ich Programme, die mit Sleep-Befehlen ausgeführt werden, die zu geplanten Zeiten nur schnell etwas überprüfen und dann wieder in den Ruhezustand zurückkehren.
  6. Mehr Skripte : Darüber hinaus gibt es mehrere Skripte, mit denen diese Datensätze komprimiert und daraus eine Reihe von Entscheidungen erstellt werden.
    1. Das Bereinigen von Daten, das Erstellen wertvoller Pivot-Tabellen und Diagramme ist eine der größten Verzögerungen für alle, die versuchen, daraus einen Nutzen zu ziehen.
    2. Um so etwas zu erreichen, müssten Sie zuerst Ihre Daten in- und auswendig verstehen und in der Lage sein, alle Arten von Handberechnungen durchzuführen, Excel-Tabellen zu erstellen und Daten zu visualisieren.
    3. Wissenschaft: Was mich inspirieren würde, ist, dass Sie, bevor Sie Datenwissenschaft betreiben, die Wissenschaft betreiben, die Physik hinter Ihren Daten erlernen und sie in- und auswendig verstehen. Sagen Sie ~ Wenn Sie in einer T-Shirt-Branche arbeiten, sollten Sie jeden Aspekt einer T-Schicht kennen, Sie sollten Zugang zu allen möglichen Informationen rund um T-Shirts haben und Sie sollten sehr gut wissen, was die Kunden wollen und wie, ohne auch nur einen Blick auf die Daten.
    4. Ohne die Wissenschaft zu verstehen, ist die Datenwissenschaft wertlos, und es kann eine vergebliche Anstrengung sein, damit etwas zu erreichen.
    5. Vorbehalte: Ich habe viele Leute gesehen, die nicht einmal wussten, was gegen was zu planen ist.
      1. Das Schlimmste, was ich gesehen habe, ist, dass die Leute nur einige zufällige Variablen gegeneinander ausspielen und daraus Schlussfolgerungen ziehen.
      2. Es stimmt, dass in vielen Dingen Zusammenhänge bestehen, aber Sie sollten immer wissen, ob es eine Ursache gibt.
      3. Beispiel: Es besteht eine signifikante Korrelation zwischen der Anzahl der Nobelpreisträger und dem Pro-Kopf-Schokoladenkonsum verschiedener Länder. Aber ist es eine Kausalität? Vielleicht nicht!

  1. Zurück zu Programmen: In der Regel werden alle Skripte in einer bestimmten Reihenfolge ausgeführt und es werden alle Arten von Tabellen und Plots erstellt, die angezeigt werden sollen.
    1. Einige Skripte sind sequentiell, während einige Programme nur ausführbar sind. Ausführbare Dateien werden normalerweise für Geschwindigkeit geschrieben, und C, C ++, C # usw. können für sie verwendet werden.
    2. Skripte können in Python, VB etc. geschrieben werden.
  2. Entscheidungsfindung: Wenn bestimmte {Wenn / Dann} Bedingungen erfüllt sind, lösen sich mehr Computerprogramme von selbst aus und führen mehr Datenanalysen durch.
  3. Datenwissenschaft: Dies entfaltet sich normalerweise in einer Vielzahl von Statistiken, Klassifikationen und Regressionen.
    1. Hier kommt maschinelles Lernen ins Spiel. Dazu kann man Programmiersprachen wie Python oder R verwenden.
    2. Basierend auf den Ergebnissen der Algorithmen für maschinelles Lernen werden mehr Computerprogramme ausgeführt und mehr Diagramme erstellt oder mehr Programme ausgelöst.
  4. Plotten: Letztendlich werden viele Plots kohärent gespeichert, damit Menschen Entscheidungen treffen können.
  5. Autarke Berichte: Die Berichte sind selbstauslösende, autarke Programme, die mir sagen, was ich tun soll.
  6. Das Gefühl, Ironman zu sein: Normalerweise schaue ich mir die Ergebnisse aller Berichte in 10 Minuten an und entscheide, was ich als nächstes für viele Stunden tun soll. Hin und wieder schaue ich mir die Berichte noch einmal an, um die Entscheidungen neu zu definieren oder sie sofort zu ändern, wenn dies erforderlich ist.

Was sind die Vorteile von all dem?

  1. Erstens, wenn ein Computer etwas tut, würde er es mit einer viel schnelleren Geschwindigkeit tun als ein Mensch.
  2. Ein Computer wird es unermüdlich und endlos tun.
  3. Computerprogramme erfordern eine ausreichende Schulung und mehrere Testebenen für unterschiedliche Eingaben, aber sobald dies erledigt ist, wird diese Arbeit für immer fortgesetzt, bis sich entweder der Sample-Raum selbst ändert oder sich etwas drastisch an der Eingabe selbst ändert.
  4. Durch die Programmierung auf das Niveau, dass die gesamte Ausgabe auf einem Dashboard eingestellt ist, ist es sehr einfach zu sehen, in welcher Reihenfolge die Projekte sein sollten.

Wie schaffen Sie jetzt Wert aus so etwas?

  1. Man sollte immer hinter der Wissenschaft stehen! und wenn Sie Ihre Daten so gut wie möglich kennen, können Sie die Umsetzung Ihrer Projekte anordnen.
  2. Die Entscheidung, die Sie treffen würden, und die Maßnahmen, die Sie ergreifen würden, wären schwieriger, besser, schneller und stärker.
  3. Sie könnten Schlussfolgerungen ziehen und einige Lean-Sigma-Projekte generieren.
  4. Sie können die Stakeholder frühzeitig auf den neuesten Stand bringen und Ihre Projekte im Griff haben.
  5. Sie können sich nur auf den wissenschaftlichen Aspekt konzentrieren, anstatt nur manuell Zeichnungen zu erstellen.
  6. Sie könnten Trends in Ihren Daten leichter herausfinden und Dinge auf die eine oder andere Weise sagen, wenn die Daten Sie auffordern, Entscheidungen zugunsten einer Wahl vor der anderen zu treffen.
  7. Last but not least können Sie den menschlichen Aufwand erheblich reduzieren und alles für Sie automatisieren.
    1. Ich habe sogar Skripte, die Knöpfe für mich drücken oder Formulare für mich ausfüllen.
    2. Ich habe mehrere Bildanalyseprogramme, die Bilder analysieren und Entscheidungen im Handumdrehen treffen, ohne dass Menschen darauf schauen.

Ich hoffe, diese Antwort ist ausführlich und gibt Ihnen einen Einblick, woran Sie arbeiten können. Ich werde versuchen, dem etwas hinzuzufügen, sobald mir mehr einfällt.

Last but not least – wenn ich nur SQL, C, Python und R und VB Dot Net kenne, kann ich Ihnen sagen, dass Sie die Realität verzerren können. Dem sind absolut keine Grenzen gesetzt. Nur, dass es Zeit, Geduld und einen systematischen Aufbau nach dem anderen braucht.

Bleib gesegnet und bleib inspiriert!

Ich denke, dass es letztendlich darauf ankommt, Datenwissenschaftler zu sein, um qualifiziertes quantitatives Denken zu entwickeln.

Das ist sehr allgemein und deshalb liebe ich es. Ich komme aus der Physik, aber ich möchte mich mit Epidemien befassen, vielleicht Beratung, Finanzen, soziale Medien ausprobieren, für große Unternehmen arbeiten, für Start-ups arbeiten.

Wenn Sie sich als Datenwissenschaftler bezeichnen, ist das kein Problem.

Darüber hinaus wird von Datenwissenschaftlern erwartet, dass sie gute Geschichtenerzähler sind.

Indem Sie Ihre quantitativen Fähigkeiten und Ihr kritisches Denken trainieren, ist es schwierig, jemanden davon zu überzeugen, dass Sie etwas nicht aufgreifen und lernen können.

Es ist das Gegenteil von Typ gegossen.

A2A…

Anmerkung: Die Finanzbranche unterscheidet sich sehr von den meisten anderen Branchen in Bezug auf „Data Science“. Ich würde sogar sagen, dass sie tendenziell mehr quantitative Analysten einstellen, was stärker auf Statistik und maschinelles Lernen abzielt, da die Datensätze größtenteils sehr einfach und übersichtlich sind relativ gesehen sehr sauber. Ich persönlich würde niemanden, der mit Finanzdaten arbeitet, als Data Scientist bezeichnen. Es gibt sehr wenig Unklarheiten und die Daten sind sehr sauber. Für mich arbeitet Data Science mit einer Menge chaotischer unstrukturierter Daten und Daten aus vielen unterschiedlichen Bereichen und kombiniert sie zu einem Datenprodukt.

TL; DR-Version: Finanzindustrie => Maschinelles Lernen und Statistik anstreben. Ich nenne diese Leute Quantitative Analysten.

Wenn Sie nun Data Science betreiben möchten, lesen Sie weiter.

Sie haben zwei Hauptwege zu Data Science und nicht viele Leute werden sofort eingestellt, um Geschäftsentscheidungen zu treffen. Es gibt ein paar, sehr wenige Unternehmen mit großen Data Science-Teams, die ein paar „Jr Data Scientists“ in das Team aufnehmen werden – ansonsten wird es für einen neuen Absolventen schwierig sein, kluge Data Science-Jobs zu finden. Sie sind immer noch ein echter Datenwissenschaftler (für was auch immer das bedeutet) – auch wenn Sie mit Daten arbeiten (!) Und dabei Entscheidungen treffen (!), Was bedeutet, dass dies gut genug ist, um als Datenwissenschaftler angesehen zu werden.

Wie kommen Sie in diese Data Science-Teams? Oder wie positionieren Sie sich am besten, um einen Job als “Sr” Data Scientist bei einem dieser Unternehmen oder einen “vollen” Data Scientist-Job bei einem anderen Unternehmen zu bekommen?

Ein Data Scientist ist die Ansammlung von “Analytics” und “Engineering”. Es gibt also zwei Orte, an denen man an die Spitze kommt. Eine ist durch Engineering-Seite und die andere ist durch Analytics. Die Engineering-Seite kann in Software Engineering und Data Engineering unterteilt werden. Der einfachste Weg ist für mich das Data Engineering.

Wenn Sie Daten durch eine Anwendung ziehen, Daten sammeln, Daten verschieben oder skalieren und eine Datenpipeline aus diesen Datenquellen erstellen können, sind Sie ein hoch geschätztes Gut und der „Hals“ eines jeden Data Scientist-Teams. Was bedeutet, dass Sie ihr Lebenselixier sind und ihnen nahe stehen. Ich glaube auch, dass Sie hier ein besserer Data Scientist werden können, da die Modellierer und Maschinenlerner im Vergleich zu den Datenbereinigern oft von geringer Bedeutung sind. Sie haben voreingenommene Daten oder ein anderes Problem, das nicht erkannt wurde, und jeder Idiot auf einer Tastatur kann einen hohen AUC- oder Korrelationswert erhalten. Der Typ, der die Daten, die Anwendung und die geschäftlichen Probleme versteht, wird zum geschätzten Gut, unabhängig von seinem Titel.

Wenn Sie Data Scientist werden möchten, empfehle ich Ihnen, sich zunächst alle Data Engineer- und Data Analyst-Jobs in den geografischen Regionen anzuschauen, in denen Sie arbeiten möchten, und diese Technologien und Fähigkeiten zu erlernen. Wenn Sie an Ihrer jetzigen Universität Kurse finden, die diese großartigen ergänzen, können Sie es wahrscheinlich nicht mit schmutzigen Händen vergleichen, wenn Sie Hadoop- oder Spark- oder Jupyter-Notizbücher herunterladen und implementieren, einen Datensatz zerreißen und ein Datenprodukt erstellen . Wenn Sie anfangen, sich mit der Datentechnik auseinanderzusetzen, gehen Sie zu Kaggle, Github, Pycon, PyData und Scipy und durchlaufen so viele Datensätze und Tutorials für maschinelles Lernen wie möglich.

Genau genommen gibt es keine “Data Science” (siehe Was ist Data Science?). Siehe auch: Vardi, Wissenschaft hat nur zwei Beine: http://portal.acm.org/ft_gateway…

Hier sind einige Ressourcen, die ich zum Arbeiten mit Daten gesammelt habe. Ich hoffe, Sie finden sie nützlich (Hinweis: Ich bin ein Student, dies ist in keiner Weise eine Expertenmeinung).

1) Erfahren Sie mehr über Matrix-Faktorisierungen

  • Nehmen Sie am Kurs Computational Linear Algebra teil (manchmal wird er auch als Angewandte Lineare Algebra oder Matrixberechnung oder Numerische Analyse oder Matrixanalyse bezeichnet, und es kann sich um einen CS- oder einen Angewandten Mathematikkurs handeln). Matrixzerlegungsalgorithmen sind für viele Data-Mining-Anwendungen von grundlegender Bedeutung und werden in der Regel in einem Standardlehrplan für “maschinelles Lernen” unterrepräsentiert. Da herkömmliche Daten-TBs wie Matlab nicht mehr für den Job geeignet sind, können Sie eig () nicht einfach auf Big Data ausführen. Pakete für verteilte Matrixberechnungen, wie sie in Apache Mahout [1] enthalten sind, versuchen diese Lücke zu schließen, aber Sie müssen verstehen, wie die numerischen Algorithmen / LAPACK / BLAS-Routinen [2] [3] [4] [5] funktionieren, um dies zu erreichen Setze sie richtig ein, passe sie für spezielle Fälle an, erstelle deine eigenen und skaliere sie auf Terabyte Daten auf einem Cluster von Warenmaschinen. [6] In der Regel basieren Numerikkurse auf Algebra und Analysis für Grundstudenten, daher sollten Sie mit den Voraussetzungen vertraut sein. Ich würde diese Ressourcen für das Selbststudium / Referenzmaterial empfehlen:
  • Siehe Jack Dongarra: Kurse und Was sind einige gute Ressourcen zum Erlernen der numerischen Analyse?

2) Erfahren Sie mehr über verteiltes Computing

  • Es ist wichtig zu lernen, wie man mit einem Linux-Cluster arbeitet und wie man skalierbare verteilte Algorithmen entwirft, wenn Sie mit Big Data arbeiten möchten grundlegende Analyse und Verarbeitung?).
  • Crays und Connection Machines der Vergangenheit können jetzt durch Farmen mit billigen Cloud-Instanzen ersetzt werden. Die Rechenkosten fielen 2011 auf weniger als 1,80 USD / GFlop gegenüber 15 Mio. USD im Jahr 1984: http://en.wikipedia.org/wiki/FLOPS .
  • Wenn Sie das Beste aus Ihrer (gemieteten) Hardware herausholen möchten, wird es auch immer wichtiger, die volle Leistung von Multicore nutzen zu können (siehe http://en.wikipedia.org/wiki/Moo… ).
  • Hinweis: Dieses Thema ist nicht Teil eines Standardkurses für maschinelles Lernen. In Ihrem CS / EE-Katalog finden Sie jedoch möglicherweise Kurse wie “Verteilte Systeme” oder “Parallele Programmierung”. Informationen zu verteilten Computerressourcen, zu einem Systemkurs an der UIUC, zu wichtigen Themen und zu den ersten Schritten: Einführung in das Computernetzwerk.
  • Nach dem Studium der Grundlagen von Netzwerken und verteilten Systemen würde ich mich auf verteilte Datenbanken konzentrieren, die mit der Datenflut bald allgegenwärtig werden und an die Grenzen der vertikalen Skalierung stoßen. Siehe Schlüsselwerke, Forschungstrends und für den Anfang: Einführung in relationale Datenbanken und Einführung in verteilte Datenbanken (HBase in Action).

3) Erfahren Sie mehr über statistische Analysen

  • Beginnen Sie mit dem Lernen von Statistiken, indem Sie mit R codieren: Was sind wesentliche Referenzen für R? und experimentieren Sie mit realen Daten: Wo finde ich große Datensätze, die für die Öffentlichkeit zugänglich sind?
  • Cosma Shalizi hat einige großartige Materialien zur Computerstatistik zusammengestellt, seine Vorlesungsfolien durchgesehen und auch: Was sind einige gute Ressourcen, um etwas über statistische Analysen zu lernen?
  • Ich habe festgestellt, dass das Erlernen von Statistiken in einem bestimmten Bereich (z. B. Verarbeitung natürlicher Sprachen) weitaus angenehmer ist als das Erlernen von Stats 101. Meine persönliche Empfehlung ist der Kurs von Michael Collins in Columbia (auch bei Coursera erhältlich).
  • Sie können auch einen Bereich auswählen, in dem die Verwendung quantitativer Statistiken und Kausalitätsprinzipien [7] unumgänglich ist, beispielsweise in der Molekularbiologie [8], oder einen unterhaltsamen Teilbereich wie die Krebsforschung [9] oder einen noch engeren Bereich, z. B. die genetische Analyse der Tumorangiogenese [10] und versuchen Sie, wichtige Fragen in diesem speziellen Bereich zu beantworten und zu erfahren, was Sie dabei benötigen.

4) Erfahren Sie mehr über die Optimierung

  • Dieses Thema ist im Wesentlichen Voraussetzung, um viele Algorithmen für maschinelles Lernen und Signalverarbeitung zu verstehen und darüber hinaus für sich wichtig zu sein.
  • Beginnen Sie mit den Videovorträgen von Stephen P. Boyd.

5) Erfahren Sie mehr über maschinelles Lernen

  • Bevor Sie sich mit Algorithmen beschäftigen, sollten Sie sich die Daten genau ansehen und Funktionen auswählen, mit denen Sie das Signal aus dem Rauschen herausfiltern können. Siehe diesen Vortrag von Jeremy Howard: Bei Kaggle ist es ein Nachteil, zu viel zu wissen
  • Siehe auch Wie lerne ich maschinelles Lernen? und Was sind einige einführende Ressourcen zum Erlernen von maschinellem Lernen in großem Maßstab? Warum?
  • Statistik vs. maschinelles Lernen, kämpfen !: http://brenocon.com/blog/2008/12…
  • Sie können Ihr Studium nach Online-Vorlesungsverzeichnissen strukturieren
    und Lehrpläne von MIT, Stanford oder anderen Top-Schulen. Experimentieren mit
    Daten viel, hacken Sie Code, stellen Sie Fragen, sprechen Sie mit guten Leuten, richten Sie einen Webcrawler in Ihrer Garage ein: Die Anatomie einer Suchmaschine
  • Sie können einem dieser Startups beitreten und dabei lernen: Welche Startups stellen Ingenieure mit Stärken im Bereich maschinelles Lernen / NLP ein?
  • Die alternative (und recht teure) Option ist die Registrierung in einem CS
    Programm / Maschineller Lernpfad, wenn Sie es vorziehen, in einer formalen Schule zu studieren
    Rahmen. Siehe: Was lohnt sich für einen Master in Informatik (MS CS) und warum?
  • Vermeiden Sie eine Überspezialisierung. Der breiteste Ansatz eignet sich oft am besten, wenn Sie ein neues Fachgebiet kennenlernen und schwierige Probleme bewältigen. Sehen Sie sich die zweite Reise von HMS Beagle zu den Abenteuern eines genialen jungen Data Miners an.

6) Erfahren Sie mehr über das Abrufen von Informationen

  • Maschinelles Lernen ist nicht so cool, wie es sich anhört: http://teddziuba.com/2008/05/mac…
  • Was sind einige gute Ressourcen, um mit dem Information Retrieval-Training zu beginnen, und warum werden diese anderen vorgezogen?

7) Erfahren Sie mehr über die Signalerkennung und -schätzung

  • Dies ist ein klassisches Thema und meiner Meinung nach “Data Science” schlechthin.
    Einige dieser Methoden wurden verwendet, um die Apollo-Mission zu leiten oder zu erkennen
    feindliche U-Boote und sind in vielen Bereichen noch im aktiven Einsatz. Das ist
    oft Teil des EE-Lehrplans.
  • Gute Referenzen sind die Vortragsfolien von Robert F. Stengel über optimale Kontrolle und Abschätzung: Rob Stengels Homepage, Alan V. Oppenheims Signale und Systeme. und Was sind einige gute Ressourcen zum Erlernen der Signalschätzung und -erkennung? Ein gutes Thema, auf das man sich zuerst konzentrieren sollte, ist der Kalman-Filter, der häufig für die Vorhersage von Zeitreihen verwendet wird.
  • Wenn Sie über Daten sprechen, möchten Sie wahrscheinlich etwas über Informationen wissen: die Übertragung, Komprimierung und Filterung des Signals vom Rauschen. Die Methoden, die in den 60er Jahren von Kommunikationsingenieuren entwickelt wurden (wie Viterbi-Decoder, der heute in etwa einer Milliarde Mobiltelefonen verwendet wird, oder Gabor-Wavelet, das in der Iriserkennung weit verbreitet ist), lassen sich auf eine überraschende Vielzahl von Datenanalyseaufgaben anwenden, von der statistischen maschinellen Übersetzung bis zum Verständnis der Organisation und Funktion molekularer Netzwerke. Eine gute Quelle für den Anfang ist Informationstheorie und zuverlässige Kommunikation: Robert G. Gallager: 9780471290483: Amazon.com: Books. Was sind gute Ressourcen zum Erlernen der Informationstheorie?

8) Master-Algorithmen und Datenstrukturen

  • Was sind die lernfreundlichsten Ressourcen zum Erlernen von Algorithmen?

9) Übe

  • In Form kommen für den Sport der Datenwissenschaft
  • Zimmerei: http://software-carpentry.org/
  • Was sind einige gute Spielzeugprobleme (die über ein Wochenende von einem einzelnen Programmierer erledigt werden können) in den Datenwissenschaften? Ich studiere maschinelles Lernen und Statistik und suche nach etwas sozial relevantem, indem ich öffentlich verfügbare Datensätze / APIs verwende.
  • Tools: Was sind einige der besten Tools zur Datenanalyse?
  • Wo finde ich große Datensätze, die der Öffentlichkeit zugänglich sind?

Wenn Sie sich für einen Masterstudiengang entscheiden:

10) Studieningenieurwesen

Ich würde mich für CS mit Schwerpunkt auf IR oder Maschinelles Lernen oder einer Kombination aus beiden entscheiden und dabei einige Systemkurse belegen. Als “Data Scientist” müssen Sie eine Menge Code schreiben und wahrscheinlich verteilte Algorithmen / Systeme entwickeln, um riesige Datenmengen zu verarbeiten. In MS in Statistics lernen Sie, wie man Modelle erstellt, Regressionsanalysen erstellt usw., und nicht, wie man Systeme erstellt. Letzteres wird meiner Meinung nach heutzutage dringend benötigt, da die alten Tools mit der Datenflut überholt sind. Es gibt einen Mangel an Ingenieuren, die ein Data-Mining-System von Grund auf aufbauen können. Sie können Statistiken aus Büchern und Experimenten mit R abrufen (siehe Punkt 3 oben) oder einige Statistikklassen als Teil Ihres CS-Studiums belegen.

Viel Glück.

[1] http://mahout.apache.org/
[2] http://www.netlib.org/lapack/
[3] http://www.netlib.org/eispack/
[4] http://math.nist.gov/javanumeric…
[5] http://www.netlib.org/scalapack/
[6] http://labs.google.com/papers/ma…
[7] Amazon.com: Causality: Models, Reasoning and Inference (9780521895606): Judea Pearl: Books
[8] Einführung in die Biologie, MIT 7.012-Videovorträge
[9] Hanahan & Weinberg, Die Kennzeichen von Krebs, Next Generation: Page on Wisc
[10] Die chaotische Organisation tumorassoziierter Gefäße aus The Biology of Cancer: Robert A. Weinberg: 9780815342205: Amazon.com: Books, p. 562

Aus meiner Sicht ist die “dreifache Bedrohung” eines guten Datenwissenschaftlers:

  • Programmierkenntnisse
  • statistische Kenntnisse
  • Kommunikationsfähigkeit

Sie haben offensichtlich Teil 1 ziemlich gut behandelt. Sie sollten sich wahrscheinlich mit dem Erlernen einer Programmiersprache befassen, die für die Arbeit mit Sondierungsdaten nützlicher ist, wie Python oder R.

Sie werden auch einige Statistiken Hintergrund wollen. Wenn Sie sich für Python entscheiden, ist Think Stats (Wahrscheinlichkeit und Statistik für Programmierer) eine großartige Möglichkeit, dies zu tun. Wenn Sie gerade in der Schule sind, können Sie Ihrem Lehrplan möglicherweise einige Statistikklassen hinzufügen, um die Grundlagen zu erlernen, oder sich für einen Coursera-Kurs oder ein anderes MOOC einschreiben.

Schließlich möchte ich es Ihnen nicht verraten, aber Data Scientists müssen ihre Erkenntnisse vermitteln und sie für die Menschen nützlich machen, und dies hat absolut mit “Design” zu tun. Verschiedene Unternehmen teilen die Rollen unterschiedlich auf. Wenn Sie also keine Web-App oder Visualisierung erstellen möchten, müssen Sie einen Ort finden, an dem dies nicht zum Job gehört. Ich würde vermuten, dass die größten Unternehmen diejenigen sind, in denen die Rollen am spezialisiertesten sind, aber ich kann es nicht mit Sicherheit sagen. So ziemlich jeder Datenwissenschaftler, den ich kenne, muss zumindest vorzeigbare Zeichnungen erstellen, und die meisten tun viel mehr.

Sie können sich auch mit “Data Engineering” -Rollen befassen. Dies sind in der Regel die Personen, die programmieren, um von Datenwissenschaftlern entwickelte Modelle zu implementieren und zu skalieren. Diese Rollen sind in der Regel programmier- und entwicklungsintensiver und erfordern nicht so viel statistischen Hintergrund oder benutzerbezogene Kommunikation wie eine Rolle im Bereich Data Science.

Einige meiner Kollegen haben hier einen ziemlich soliden Beitrag geschrieben, in dem sie die Vor- und Nachteile von Autodidaktik (MOOCs), Master-Programmen und Bootcamps bewerteten:
Wie werde ich Datenwissenschaftler? Eine Bewertung von 3 Alternativen

Wenn Sie Erfolg haben wollen, befolgen Sie die fünf Schritte, die für mich gut funktioniert haben

Der erste Schritt sollte darin bestehen, die Grundlagen zu erlernen. Der bisher beste Kurs zum maschinellen Lernen ist das maschinelle Lernen von Andrew Ng. Es sollte Ihr erster Schritt sein, um es abzuschließen. Ich hatte die Angewohnheit, diesen Kurs während meines Praktikums auf dem Weg zur Microsoft-Zentrale zu hören.

Danach kann ich einen Ergänzungskurs Neuronale Netze von Geoffrey Hinton empfehlen.

Wenn Sie fertig sind, fahren Sie mit dem Erlernen von Kursen für Fortgeschrittene fort .

Diese haben für mich gearbeitet, als sie mit einer Gruppe von Freunden der Forschungsgruppe Maschinelles Lernen zusammen mit der obligatorischen Pizza angeschaut wurden 🙂

  • Udacity Deep Learning
  • Tensorflow-Tutorial
  • Stanfords offizieller Faltungskurs für neuronale Netze
  • Nando de Freitas Deep Learning-Videokurs
  • Ian Goodfellow Deep Learning-Buch

Lesen Sie anschließend die neuesten und wichtigsten Fachartikel von Konferenzen und Fachzeitschriften.

Am besten nehmen Sie an einer Arbeitsgruppe oder einer Verteilerliste in Ihrem Unternehmen teil. Ich habe gehört, dass Google, Microsoft und NVIDIA gute haben. Wir bei Sigmoidal haben einen eigenen Slack-Kanal, über den wir aktuelle Artikel entdecken und studieren können.

  • Internationale Konferenz zum maschinellen Lernen
  • Wissensermittlung und Data Mining
  • Neuronale Informationsverarbeitungssysteme
  • Maschinelles lernen
  • Zeitschrift für maschinelles Lernen
  • Transaktionen zu Knowledge und Data Engineering
  • Zeitschrift für künstliche Intelligenzforschung

Wenn Sie genug Wissen sammeln , können Sie anfangen, Practitioner zu werden, indem Sie an Wettbewerben auf den Plattformen Kaggle und TopCoder teilnehmen .

Ich habe eine Menge Leute getroffen, indem ich an Wettbewerben teilgenommen und die Probleme der Welt gelöst habe Brustkrebs oder Überhitzung der Internationalen Raumstation

Mehrere Leute, die ich während des Wettbewerbs getroffen habe, arbeiten jetzt für mich. 🙂 Aus diesem Grund können Sie sich nach erfolgreicher Teilnahme an den Wettbewerben problemlos einen Einstiegsjob sichern und zum Professional Data Scientist aufsteigen

Ich werde einen Leitfaden für von mir geschaffene datenwissenschaftliche Berufe und insbesondere einen Abschnitt über die Fähigkeiten und Werkzeuge, die Sie benötigen, sowie die Ressourcen, die erforderlich sind, um ein Datenwissenschaftler zu werden, herausziehen. Vollständige Offenlegung: Ich arbeite für ein Unternehmen, das mit einem flexiblen Online-Bootcamp für Data Science, das personalisiertes Mentoring von Experten und Karriere-Coaching umfasst, Menschen hilft, in eine Karriere im Bereich Data Science einzusteigen.


Data Science Skills

Die meisten Datenwissenschaftler verwenden jeden Tag eine Kombination von Fähigkeiten, von denen einige sie selbst am Arbeitsplatz oder auf andere Weise unterrichtet haben. Sie kommen auch aus verschiedenen Bereichen. Es gibt keinen bestimmten akademischen Nachweis, den Datenwissenschaftler benötigen.

Alle in diesem Abschnitt besprochenen Fähigkeiten können selbst erlernt werden. Wir haben einige Ressourcen bereitgestellt, damit Sie diesen Weg einschlagen können. Betrachten Sie es als eine Anleitung, wie Sie Datenwissenschaftler werden können.

Ein analytischer Geist

Wie Sie ein analytischer Datenwissenschaftler werden

Sie benötigen eine analytische Denkweise, um in der Datenwissenschaft erfolgreich zu sein. Bei vielen datenwissenschaftlichen Fragestellungen geht es darum, Probleme mit scharfem und scharfem Verstand zu lösen.

Ressourcen

Halte deinen Geist mit Büchern und Rätseln scharf. Mit einer Website wie Lumosity können Sie sicherstellen, dass Sie jederzeit kognitiv scharf sind.

Mathematik

Wie werde ich Datenwissenschaftler mit Mathematik?

Mathematik ist ein wichtiger Bestandteil der Datenwissenschaft. Stellen Sie sicher, dass Sie die Grundlagen der Hochschulmathematik von der Analysis bis zur linearen Algebra kennen. Je mehr Mathe du weißt, desto besser.

Wenn Daten umfangreich werden, werden sie häufig unhandlich. Sie müssen Mathematik verwenden, um die Daten, mit denen Sie zu tun haben, zu verarbeiten und zu strukturieren.

Sie werden nicht in der Lage sein, die Analysis und die lineare Algebra nicht zu verstehen, wenn Sie diese Themen im Grundstudium verpasst haben. Sie müssen verstehen, wie Sie Datenmatrizen manipulieren und sich einen Überblick über die Mathematik von Algorithmen verschaffen.

Ressourcen

Diese Liste von 15 Mathematik-MOOC-Kursen kann Ihnen dabei helfen, mathematische Fähigkeiten nachzuholen. Das MIT bietet auch einen offenen Kurs speziell zur Mathematik der Datenwissenschaften an.

Statistiken

So werden Sie Datenwissenschaftler mit Statistik

Sie müssen über Statistiken verfügen, um Erkenntnisse aus kleineren Datensätzen auf größere Populationen abzuleiten. Dies ist das Grundgesetz der Datenwissenschaft. Statistiken ebnen Ihnen den Weg zum Data Scientist.

Sie benötigen Statistiken, um mit Daten zu spielen. Mithilfe von Statistiken können Sie die in Daten beobachteten Muster besser verstehen und die Erkenntnisse extrahieren, die Sie benötigen, um vernünftige Schlussfolgerungen zu ziehen. Wenn Sie beispielsweise die Inferenzstatistik verstehen, können Sie anhand einer kleineren Stichprobe allgemeine Schlussfolgerungen über jeden in einer Population ziehen.

Um Data Science zu verstehen, müssen Sie die Grundlagen des Hypothesentests kennen und Experimente entwerfen, um die Bedeutung und den Kontext Ihrer Daten zu verstehen.

Ressourcen

Unser Blog hat einen Leitfaden darüber veröffentlicht, wie Bayes Theorem, Wahrscheinlichkeit und Statistik sich überschneiden. Die Stelle bildet eine gute Grundlage für das Verständnis der statistischen Grundlagen, wie man ein Datenwissenschaftler wird.

Algorithmen

Wie man ein Datenwissenschaftler mit Algorithmen wird

Algorithmen sind die Fähigkeit, Computer dazu zu bringen, einem bestimmten Satz von Regeln oder Mustern zu folgen. Um Datensätze zu verarbeiten und zu analysieren, die für den menschlichen Verstand zu groß sind, ist es wichtig zu verstehen, wie er Maschinen für seine Arbeit einsetzt.

Damit Sie in der Datentechnik viel lernen können, müssen Sie die Theorie hinter der Auswahl und Optimierung von Algorithmen verstehen. Sie müssen entscheiden, ob für Ihr Problem eine Regressionsanalyse oder ein Algorithmus erforderlich ist, mit dem Sie verschiedene Datenpunkte in definierte Kategorien einteilen können.

Sie werden viele verschiedene Algorithmen kennenlernen wollen. Sie möchten auch die Grundlagen des maschinellen Lernens erlernen. Dank maschinellem Lernen kann Amazon Ihnen Produkte basierend auf Ihrer Kaufhistorie empfehlen, ohne dass ein direkter menschlicher Eingriff erforderlich ist. Hierbei handelt es sich um eine Reihe von Algorithmen, die mithilfe der Maschinenleistung Erkenntnisse für Sie gewinnen.

Um mit massiven Datenmengen fertig zu werden, müssen Sie Maschinen einsetzen, um Ihr Denken zu erweitern.

Ressourcen

In diesem Handbuch von KDNuggets werden zehn gebräuchliche datenwissenschaftliche Algorithmen im Klartext erklärt. Hier finden Sie 19 kostenlose öffentliche Datensätze, mit denen Sie die Implementierung verschiedener Algorithmen für Daten üben können.

Datenvisualisierung

So werden Sie Datenwissenschaftler mit Datenvisualisierung

Das Beenden Ihrer Datenanalyse ist nur die halbe Miete. Um die Wirkung zu steigern, müssen Sie andere davon überzeugen, an Ihre Erkenntnisse zu glauben und diese zu übernehmen. So werden Sie Datenwissenschaftler.

Menschen sind visuelle Wesen. Laut 3M und Zabisco sind fast 90% der Informationen, die an Ihr Gehirn übermittelt werden, visueller Natur, und Bilder werden 60.000 Mal schneller verarbeitet als Text .

Datenvisualisierung ist die Kunst, Informationen mithilfe von Diagrammen und anderen visuellen Werkzeugen darzustellen, damit das Publikum die Daten leicht interpretieren und daraus Erkenntnisse ziehen kann. Welche Informationen lassen sich am besten in einem Balkendiagramm darstellen und welche Arten von Daten sollten in einem Streudiagramm dargestellt werden?

Menschen sind verdrahtet, um auf visuelle Hinweise zu reagieren. Je besser Sie Ihre Datenerkenntnisse präsentieren können, desto wahrscheinlicher ist es, dass jemand basierend auf ihnen Maßnahmen ergreift.

Ressourcen

Wir haben eine Liste von 31 kostenlosen Datenvisualisierungstools, mit denen Sie herumspielen können. Nathan Yaus FlowingData-Blog enthält Tipps und Tricks zur Datenvisualisierung, die Sie auf die nächste Ebene bringen.

Geschäftswissen

So werden Sie Datenwissenschaftler mit betriebswirtschaftlichen Kenntnissen

Daten bedeuten ohne Kontext wenig. Sie müssen das Geschäft verstehen, das Sie analysieren. Klarheit ist das Kernstück, um Datenwissenschaftler zu werden.

Die meisten Unternehmen sind darauf angewiesen, dass ihre Datenwissenschaftler nicht nur Datensätze abbauen, sondern auch ihre Ergebnisse an verschiedene Interessengruppen weitergeben und Empfehlungen vorlegen, auf die reagiert werden kann.

Die besten Datenwissenschaftler haben nicht nur die Fähigkeit, mit großen, komplexen Datenmengen zu arbeiten, sondern auch die Feinheiten des Geschäfts oder der Organisation zu verstehen, für die sie arbeiten .

Allgemeine Geschäftskenntnisse ermöglichen es ihnen, die richtigen Fragen zu stellen und aufschlussreiche Lösungen und Empfehlungen zu finden, die angesichts der Einschränkungen, die das Unternehmen möglicherweise auferlegt, tatsächlich durchführbar sind.

Ressourcen

Diese Liste mit kostenlosen Business-Kursen kann Ihnen dabei helfen, das Wissen zu erlangen, das Sie benötigen. Unser Kurs Data Analytics for Business kann Ihnen dabei helfen, diese Dimension mit einem Mentor zu erlernen.

Domain-Know-how

So werden Sie Data Scientist mit Domain-Fachkenntnissen

Als Data Scientist sollten Sie wissen, für welches Unternehmen Sie arbeiten und in welcher Branche Sie tätig sind.

Sie müssen nicht nur über fundierte Kenntnisse des Unternehmens verfügen, für das Sie arbeiten, sondern auch wissen, in welchem ​​Bereich dies funktioniert, damit Ihre geschäftlichen Erkenntnisse sinnvoll sind. Daten aus einer Biologiestudie können einen drastisch anderen Kontext haben als Daten aus einer gut durchdachten Psychologiestudie. Sie sollten genug wissen, um den Fachjargon zu durchbrechen.

Ressourcen

Dies wird weitgehend branchenabhängig sein. Sie müssen Ihren eigenen Weg finden und so viel wie möglich über Ihre Branche lernen!

Data Science Tools

Nachdem Sie Ihre Fähigkeiten entwickelt haben, müssen Sie nun lernen, wie Sie moderne Data-Science-Tools verwenden. Jedes Tool hat seine Stärken und Schwächen, und jedes Tool spielt eine andere Rolle im datenwissenschaftlichen Prozess. Sie können einen von ihnen verwenden, oder Sie können alle von ihnen verwenden. Was folgt, ist ein breiter Überblick über die beliebtesten Tools in der Datenwissenschaft sowie die Ressourcen, die Sie benötigen, um sie richtig zu erlernen, wenn Sie tiefer eintauchen möchten.

Dateiformate

Daten können in verschiedenen Dateiformaten gespeichert werden. Hier sind einige der häufigsten:

CSV : Kommagetrennte Werte. Möglicherweise haben Sie diese Art von Datei zuvor mit Excel geöffnet. CSVs trennen Daten mit einem Trennzeichen, einer Interpunktion, mit der verschiedene Datenpunkte voneinander getrennt werden.

SQL : SQL oder strukturierte Abfragesprache speichert Daten in relationalen Tabellen. Wenn Sie von rechts nach links in eine Spalte wechseln, erhalten Sie unterschiedliche Datenpunkte für dieselbe Entität (z. B. hat eine Person einen Wert in den Kategorien AGE, GENDER und HEIGHT).

JSON : Javascript Object Notation ist ein einfaches Datenaustauschformat, das sowohl von Menschen als auch von Maschinen gelesen werden kann. Daten von einem Webserver werden häufig in diesem Format übertragen.


Excel

Excel ist oft das Tor zur Datenwissenschaft und etwas, das jeder Datenwissenschaftler vom Lernen profitieren kann.

Einführung in Excel

Mit Excel können Sie Daten auf einfache Weise mit einem Editor bearbeiten, mit dem Sie Gleichungen für Daten erstellen können, ohne überhaupt mit Code arbeiten zu müssen. Es ist ein praktisches Tool für Datenanalysten, die ohne Programmierung Ergebnisse erzielen möchten.

So werden Sie Datenwissenschaftler mit Excel

Es ist einfach, mit Excel zu beginnen, und es ist ein Programm, das jeder, der sich mit Analytics befasst, intuitiv erfassen kann. Es kann nützlich sein, Daten an Personen zu übermitteln, die möglicherweise keine Programmierkenntnisse haben: Sie sollten dennoch in der Lage sein, mit den Daten zu spielen.

Wer nutzt das?

Datenanalysten verwenden in der Regel Excel.

Schwierigkeitslevel

Anfänger

Beispielprojekt

Importieren eines kleinen Datensatzes zur Statistik von NBA-Spielern und Erstellen eines einfachen Diagramms der Torschützen der Liga


SQL

SQL ist die beliebteste Programmiersprache, um Daten zu finden.

Einführung in SQL

Datenwissenschaft braucht Daten. SQL ist eine Programmiersprache, die speziell zum Extrahieren von Daten aus Datenbanken entwickelt wurde.

So werden Sie Datenwissenschaftler mit SQL

SQL ist das beliebteste Tool, das von Datenwissenschaftlern verwendet wird. Die meisten Daten der Welt werden in Tabellen gespeichert, für deren Zugriff SQL erforderlich ist. Sie können damit die Daten filtern und sortieren.

Wer nutzt das?

Datenanalysten und einige Dateningenieure verwenden in der Regel SQL.

Schwierigkeitslevel

Anfänger

Beispielprojekt

Verwenden einer Abfrage zum Auswählen der zehn beliebtesten Titel aus einer SQL-Datenbank des Billboard 100.


Python

Python ist eine leistungsstarke, vielseitige Programmiersprache für die Datenwissenschaft.

Einführung in Python

Sobald Sie Anaconda, einen Umgebungsmanager für Python, heruntergeladen und auf iPython Notebook eingerichtet haben, werden Sie schnell feststellen, wie intuitiv Python ist. Python ist eine vielseitige Programmiersprache, die von der Erstellung von Websites bis hin zum Sammeln von Daten im gesamten Web zahlreiche Codebibliotheken enthält, die die Arbeit mit Data Science vereinfachen sollen.

Wie Sie mit Python Datenwissenschaftler werden

Python ist eine vielseitige Programmiersprache mit einer einfachen Syntax, die leicht zu erlernen ist.

Die durchschnittliche Gehaltsspanne für Jobs bei Python in ihrer Beschreibung liegt bei 102.000 USD. Python ist die beliebteste Programmiersprache, die an Universitäten gelehrt wird: Die Community der Python-Programmierer wird in den kommenden Jahren nur noch größer werden. Die Python-Community unterrichtet leidenschaftlich gerne Python und erstellt nützliche Tools, mit denen Sie Zeit sparen und mehr aus Ihren Daten machen können.

Viele Datenwissenschaftler verwenden Python, um ihre Probleme zu lösen: 40% der Befragten einer von O’Reilly durchgeführten endgültigen datenwissenschaftlichen Umfrage verwendeten Python, also mehr als die 36%, die Excel verwendeten.

Wer nutzt das?

Dateningenieure und Datenwissenschaftler werden Python für mittelgroße Datensätze verwenden.

Schwierigkeitslevel

Mittlere

Beispielprojekt

Verwenden Sie Python, um Tweets von Prominenten zu erhalten, und analysieren Sie dann die häufigsten Wörter, die beim Anwenden von Programmierregeln verwendet werden.


R

R ist eine Grundvoraussetzung in der Data-Science-Community, da es explizit für datenwissenschaftliche Anforderungen entwickelt wurde. Es ist die beliebteste Programmierumgebung in der Datenwissenschaft, die von 43% der Datenexperten verwendet wird.

Einführung in R

R ist eine Programmierumgebung für die Datenanalyse. R ist eine hervorragende Wahl, wenn es darum geht, statistische Modelle zu erstellen und die Ergebnisse anzuzeigen.

Wie werde ich Data Scientist bei R

R ist eine Umgebung, in der eine Vielzahl von statistischen und grafischen Techniken angewendet werden kann.

Die Community stellt Pakete zur Verfügung, die ähnlich wie Python die Kernfunktionen der R-Codebasis erweitern können, sodass sie auf bestimmte Probleme wie das Messen von Finanzkennzahlen oder das Analysieren von Klimadaten angewendet werden können.

Wer nutzt das?

Dateningenieure und Datenwissenschaftler verwenden R für mittelgroße Datensätze.

Schwierigkeitslevel

Mittlere

Beispielprojekt

Verwenden Sie R, um die Börsenbewegungen der letzten fünf Jahre zu erfassen.

Big Data Tools

Big Data kommt von Moore’s Law, einer Theorie, nach der sich die Rechenleistung alle zwei Jahre verdoppelt. Dies hat zu massiven Datenmengen geführt, die von Millionen von Computern generiert wurden. Stellen Sie sich vor, wie viele Daten Facebook zu einem bestimmten Zeitpunkt hat!

Jeder Datensatz, der für herkömmliche Datentools wie SQL und Excel zu groß ist, kann laut McKinsey als Big Data betrachtet werden. Die einfachste Definition ist, dass Big Data Daten sind, die nicht auf Ihren Computer passen.

Hier sind Tools, um dieses Problem zu lösen:

Hadoop

Mit Hadoop können Sie Ihre Daten auf mehreren Servern speichern und gleichzeitig von einem Server aus steuern.

Einführung in Hadoop

Die Lösung ist eine Technologie namens MapReduce. MapReduce ist eine elegante Abstraktion, die eine Reihe von Computern wie einen zentralen Server behandelt. Auf diese Weise können Sie Daten auf mehreren Computern speichern, diese jedoch über einen Computer verarbeiten.

So werden Sie Datenwissenschaftler bei Hadoop

Hadoop ist ein Open-Source-Ökosystem von Tools, mit denen Sie Ihre Daten MapReduzieren und enorme Datenmengen auf verschiedenen Servern speichern können. Damit können Sie viel mehr Daten verwalten als auf einem einzelnen Computer.

Wer nutzt das?

Dateningenieure und Datenwissenschaftler werden Hadoop verwenden, um große Datenmengen zu verarbeiten.

Schwierigkeitslevel

Fortgeschritten

Beispielprojekt

Speichern Sie mithilfe von Hadoop umfangreiche Datensätze, die in Echtzeit aktualisiert werden, z. B. die Anzahl der von Facebook-Nutzern generierten Likes.


NoSQL

Mit NoSQL können Sie Daten ohne unnötiges Gewicht verwalten.

Einführung in NoSQL

Tabellen, die alle ihre Daten mitbringen, können umständlich werden. NoSQL enthält eine Vielzahl von Datenspeicherlösungen, die große Datenmengen in verwaltbare Blöcke aufteilen.

Vorteile von NoSQL

NoSQL war ein Trend, mit dem Google mit den unglaublich großen Datenmengen fertig wurde, die von Google gespeichert wurden. Lösungen wie MongoDB, die häufig im bei Webentwicklern beliebten JSON-Format strukturiert sind, haben Datenbanken erstellt, die wie SQL-Tabellen manipuliert werden können, die jedoch Daten mit geringerer Struktur und Dichte speichern können.

Wer nutzt das?

Dateningenieure und Datenwissenschaftler verwenden NoSQL für große Datenmengen, häufig Website-Datenbanken für Millionen von Benutzern.

Schwierigkeitslevel

Fortgeschritten

Beispielprojekt

Speichern von Daten über Benutzer einer Social Media-Anwendung, die im Web bereitgestellt wird.


Hoffe das war hilfreich! Den vollständigen Auszug finden Sie hier. Wenn Sie sich für ein betreutes Bootcamp für Data Science interessieren, das Ihnen dabei hilft, die Schritte zu machen, die Sie benötigen, um Data Scientist zu werden, lesen Sie den Data Science Career Track von Springboard!

Es ist wirklich gut, dass Sie Data Scientist werden möchten. Die meisten Leute denken, dass es sehr schwierig ist, Data Scientist zu werden.

Aber lassen Sie mich klarstellen, es ist nicht schwer, wenn Sie sehr klug in die richtige Richtung arbeiten, können Sie leicht Data Scientist werden.

Um Data Scientist zu werden, müssen Sie zuerst verstehen, wer Data Scientist ist, und dann lernen, welche Fähigkeiten für Data Scientist erforderlich sind, und anschließend deren Rollen und Verantwortlichkeiten kennen. Versuchen Sie im letzten Schritt, diese Fähigkeiten gemäß Ihren Rollen und Verantwortlichkeiten in sich selbst zu integrieren.

Lassen Sie uns zunächst wissen, wer Data Scientists sind?

Data Scientists sind eine neue Generation von Experten für analytische Daten, die die technischen Fähigkeiten besitzen, um komplexe Probleme zu lösen – und die Neugierde, um herauszufinden, welche Probleme gelöst werden müssen.

Datenwissenschaftler sind Big Data Wrangler. Sie nehmen eine große Menge unordentlicher Datenpunkte (unstrukturiert und strukturiert) und säubern, massieren und organisieren sie mit ihren beeindruckenden Fähigkeiten in Mathematik, Statistik und Programmierung. Dann wenden sie alle ihre analytischen Fähigkeiten an, um versteckte Lösungen für geschäftliche Herausforderungen zu finden und dem Unternehmen zu präsentieren.

Data Scientist muss sowohl über technische als auch über nichttechnische Fähigkeiten verfügen, um seine Arbeit effektiv ausführen zu können.

Technische Fähigkeiten werden in 3 Stufen in Data Science einbezogen. Sie beinhalten:

  • Datenerfassung & Vorverarbeitung
  • Datenanalyse & Mustererkennung
  • Präsentation & Visualisierung

Einige Aufgaben von Data Scientists:

  • Verwandeln widerspenstiger Daten in ein benutzerfreundlicheres Format.
  • Geschäftsbezogene Probleme mithilfe datengesteuerter Techniken lösen.
  • Arbeiten mit verschiedenen Programmiersprachen.
  • Gute statistische Kenntnisse, einschließlich statistischer Tests und Verteilungen.
  • Bleiben Sie über analytische Techniken wie maschinelles Lernen, Deep Learning und Textanalyse auf dem Laufenden.
  • Kommunikation und Zusammenarbeit mit IT und Business.
  • Suchen Sie nach Ordnungen und Mustern in Daten sowie nach Trends, die das Geschäftsergebnis verbessern können.

Sehen wir uns nun die Fähigkeiten an, die für Data Scientist erforderlich sind:

Erforderliche Fähigkeiten, um Data Scientist zu werden

  • Vertiefte Kenntnisse der Python-Codierung. Es ist die gebräuchlichste Sprache, einschließlich Perl, Ruby usw.
  • Fundierte SAS / R-Kenntnisse
  • Es ist ein Muss, dass Data Scientist mit unstrukturierten Daten arbeiten kann. Ob es aus Videos, Social Media etc. kommt
  • Gute Kenntnisse in der SQL-Datenbankcodierung.
  • Data Scientist sollte ein gutes Verständnis für verschiedene analytische Funktionen haben. Zum Beispiel Rang, Median usw.
  • Umfassende Kenntnisse des maschinellen Lernens sind erforderlich.
  • Ein Data Scientist sollte sich mit Hive , Mahout, Bayes’schen Netzwerken usw. auskennen. In der Data Science sind Kenntnisse in MySQL nur ein zusätzlicher Vorteil.

Sehen wir uns nun die Rollen und Verantwortlichkeiten von Data Scientist an:

a) Verantwortlichkeiten eines Data Scientists

  • Datenbereinigung und -verarbeitung.
  • Vorhersage des Geschäftsproblems. Seine Aufgabe ist es, zukünftige Ergebnisse dieses Geschäfts zu liefern.
  • Entwicklung maschineller Lernmodelle und analytischer Methoden.
  • Suchen Sie nach neuen Geschäftsfragen, die dem Geschäft einen Mehrwert verleihen können.
  • Data Mining mit modernsten Methoden.
  • Ergebnisse übersichtlich darstellen und die Ad-hoc-Analyse durchführen.

Weitere Informationen zu den Fähigkeiten und Verantwortlichkeiten von Data Scientist finden Sie unter folgendem Link:

Rollen und Verantwortlichkeiten eines Data Scientist

Hier sind einige Jobtrends von Data Scientists.

Für die Durchführung von drei Phasen von Data Scientists werden drei Kategorien von Tools benötigt: Tools zum Abrufen von Daten, Tools zum Analysieren der Daten und Tools zum Präsentieren der Ergebnisse.

Verschiedene Tools zur Durchführung der 3 Stufen von Data Scientists:

1. Tools zum Abrufen und Vorverarbeiten von Daten

ein. SQL

Dies ist ein Muss für alle Datenwissenschaftler, unabhängig davon, ob Sie strukturierte oder unstrukturierte Daten verwenden. Unternehmen verwenden die neuesten SQL-Engines wie Apache Hive, Spark-SQL, Flink-SQL, Impala usw.

b. Big Data-Technologien

Dies ist das Muss unter den Fähigkeiten, die erforderlich sind, um Data Scientist zu werden. Der Datenwissenschaftler muss sich mit verschiedenen Big-Data-Technologien auskennen – Technologien der ersten Generation wie Apache Hadoop und sein Ökosystem (Bienenstock, Schwein, Gerinne usw.), Next-Gen-Technologien wie Apache Spark und Apache Flink (Apache Flink ersetzt Apache Spark schnell als Flink ist eine Big-Data-Engine für allgemeine Zwecke, die auch Echtzeitdatenströme verarbeiten kann. Weitere Informationen zu Flink finden Sie in diesem umfassenden Lernprogramm.

c. UNIX

Da die meisten Rohdaten auf einem UNIX- oder Linux-Server gespeichert werden, bevor sie in einem Datenspeicher abgelegt werden, ist es hilfreich, ohne Abhängigkeit von einer Datenbank auf die Rohdaten zugreifen zu können. Unix-Kenntnisse sind also gut für Data Scientists. Befolgen Sie diese Befehlsanleitung, um Linux-Befehle zu üben.

d. Python

Python ist eine der beliebtesten Sprachen für Datenwissenschaftler. Python ist eine interpretierte, objektorientierte Programmiersprache mit dynamischer Semantik. Es ist eine Hochsprache mit dynamischer Bindung und Typisierung.

2. Tools für Datenanalyse und Mustervergleich

Dies hängt von Ihrem statistischen Kenntnisstand ab. Einige Tools werden für erweiterte Statistiken verwendet, andere für grundlegende Statistiken.

ein. SAS

Viele Unternehmen setzen SAS ein, weshalb einige grundlegende Kenntnisse über SAS von Vorteil sind. Sie können Gleichungen leicht manipulieren.

b. R

R ist in der statistischen Welt am beliebtesten. R ist ein Open-Source-Tool und eine Sprache, die objektorientiert ist, sodass Sie sie überall verwenden können. Es ist die erste Wahl für jeden Datenwissenschaftler, da die meisten Dinge in R implementiert sind. Um den Vergleich zwischen den wichtigsten Datenanalyse-Tools zu erhalten, befolgen Sie diese Vergleichsanleitung zwischen R vs SAS vs SPSS.

c. Maschinenlehnen

Maschinelles Lernen ist das anspruchsvollste und nützlichste Werkzeug, das die Datenwissenschaftler haben müssen. Algorithmen für maschinelles Lernen werden für erweiterte Datenanalyse, Vorhersageanalyse und erweiterten Musterabgleich verwendet.

Weitere Tools zum Durchführen von drei Phasen von Data Scientist finden Sie unter: Erforderliche Fähigkeiten, um Data Scientist zu werden

Über diesen Link können Sie sich über die Zertifizierungen für Data Scientists informieren: Verschiedene Zertifizierungen für Data Scientists

Ich hoffe es hilft!!

SELBSTSTARTER-WEG
Für Selbstanfänger ist hier eine Übersicht, mit der man beginnen kann. (Dies ist aus meinem Blog reproduziert – Wie erhalte ich das “Essential Skill Set”? – der Self Starter-Weg). Die Idee besteht darin, eine oder zwei Ressourcen (Links) aus jeder Untergruppe auszuwählen und mehr darüber zu erfahren.

0. Grundvoraussetzungen:

  • Mathematik, Algorithmen & Datenbanken: Mathispower4u-Kalkül, Coursera-Lineare Algebra, Coursera-Analyse von Algorithmen, Coursera- Einführung in Datenbanken
  • Statistik: Wahrscheinlichkeit und Statistik für Programmierer, Statistische Formeln für Programmierer, Coursera-Datenanalyse, Coursera-Statistik Eins
  • Programmierung: Google Developers R – Programmiervorlesungen, Einführung in R – DataCamp, wissenschaftliche Python – Vorlesungen, Wie man wie ein Informatiker denkt

1. Erfassen und Bereinigen von Daten:

  • DFS & Datenbanken: Hadoop-Plattform und Anwendungsframework – Coursera, Hadoop-Lernprogramm – Yahoo, Einführung in Hadoop & MapReduce für Anfänger – Udacity, Leitfaden für Anfänger in MongoDB
  • Data Munging: Predictive Analytics: Datenvorbereitung, Daten-Wrangling bei Pandas, Analysieren und Bearbeiten von Daten mit Pandas, Data Wrangler, OpenRefine

2. Filter & Mine Daten:

  • Datenanalyse in R: Datenwissenschaft in R, Coursera-Computing für Datenanalyse in R
  • Datenanalyse in Python (numpy, scipy, pandas, scikit): Erste Schritte mit Python für Data Science, Einführung in NumPy -SciPyConf 2015, Statistische Datenanalyse in Python, Pandas (1. Video unten), SciPy 2013 – Einführung in SciKit Lernprogramm I & II (2. & 3. Video unten)
  • Explorative Datenanalyse – Explorative Datenanalyse in R, Explorative Datenanalyse in Python, UC Berkeley: Deskriptive Statistik, grundlegende Unix-Shell-Befehle für den Data Scientist
  • Data Mining, Maschinelles Lernen:

Data Mining-Karte, Coursera – Maschinelles Lernen, Stanford – Statistisches Lernen, MITx: The Analytics Edge, STATS 202 Data Mining und Analyse, Lernen aus Daten – CalTech, Coursera – Web Intelligence und Big Data

  • Big Data Machine Learning – Einführung und Übungen zu AMP Camp Berkeley Spark, EdX- Big Data-Analyse mit Apache Spark, Mining von Massendatensätzen – Stanford

3. Daten darstellen und verfeinern: Tableau-Training & Tutorials, Datenvisualisierung in R mit ggplot2 und plyr, Predictive Analytics: Überblick und Datenvisualisierung, Fließende Daten-Tutorials, UC Berkeley-Daten-Visualisierung, D3.js Tutorial

4. Domänenwissen: Diese Fähigkeit wird durch Erfahrung in einer Branche entwickelt. Jeder Datensatz ist anders und unterliegt bestimmten Annahmen und Branchenkenntnissen. Beispielsweise würde ein auf Börsendaten spezialisierter Datenanalyst Zeit benötigen, um Kenntnisse in der Analyse von Transaktionsdaten für Restaurants zu entwickeln.

Kombinieren Sie all das Obige:
Datenkompetenzkurs – IAP
Coursera – Einführung in die Datenwissenschaft
Coursera – Data Science Spezialisierung

Bücher:
Elemente des statistischen Lernens
Python Maschinelles Lernen

Wenden Sie das Wissen an:
Harvard Data Science Course Hausaufgaben
Kaggle: Die Heimat der Datenwissenschaft
Big Data mit Twitter analysieren
Analysieren von Twitter-Daten mit Apache Hadoop

AUF FORMELLE WEISE
Für einen formaleren Weg, ein Datenwissenschaftler zu werden, kann man in diesem Beitrag nachschauen (unten wiedergegeben) – Wie erhalte ich das “Essential Skill Set”? – den Formalen Weg.
Das Essential Skill Set ist die grundlegende Grundkompetenz, die jeder Data Scientist kennen muss. Traditionell können diese erworben werden, indem ein Informatik-Abschluss oder ein Statistik-Abschluss von einer Institution erworben wird. Die Kurse in Stanford Computer Science & Statistics bieten eine gute Referenzliste der Kurse, die absolviert werden müssen. Einige der Kurse sind jetzt relevant, andere nicht. In der Informatik würde man sich zwar gut mit verteilten Datenbanken und Algorithmen in großem Maßstab auskennen, es ist jedoch nicht erforderlich, HCI und UX oder Pureplay-Speicher- und Betriebssysteme, Netzwerke usw. zu erlernen. In ähnlicher Weise konzentrieren sich einige Statistikkurse zu sehr auf Nehmen wir an, “Statistiken der alten Schule” mit Tausenden von Möglichkeiten zum Testen von Hypothesen anstelle von mehr zum maschinellen Lernen (Clustering, Regression, Klassifizierung usw.). Daher haben beide Streams viele schöne Kurse und müssen Kurse für einen Datenwissenschaftler haben (ich wage zu behaupten, dass der Prozentsatz der Kurse, die benötigt werden, derzeit in einem traditionellen Statistik-Stream größer zu sein scheint als in einem Informatik-Stream). Als solches muss man die Kurse mit Bedacht auswählen.

Alternativ kann man sich auch eine Reihe neuer Data Science-Kurse ansehen, die einige Universitäten zu den oben genannten Punkten anbieten. Sie kombinieren die Pflichtkurse sowohl aus dem traditionellen Statistik- als auch dem Informatikprogramm, um die 4 wesentlichen Fähigkeiten zu vermitteln, und umfassen Kurse zur Entwicklung der Unterscheidungsfähigkeiten der Studenten. Der MS in Data Science an der NYU und der MS in Analytics an der USF sind gute Beispiele für eine solche Zusammenführung der erforderlichen Kurse. Eine vollständige Liste solcher Kurse finden Sie hier – Colleges mit Data Science Degrees.

Das richtige Programm hängt natürlich vom individuellen Ziel ab. Eine der jüngsten O’Rielly-Veröffentlichungen mit dem Titel “Analyzing the Analyzers” (Analysieren der Analysatoren) leistet sehr gute Arbeit bei der Zusammenfassung der verschiedenen Data Scientist-Rollen in vier Hauptkategorien nach ihren Fähigkeiten. Eine Person kann daher ein Programm gemäß der Kategorie von Datenwissenschaftlern auswählen, mit denen sie sich am meisten identifiziert, wie unten gezeigt.

  • Data Businesspeople sind die produkt- und gewinnorientierten Data Scientists. Sie sind Führungskräfte, Manager und Unternehmer, aber mit einer technischen Neigung. Ein gängiger Bildungsweg ist ein Ingenieurstudium in Kombination mit einem MBA oder den oben genannten neuen Data Science-Programmen.
  • Data Creatives sind vielseitige Branchenkenner, die mit einer Vielzahl von Daten und Tools arbeiten können. Sie können sich als Künstler oder Hacker betrachten und sich durch Visualisierung und Open Source-Technologien auszeichnen. Es wird erwartet, dass sie einen Abschluss als Ingenieur (hauptsächlich in Statistik oder Wirtschaftswissenschaften) haben, aber nicht viel unternehmerische Fähigkeiten.
  • Datenentwickler konzentrieren sich auf das Schreiben von Software für analytische, statistische und maschinelle Lernaufgaben, häufig in Produktionsumgebungen. Sie haben oft einen Abschluss in Informatik und arbeiten oft mit sogenannten “Big Data”.
  • Datenforscher wenden ihre wissenschaftliche Ausbildung und die Werkzeuge und Techniken, die sie in der Wissenschaft gelernt haben, auf Organisationsdaten an. Sie haben möglicherweise einen Master- oder Doktortitel in Statistik, Wirtschaft, Physik usw., und ihre kreative Anwendung mathematischer Werkzeuge liefert wertvolle Erkenntnisse und Produkte.

Die mit den 4 Hauptkategorien verbundenen Fähigkeiten, die die oben genannte Programmempfehlung rechtfertigen, sind wie folgt:

Es gibt zwar viele Möglichkeiten, um anzufangen, aber hier ist mein Rückblick auf die Data Science | Python – IBM Track Certificate-Kurs über die DeZyre Academy. Ich erkenne dies als ein sehr wichtiges Sprungbrett, da ich weiterhin verschiedene Werkzeuge lerne, die für mein Gebiet relevant sind.


Dezyres Data Science für Python Teil 3 & 4

Ich habe diese Serie aufgrund meiner Erfahrungen mit der IBM Python-Zertifizierung von Dezyre.com veröffentlicht. Dies sind meine Gedanken zu den Klassen 3 und 4. Ich glaube, dass es insgesamt 12 sind, die sich auf 5-6 Wochen verteilen. Klicken Sie hier, um meinen Kommentar zu den Klassen 1 und 2 zu lesen.

Data Science für Python: Modul 1 – Klasse 1

Data Science für Python: Modul 1 – Klasse 2

Ich habe momentan meine 4. Python-Klasse mit Dezyre abgeschlossen. Ich habe die Rezensionen dieser Woche in einem Beitrag zusammengefasst, da der Inhalt der beiden Klassen ziemlich ähnlich war, da wir das Plotten mit Matplotlib und Seaborn gelernt und geübt haben.

Der Unterricht findet samstags und sonntags mit einem Auftrag statt, der vor dem nächsten Unterricht zu erfüllen ist. Am dritten Tag, zu Beginn der Sitzung, ging der Kursleiter die erste Aufgabe durch, die aus 7 Programmieranweisungsproblemen bestand.

Ich habe eine wertvolle Lektion gelernt, als ich mich der Aufgabe gestellt habe. Nach dem zweiten Kurs habe ich die Probleme durchgesehen und war zuversichtlich, dass ich sie ohne Stress bewältigen kann. Aus diesem Grund habe ich bis in die Nacht vor dem nächsten Modul gewartet, um es zu versuchen, anstatt den Auftrag sofort abzuschließen. Ich erinnerte mich an den größten Teil der Logik, die erforderlich war, um die erforderlichen Python-Anweisungen zu erstellen, aber ich hatte wichtige Syntaxregeln vergessen, die auf dem basieren, was uns gezeigt wurde. Ich habe den Auftrag um 21:30 Uhr begonnen und ihn erst um 1:00 Uhr beendet. Was relativ einfach schien, hat für mich einfach nicht geklappt. Zum Glück konnte ich mir die Webinare ansehen und einige der Fakultätsdateien in meinem Dashboard durchgehen. NIE WIEDER! Ich schwor mir, dass ich mich bemühen würde, die Aufgaben 1-2 Tage später zu erledigen, um mir eine bessere Chance zu geben.

Als Instruktor Singh die Probleme besprach, war ich bis auf die letzte (# 7) in guter Verfassung. Ich stellte viele Fragen und alle wurden sowohl vom Dozenten als auch vom Chatroom-Dozenten beantwortet.

Um klar zu sein, stelle ich in der gesamten Klasse eine Menge Fragen. Ich versuche meine Fehler selbst zu finden, aber verlasse mich auf den Chat-Lehrer, wenn ich sie nicht sehen kann. Ich fühle mich schrecklich, wenn ich mehrmals eine Million Fragen stelle und meinen Code in das private Chat-Protokoll schreibe, aber die Instruktoren sind SEHR HILFREICH! Sie sind geduldig und ermutigend und es gibt so viel, was wir auf dem Weg lernen. Sie werden sich nicht klein fühlen, wenn Sie die zusätzlichen Anführungszeichen nicht sehen oder was auch immer Ihre Fehlermeldung verursacht. SEHR WICHTIG!!! Ich kann nicht von jemandem lernen, der irritiert ist, wenn ich die Arbeit nicht verstehe. Man weiß nie wirklich, wer am Ende dieser Dinge unterrichtet. Wir gehen Risiken ein und zahlen mehrere Hundert oder sogar Tausende, um unterrichtet zu werden, wobei wir nur sehr wenig Ahnung von den Persönlichkeiten haben, die hinter dem Programm stehen. Ich fühle mich bei Dezyre gut aufgehoben. Wenn Sie etwas Neues lernen, ist es wichtig, dass jeder, der unterrichtet, auf Ihre Neuheit reagiert. Wie ein Kind, das zum ersten Mal lernt, seine Zahlen und Buchstaben zu schreiben, lernen auch wir zum ersten Mal, in einer neuen Sprache zu lesen und zu schreiben. Die Instruktoren Singh und Sauram machen einen tollen Job. Von Rechtschreibproblemen bis hin zu komplexeren Fehlern kennen sich beide Instruktoren bestens aus und können anhand des Codes erkennen, was behoben werden muss. Ich habe noch nie eine Frage ignoriert und durchschnittlich 10 pro Sitzung.

Keine Audioprobleme mehr !! Ich habe mit meinem Handy in den letzten 3 Klassen angerufen und persönlich die Klangqualität vorgezogen. Ich rufe an und lasse es auf dem Lautsprecher, während ich im Labor Code ausführe. Wenn Sie wie ich sind und das Telefon bevorzugen, stellen Sie sicher, dass Ihr Telefon aufgeladen ist oder das Ladegerät in der Nähe ist! Bereiten Sie sich vor Beginn der Sitzung vor, da Sie nie wissen, ob oder wann Sie die Chance haben, Ihren PC zu verlassen. Wenn du vorher essen und deine Badezimmerpausen einlegen kannst, hilft das auch. Zwar können wir auf die Videos zugreifen und sehen, was wir verpasst haben, aber es erspart dem Kursleiter Zeit, sich wiederholen zu müssen.

Er hat ein bisschen mehr NumPy besprochen und ich fange an, mich mit einigen der gängigen Funktionen vertraut zu machen.

Wir haben explorative Datenanalysen durchgeführt und einige Daten mit matplotlib aufgezeichnet. Das war das Erstaunlichste, was ich seit Ewigkeiten gesehen habe! Immens beeindruckt! Ich muss sagen, ich habe mich in Klasse 3 in matplotlib verliebt.

In der dritten Klasse wurde uns Project Euyler vorgestellt, ein Online-Projekt, in dem Menschen ihren Code üben können. Diese Seite enthält eine Reihe von mathematischen Problemen bei der Computerprogrammierung, bei denen die Benutzer um den ersten Platz oder die Spitze kämpfen. Da die Site erkannt wird, kann Ihre Leistung (wenn sie gut ist) in Ihrem Lebenslauf veröffentlicht werden. Ich plane mitzumachen und werde nächste Woche Updates veröffentlichen.

Tag 4 kam und ging und die Klasse plante mit Seaborn und Matplotlib. Tag 4 war das erste Mal, dass wir aufgefordert wurden, Erklärungen für unsere eigenen Parzellen zu verfassen. Das war schwierig, aber beide Instruktoren waren unglaublich hilfreich. Ich fand es heraus und vollendete meine ersten Handlungen. Genial!!

Hier ist ein Screenshot von meiner Arbeit. So machen wir jede Sitzung, schreiben Code im Labor, während der Kursleiter die Gruppe anleitet.

Die Aussagen nehmen mit der Schwierigkeit und Größe für jede Aufgabe zu. Gerade als wir zu Dichtediagrammen übergingen, war der Server überlastet und wir wurden angewiesen, unsere Seiten zu aktualisieren. Dies half nichts, da iPython nicht kooperierte und der Kursleiter die Klasse eine Stunde früher abschaltete. Das störte mich nicht wirklich, da er anzeigte, dass wir die verlorene Stunde später im Kurs wieder gutmachen würden. So weit, ist es gut! Ich liebe diesen Kurs wirklich !!! Vor dem Abschluss hatte ich um eine Plattform zum Üben gebeten und mich an Sage Math gewandt, eine weitere Open-Source-Ressource, mit der Sie Projekte mit den Bibliotheken für Python, R und andere Tools erstellen können. Ich habe mich angemeldet und mein neues Sage Math-Profil mit meinem Github-Konto verbunden. Ich werde dort meine eigenen Projekte ausprobieren (mehr dazu in Kürze).

Ich höre immer, dass Arbeitgeber Ihre Github-Projekte betrachten, wenn sie Ihre Qualifikationen berücksichtigen. Das ist eine großartige Möglichkeit, einen Vorsprung zu erlangen! Diese Klasse ist mehr als nur ein weiterer Python-Kurs. Es gibt nichts Schöneres, als von Experten zu lernen, die mit Geduld unterrichten und Sie zu unschätzbaren Ressourcen führen, um Ihre Fähigkeiten zu verbessern.

Ich bin unzufrieden mit meiner Entscheidung, diesen Kurs bei Dezyre zu belegen. Ich habe nicht mehr das Gefühl, Datenwissenschaftler zu werden, sondern ich werde Datenwissenschaftler, langsam, eine Klasse nach der anderen. Ich beabsichtige, Dezyres Data Science for R gleich nach dem Ende meines Python-Kurses zu absolvieren. Wenn Sie sich nicht sicher sind, wie Sie Ihre Reise in Data Science beginnen sollen, und wenn Sie berufliche Qualifikationen benötigen, um Ihren Lebenslauf zu ergänzen, empfehle ich dieses Programm nachdrücklich.

http://DataCami.com

Grundsätzlich gibt es 8 Schritte zum Erlernen von Data Science. Ich würde empfehlen, dass Sie Kurse besuchen, die diesen Schritten und Ihren Vorkenntnissen entsprechen.

Schritt 1. Gute Kenntnisse in Statistik, Mathematik und maschinellem Lernen

Für Ihre spezifische Frage zur Statistik würde ich Statistik und Wahrscheinlichkeit empfehlen Khan Academy, Lineare Algebra | Khan Academy, OpenIntro, OCW Vorlesungsverzeichnis, Einführung in die Statistik | Datenanalyse und statistische Inferenz, maschinelles Lernen – Stanford University | Coursera.

Schauen Sie sich auch Algorithmen an und lesen Sie auf jeden Fall mehr als 40 Python-Statistiken für Data Science-Ressourcen, um Statistiken für Data Science mit Python zu lernen.

Schritt 2. Lernen Sie das Codieren

Sie scheinen diese Fähigkeit bereits im Griff zu haben. Für Data Science würde ich jedoch empfehlen, dass Sie sich mit Python und R befassen. Dies dürfte für Sie recht einfach sein. Probieren Sie einige Kurse aus, z. B .: Kostenlose Einführung in den Online-Kurs für R-Programmierung oder Lernen Sie Python für Data Science – Online-Kurs. Probieren Sie auch Learn Python – Kostenloses interaktives Python-Tutorial aus.

Schritt 3. Datenbanken verstehen

Ich gehe davon aus, dass Sie als Programmierer bereits mit Datenbanken in Kontakt gekommen sind. In jedem Fall sollten Sie verstehen, wie Datenbanken und Data Warehouses funktionieren, wie Daten modelliert werden und wie Sie Datenbanken abfragen können. Erfahren Sie, wie Sie mit SQL und NoSQL arbeiten. Ich würde Einführung und relationale Datenbanken empfehlen.

Schritt 4. Informieren Sie sich über den Data Science-Workflow

Verstehen Sie, wie der Data-Science-Workflow funktioniert, und versuchen Sie, ihn tatsächlich durchzuarbeiten: Erfahren Sie, wie Sie mit den verschiedenen Paketen und Bibliotheken oder Tools arbeiten, um einen Überblick über Ihre Aufgaben zu erhalten. Verstehe auch, dass dies ein zirkulärer Prozess ist, der nicht so schnell endet. Lesen Sie RDocumentation und PyPI – den Python-Paketindex (keine Kurse, aber nützliche Ressourcen).

Schritt 5. Mit Big Data Schritt halten

Verstehen Sie, warum sich Big Data von anderen Datenverarbeitungsverfahren unterscheidet. Machen Sie sich mit den Hadoop- und Spark-Frameworks vertraut. Lesen Sie die Einführung in Apache Spark. Auch Kurse zu den Themen Big Data University – Analytics, Big Data und Data Science könnten einen Besuch wert sein.

Schritt 6. Wachsen, verbinden und lernen

Nach diesen theoretischen Schritten ist es Zeit, weiter zu wachsen. Nehmen Sie an einer Herausforderung teil, treffen Sie sich mit Kollegen, richten Sie Ihr eigenes Haustierprojekt ein und entwickeln Sie Ihre Intuition und Fähigkeit, kritische Fragen zu Ihren Daten, Ihrem Ansatz und Ihrer Analyse zu stellen. Schauen Sie sich Ihr Zuhause für Data Science (Kaggle) und DrivenData für Data Science-Projekte an. Herausforderungen finden Sie auch in der Analytics Community | Analytics-Diskussionen | Big Data-Diskussion (Analytics Vidhya). Sie müssen mit diesen Projekten viel anfangen und ein Portfolio aufbauen, das Ihnen letztendlich hilft, einen Job zu finden.

Schritt 7. Tauchen Sie sich vollständig ein

Es ist Zeit, ganz in sich einzutauchen. Nehmen Sie an einem Bootcamp teil, machen Sie ein Praktikum oder machen Sie einen Job (je nachdem, wie gut Sie bereits sind).

Schritt 8. Engagieren Sie sich mit der Community

Vergessen Sie nicht, sich mit der Data Science-Community zu befassen: Folgen Sie und nehmen Sie an Facebook-, LinkedIn-, Google+-, Reddit- und anderen Gruppen teil. Vergessen Sie nicht, Beiträge zu leisten, wann immer Sie können, oder Fragen zu stellen, die anderen helfen könnten. Folgen Sie den Schlüsselpersonen der Data Science-Branche und abonnieren Sie einige Newsletter. Hören Sie Podcasts, … Die Möglichkeiten sind endlos. Eine Liste der Ressourcen finden Sie hier: Learn Data Science – Ressourcen für Python & R.

Sie sehen, wie es in den ersten fünf Schritten hauptsächlich darum geht, eine solide theoretische Grundlage zu erhalten. Stellen Sie sicher, dass Sie dieses Wissen durch Üben festigen: Machen Sie einige interaktive Tutorials oder beginnen Sie selbst mit Hilfe eines statischen Tutorials.

Beachten Sie, wie Sie in den Schritten 6 bis 8 hauptsächlich praktische Erfahrungen mit Data Science sammeln. Dies ist die Zeit, in der Sie anfangen, datenwissenschaftliche Projekte mit Tools wie Jupyter, R Markdown Notebooks usw. auszuarbeiten. Sie treten mit der Community in Verbindung (halten Sie eine Rede auf einem Meetup, diskutieren Sie Ergebnisse mit Kollegen, nehmen Sie an Herausforderungen teil usw.).

Die gesamte Infografik finden Sie hier: Lernen Sie Data Science in 8 (einfachen) Schritten.

Datenwissenschaftler zu sein, erfordert eine solide Grundlage in den Bereichen Informatik und Anwendungen, Modellierung, Statistik, Analytik und Mathematik.

Was den Data Scientist auszeichnet, ist sein ausgeprägtes Geschäftssinn und die Fähigkeit, Erkenntnisse sowohl an Unternehmens- als auch an IT-Führungskräfte zu übermitteln, um zu beeinflussen, wie ein Unternehmen eine geschäftliche Herausforderung angeht. Gute Datenwissenschaftler werden sich nicht nur mit geschäftlichen Problemen befassen, sondern auch die richtigen Probleme auswählen, die für das Unternehmen am wertvollsten sind.

Ich glaube auch an fundierte Kenntnisse in den Bereichen Data Science, Maschinelles Lernen und NLP, die dazu beitragen, Probleme auf höchster Ebene zu lösen. Eine Erfahrung von 4 bis 5 Jahren in der Entwicklung kann zu einer solchen Aneignung führen.

  • Einführung in den CS-Kurs
    Anmerkungen: Einführung in den Informatikkurs mit Anweisungen zur Codierung.
    Internetquellen:
    Udacity – Einführung in den CS-Kurs,
    Coursera – Informatik 101
  • Code in mindestens einer objektorientierten Programmiersprache: C ++, Java oder Python
    Online-Ressourcen für Anfänger:
    Coursera – Programmieren lernen: Grundlagen,
    MIT Einführung in die Programmierung in Java,
    Googles Python-Klasse,
    Coursera – Einführung in Python,
    Python Open Source E-Book

    Fortgeschrittene Online-Ressourcen:
    Udacitys Design von Computerprogrammen,
    Coursera – Programmieren lernen: Qualitätscode erstellen,
    Coursera – Programmiersprachen,
    Brown University – Einführung in Programmiersprachen

  • Lernen Sie andere Programmiersprachen
    Anmerkungen: Ergänzen Sie Ihr Repertoire mit Java Script, CSS, HTML, Ruby, PHP, C, Perl und Shell. Lisp, Schema.
    Online-Ressourcen: w3school.com – HTML-Tutorial, Code lernen
  • Testen Sie Ihren Code
    Hinweise: Erfahren Sie, wie Sie Fehler abfangen, Tests erstellen und Ihre Software beschädigen
    Online-Ressourcen: Udacity – Software-Testmethoden, Udacity – Software-Debugging
  • Entwickeln Sie logisches Denken und Kenntnisse der diskreten Mathematik
    Internetquellen:
    MIT Mathematik für Informatik,
    Coursera – Einführung in die Logik,
    Coursera – Lineare und diskrete Optimierung,
    Coursera – Probabilistische Grafikmodelle,
    Coursera – Spieltheorie.
  • Entwickeln Sie ein fundiertes Verständnis für Algorithmen und Datenstrukturen
    Hinweise: Erfahren Sie mehr über grundlegende Datentypen (Stapel, Warteschlangen und Beutel), Sortieralgorithmen (Quicksort, Mergesort, Heapsort) und Datenstrukturen (binäre Suchbäume, rot-schwarze Bäume, Hash-Tabellen), Big O.
    Internetquellen:
    MIT Einführung in Algorithmen,
    Coursera – Einführung in die Algorithmen Teil 1 und Teil 2,
    Wikipedia – Liste der Algorithmen,
    Wikipedia – Liste der Datenstrukturen,
    Buch: Das Algorithm Design Manual
  • Entwickeln Sie fundierte Kenntnisse über Betriebssysteme
    Online-Ressourcen: UC Berkeley Computer Science 162
  • Online-Ressourcen für künstliche Intelligenz lernen:
    Stanford University – Einführung in Robotik, Verarbeitung natürlicher Sprachen, maschinelles Lernen
  • Erfahren Sie, wie Sie Compiler erstellen
    Online-Ressourcen: Coursera – Compiler
  • Kryptographie lernen
    Online-Ressourcen: Coursera – Kryptographie, Udacity – Angewandte Kryptographie
  • Lerne Parallele Programmierung
    Online-Ressourcen: Coursera – Heterogene Parallelprogrammierung

Tools und Technologien für Bigdata:

Apache Spark – Apache Spark ist ein Open-Source-Cluster-Computing-Framework für die Datenanalyse, das ursprünglich im AMPLab an der UC Berkeley entwickelt wurde. [1] Spark fügt sich in die Open-Source-Community von Hadoop ein und baut auf dem Hadoop Distributed File System (HDFS) auf. [2] Spark ist jedoch nicht an das zweistufige MapReduce-Paradigma gebunden und verspricht für bestimmte Anwendungen eine bis zu 100-mal schnellere Leistung als Hadoop MapReduce.

Datenbank-Pipelining
Sie werden feststellen, dass es nicht um die Verarbeitung der Daten geht, sondern um viele andere Komponenten. Sammlung, Speicherung, Exploration, ML und Visualisierung sind entscheidend für den Erfolg des Projekts.

SOLR – Solr entwickelt eine hochskalierbare Datenanalyse-Engine, mit der Kunden blitzschnelle Erkenntnisse in Echtzeit gewinnen können.
Solr (ausgesprochen “Solar”) ist eine Open-Source-Plattform für die Unternehmenssuche aus dem Apache Lucene-Projekt. Zu den Hauptfunktionen gehören die Volltextsuche, die Hervorhebung von Treffern, die facettierte Suche, das dynamische Clustering, die Datenbankintegration und die Verarbeitung umfangreicher Dokumente (z. B. Word, PDF). Solr bietet verteilte Such- und Indexreplikation und ist in hohem Maße skalierbar. [1] Solr ist die beliebteste Suchmaschine für Unternehmen. [2] Solr 4 fügt NoSQL-Funktionen hinzu

S3 – Amazon S3 ist ein Online-Dateispeicherungs-Webdienst, der von Amazon Web Services angeboten wird. Amazon S3 bietet Speicherplatz über Web-Services-Schnittstellen. Wikipedia

Hadoop – Apache Hadoop ist ein Open-Source-Software-Framework zum Speichern und Verarbeiten von Datensätzen auf Clustern von Hardware. Hadoop ist ein Apache-Projekt auf höchster Ebene, das von einer globalen Community von Mitwirkenden und Benutzern erstellt und verwendet wird. Es ist unter der Apache License 2.0 lizenziert. Apache Hadoop

MapReduce: Hadoop MapReduce ist ein Software-Framework zum einfachen Schreiben von Anwendungen, die große Datenmengen (Multi-Terabyte-Datensätze) auf großen Clustern (Tausenden von Knoten) von Standardhardware zuverlässig und fehlertolerant parallel verarbeiten.

Bei einem MapReduce- Job wird der Eingabedatensatz normalerweise in unabhängige Blöcke aufgeteilt, die von den Map-Tasks vollständig parallel verarbeitet werden. Das Framework sortiert die Ausgaben der Maps, die dann in die Reduzierungsaufgaben eingegeben werden . Typischerweise werden sowohl die Eingabe als auch die Ausgabe des Jobs in einem Dateisystem gespeichert. Das Framework übernimmt das Planen und Überwachen von Aufgaben und führt die fehlgeschlagenen Aufgaben erneut aus.

Corona:

Corona, ein neues Planungsframework, das die Verwaltung von Clusterressourcen von der Jobkoordination trennt. [1] Corona stellt einen Cluster-Manager vor, dessen einziger Zweck darin besteht, die Knoten im Cluster und die Menge der freien Ressourcen zu verfolgen. Für jeden Job wird ein dedizierter Job-Tracker erstellt, der entweder im selben Prozess wie der Client (für kleine Jobs) oder als separater Prozess im Cluster (für große Jobs) ausgeführt werden kann.

Ein wesentlicher Unterschied zu unserer vorherigen Hadoop MapReduce-Implementierung besteht darin, dass Corona die Planung eher auf Push-Basis als auf Pull-Basis durchführt. Nachdem der Cluster-Manager Ressourcenanforderungen vom Job-Tracker erhalten hat, werden die Ressourcenzuweisungen an den Job-Tracker zurückgesendet. Sobald der Job-Tracker Ressourcen gewährt bekommt, erstellt er Aufgaben und leitet diese Aufgaben zur Ausführung an den Task-Tracker weiter. Es ist kein periodischer Herzschlag in diese Planung involviert, so dass die Planungslatenz minimiert wird. Ref: Unter der Haube: Planen Sie MapReduce-Jobs effizienter mit Corona

HBase: HBase ist eine nicht relationale, verteilte Open-Source-Datenbank, die nach dem Vorbild von Googles BigTable erstellt und in Java geschrieben wurde. Es wurde als Teil des Apache Hadoop-Projekts von Apache Software Foundation entwickelt und läuft auf HDFS (Hadoop Distributed Filesystem) und bietet BigTable-ähnliche Funktionen für Hadoop. Das heißt, es bietet eine fehlertolerante Möglichkeit zum Speichern großer Mengen wichtiger Daten (kleine Informationsmengen, die in einer großen Sammlung leerer oder unwichtiger Daten enthalten sind, z. B. das Auffinden der 50 größten Elemente in einer Gruppe von 2 Milliarden Datensätzen oder das Auffinden der Nicht-Null-Artikel, die weniger als 0,1% einer riesigen Sammlung ausmachen).

Zookeeper – Apache ZooKeeper ist ein Softwareprojekt der Apache Software Foundation, das einen verteilten Open-Source-Konfigurationsdienst, einen Synchronisierungsdienst und eine Namensregistrierung für große verteilte Systeme bereitstellt. [ Klärung erforderlich ] ZooKeeper war ein Unterprojekt von Hadoop, ist aber jetzt ein eigenständiges Projekt auf höchster Ebene.

Hive – Apache Hive ist eine Data-Warehouse-Infrastruktur, die auf Hadoop aufbaut und eine Zusammenfassung, Abfrage und Analyse von Daten ermöglicht. Während Apache Hive ursprünglich von Facebook entwickelt wurde, wird es jetzt von anderen Unternehmen wie Netflix verwendet und entwickelt. Amazon unterhält einen Software-Zweig von Apache Hive, der in Amazon Elastic MapReduce für Amazon Web Services enthalten ist.

Mahout – Apache Mahout ist ein Projekt der Apache Software Foundation, mit dem kostenlose Implementierungen von verteilten oder anderweitig skalierbaren Algorithmen für maschinelles Lernen erstellt werden sollen, die sich hauptsächlich auf die Bereiche kollaboratives Filtern, Clustering und Klassifizierung konzentrieren. Viele der Implementierungen verwenden die Apache Hadoop-Plattform. Mahout bietet auch Java-Bibliotheken für allgemeine mathematische Operationen (mit Schwerpunkt auf linearer Algebra und Statistik) und primitive Java-Sammlungen. Mahout ist ein laufendes Werk. Die Anzahl der implementierten Algorithmen ist schnell gewachsen, [3] es fehlen jedoch noch verschiedene Algorithmen.

Lucene ist eine Reihe von Such- und NLP-Tools, aber die Hauptfunktion ist ein Suchindex- und Abrufsystem. Es nimmt Daten aus einem Geschäft wie HBase und indiziert sie, damit sie schnell aus einer Suchabfrage abgerufen werden können. Solr verwendet Lucene unter der Haube, um eine komfortable REST-API zum Indizieren und Durchsuchen von Daten bereitzustellen. ElasticSearch ähnelt Solr.

Sqoop ist eine Befehlszeilenschnittstelle zum Sichern von SQL-Daten in ein verteiltes Warehouse. Mit dieser Funktion können Sie jeden Abend einen Snapshot erstellen und Ihre Datenbanktabellen in ein Hive-Warehouse kopieren.

Hue ist eine webbasierte Benutzeroberfläche für eine Untergruppe der oben genannten Tools. Hue fasst die gängigsten Apache Hadoop-Komponenten in einer einzigen Benutzeroberfläche zusammen und zielt auf die Benutzerfreundlichkeit ab. Das Hauptziel ist, dass die Benutzer Hadoop “nur” verwenden, ohne sich um die zugrunde liegende Komplexität oder die Verwendung einer Befehlszeile sorgen zu müssen

Pregel und sein Open-Source-Zwilling Giraph ist eine Möglichkeit, Graph-Algorithmen für Milliarden von Knoten und Billionen von Kanten über eine Gruppe von Maschinen auszuführen. Insbesondere ist das MapReduce-Modell für die Grafikverarbeitung nicht gut geeignet, sodass Hadoop / MapReduce in diesem Modell vermieden werden. HDFS / GFS wird jedoch weiterhin als Datenspeicher verwendet.

NLTK – Das Natural Language Toolkit oder allgemeiner NLTK ist eine Reihe von Bibliotheken und Programmen für die symbolische und statistische Verarbeitung natürlicher Sprache (NLP) für die Programmiersprache Python. NLTK enthält grafische Demonstrationen und Beispieldaten. Es wird von einem Buch begleitet, das die grundlegenden Konzepte für die vom Toolkit unterstützten Sprachverarbeitungsaufgaben erläutert, sowie von einem Kochbuch.

NLTK soll Forschung und Lehre in NLP oder in eng verwandten Bereichen unterstützen, darunter empirische Linguistik, Kognitionswissenschaft, künstliche Intelligenz, Informationsbeschaffung und maschinelles Lernen.

Für Python-
Scikit Lernen

Numpy

Scipy

Freebase – Freebase ist eine große kollaborative Wissensbasis, die aus Metadaten besteht, die hauptsächlich von Mitgliedern der Community erstellt wurden. Es handelt sich um eine Online-Sammlung strukturierter Daten, die aus vielen Quellen stammen, einschließlich einzelner Wiki-Beiträge.

DBPedia : DBpedia (von “DB” für “Datenbank”) ist ein Projekt, das darauf abzielt, strukturierten Inhalt aus den Informationen zu extrahieren, die im Rahmen des Wikipedia-Projekts erstellt wurden. Diese strukturierten Informationen werden dann im World Wide Web zur Verfügung gestellt. Mit DBpedia können Benutzer Beziehungen und Eigenschaften abfragen, die mit Wikipedia-Ressourcen verknüpft sind, einschließlich Links zu anderen verwandten Datasets. DBpedia wurde von Tim Berners-Lee als einer der bekanntesten Teile der dezentralen Bemühungen um verknüpfte Daten beschrieben.

Visualisierungstool
ggplot in R
Tableu
Qlikview

Mathematik:)

Kalkül, Statistik, Wahrscheinlichkeit, lineare Algebra und Koordinatengeometrie

NER ( Named Entity Recognition) kennzeichnet Wortfolgen in einem Text, bei denen es sich um die Namen von Dingen handelt, z. B. Personen- und Firmennamen oder Gen- und Proteinnamen.

Facettensuche: Bei der Facettensuche, auch Facettennavigation oder Facettenbrowsen genannt, handelt es sich um eine Technik zum Zugreifen auf Informationen, die nach einem Facettenklassifizierungssystem organisiert sind. Benutzer können eine Sammlung von Informationen durchsuchen, indem sie mehrere Filter anwenden. Ein facettiertes Klassifizierungssystem klassifiziert jedes Informationselement entlang mehrerer expliziter Dimensionen, die als Facetten bezeichnet werden. Auf diese Weise können die Klassifizierungen auf mehrere Arten zugegriffen und geordnet werden, anstatt in einer einzigen, vorher festgelegten taxonomischen Reihenfolge

Quelle: Wikipedia, die freie Enzyklopädie

Es gibt natürlich ein paar, die Sie ausarbeiten können:

  1. Stimmungsanalyse für Twitter, Webartikel – Identifizieren Sie die Stimmung für Webartikel, Produktrezensionen, Filmrezensionen und Tweets. Lexikalische Ansätze oder Techniken des maschinellen Lernens können verwendet werden
  2. Webartikelklassifizierung / -zusammenfassung – Verwenden Sie die Clustering- / Klassifizierungstechnik, um den Webartikel zu klassifizieren, und führen Sie eine Semantikanalyse durch, um die Artikel zusammenzufassen
  3. Empfehlungssystem basierend auf den Social-Media-Profilen des Benutzers – Verwenden Sie die Social-Media-API, sammeln Sie Benutzerinteressen von Facebook, Twitter usw. Implementieren Sie das Empfehlungssystem für Benutzerinteressen
  4. Tweet-Klassifizierung und Trenderkennung – Klassifizieren Sie die Tweets für Sport, Wirtschaft, Politik, Unterhaltung usw. und erkennen Sie in diesem Bereich Trend-Tweets
  5. Filmprüfungsvorhersage – Verwenden Sie Online-Filmprüfungen, um die Bewertungen neuer Filme vorherzusagen.
  6. Restaurantbewertungen zusammenfassen – Erstellen Sie eine Liste mit Bewertungen zu einem Restaurant und erstellen Sie eine einzige englische Zusammenfassung für dieses Restaurant.
  7. AutoBot – Erstellen Sie ein System, mit dem Sie sich unterhalten können. Der Benutzer gibt Nachrichten ein und Ihr System antwortet basierend auf dem Text des Benutzers. Viele Ansätze hier … Sie könnten einen großen Twitter-Korpus verwenden und Sprachähnlichkeit herstellen
  8. Twitter-basiertes News-System – Sammeln Sie stündlich und täglich Tweets für verschiedene Kategorien, identifizieren Sie Trenddiskussionen, führen Sie semantische Analysen durch und erstellen Sie ein News-System (Check Frrole-Produkt)

Nur wenige Datensätze, die für BigData-Anwendungen verwendet werden, können verwendet werden:

  1. Homepage für 20 Newsgroups-Datensätze – Der Datensatz für 20 Newsgroups ist eine Sammlung von ungefähr 20.000 Newsgroup-Dokumenten, die (fast) gleichmäßig auf 20 verschiedene Newsgroups verteilt sind.
  2. Download Trec (= Text Retrieval Conference) -Datensatz – Textdatensätze, die zum Abrufen von Informationen und Lernen in Textdomänen verwendet werden.
  3. World Factbook Download 2013 – Das World Factbook bietet Informationen zu Geschichte, Menschen, Regierung, Wirtschaft, Geografie, Kommunikation, Verkehr, Militär und transnationalen Themen für 267 weltweite Einheiten.
  4. DBpedia “Datensatz-Releases – Der DBpedia-Datensatz verwendet eine große Multidomänen-Ontologie, die von Wikipedia abgeleitet wurde. Die englische Version des DBpedia 2014-Datensatzes beschreibt derzeit 4,58 Millionen” Dinge “mit 583 Millionen” Fakten ” stellen lokalisierte Versionen von DBpedia in 125 Sprachen zur Verfügung.Alle diese Versionen zusammen beschreiben 38,3 Millionen Dinge, von denen 23,8 Millionen mit Konzepten aus der englischen DBpedia überlappen (miteinander verknüpft sind).
  5. http://konect.uni-koblenz.de/net… – KONECT (die Koblenz-Netzwerksammlung) ist ein Projekt zum Sammeln großer Netzwerkdatensätze aller Art, um Forschungen in den Netzwerkwissenschaften und verwandten Bereichen durchzuführen.
  6. Max-Planck-Institut für Informatik: YAGO – YAGO ist eine Wissensbasis, die am Max-Planck-Institut für Informatik in Saarbrücken entwickelt wurde. Es wird automatisch aus Wikipedia und anderen Quellen extrahiert.
  7. Reuters-21578 Textkategorisierungssammlungsdatensatz – Repository für maschinelles Lernen
  8. CSTR-Seite auf ed.ac.uk – CSTR befasst sich mit der Forschung in allen Bereichen der Sprachtechnologie, einschließlich Spracherkennung, Sprachsynthese, Sprachsignalverarbeitung, Informationszugriff, multimodalen Schnittstellen und Dialogsystemen. Wir haben viele Kooperationen mit der breiteren Gemeinschaft von Forschern in den Bereichen Sprachwissenschaft, Sprache, Kognition und maschinelles Lernen, für die Edinburgh bekannt ist.
  9. ConceptNet – ConceptNet ist eine frei erhältliche Commonsense-Wissensdatenbank und ein Toolkit für die Verarbeitung natürlicher Sprache, das viele praktische Aufgaben für das logische Denken von Texten über reale Dokumente direkt nach dem Auspacken unterstützt (ohne zusätzliches statistisches Training).

Weitere bekannte Datensätze sind: MNIST, CIFAR und ImageNet.

Als Anfänger müssen Sie einige Aspekte berücksichtigen, bevor Sie sich mit Data Science befassen.

Die BILDUNG :

  • Technisch
  • Mathematik (zB lineare Algebra, Analysis und Wahrscheinlichkeit) und Statistik (32%) (zB Hypothesentest und zusammenfassende Statistik)
  • Informatik (19%)
  • Engineering (16%) (zB verteiltes Rechnen, Algorithmen und Datenstrukturen) Data Mining und Datenvisualisierung etc.
  • Nichttechnische Fähigkeiten
    • Branchenkenntnisse
    • Intellektuelle Neugier
    • Geschäftssinn
    • Kommunikationsfähigkeit

    Die Fähigkeiten:

    • Statistiken
    • Grundlegende Statistik
    • statistische Analyse
  • Vorausschauende Analyse mit R und Python
    • Predictive Analytics
    • R- und Python-Programmierung
    • Explorative Datenanalyse
    • Fehlende Wertanalyse
    • Ausreißeranalyse
    • Funktionsskalierung
    • Sampling-Techniken, R und Python
    • Maschinelles lernen
    • Entscheidungsbaum
    • Fehlermetriken
    • Zufälliger Wald
    • Lineare Regression
    • Logistische Regression
    • Visualisierungen
    • KNN
    • Naive Bayes
    • Clusteranalyse
    • Text Mining
    • Bereitstellungsmodelle
  • Visualisierungs-Tools
    • Tableau
  • Datenbanken
    • MongoDB

    Datenwissenschaftler sind nicht geboren – sie sind gemacht!

    Was kann ich also tun, um diese Fähigkeiten zu entwickeln?

    • Erlernen Sie die Fähigkeiten , die Sie als Datenwissenschaftler benötigen
    • Arbeit an datenwissenschaftlichen Projekten.
    • Holen Sie sich als Data Scientist angestellt.

    Wo kann ich diese Fähigkeiten lernen?

    Es gibt viele Online-Ressourcen im Internet, aber Sie haben nicht den falschen Eindruck, dass der Weg zur Datenwissenschaft so einfach ist, wie ein paar MOOCs. Wenn Sie nicht bereits über einen soliden quantitativen Hintergrund verfügen, ist der Weg zum Data Scientist eine Herausforderung – aber es lohnt sich.

    • Herausforderungen beim Online-Codieren – Mithilfe von Online-Herausforderungen können Sie möglicherweise herausfinden, wo es Ihnen an den Fähigkeiten mangelt. Dies gibt Ihnen Selbstzufriedenheit. zB HackerEarth und HackerRank
    • Erstellen Sie ein Projekt auf GitHub und Kaggle .

    Auf der anderen Seite gibt es eine Plattform, edWisor. Während Sie an Data-Science-Projekten arbeiten, können Sie hier komplette Data-Science-Kenntnisse erwerben. Sie haben auch ein Projektportfolio, das darauf basiert, dem Personalvermittler usw. die Fähigkeiten vorzustellen. Außerdem hilft edwisor angehenden Datenwissenschaftlern bei der Einstellung in produktbasierten Unternehmen.

    Abgesehen von edWisor haben Sie auch Udacity, Udemy, Simplilearn usw., um diese Fähigkeiten zu erlernen, aber es gibt keine Zuverlässigkeit der Arbeitsplatzsicherung. Versuch dein Glück.

    Ich hoffe, diese Antwort vervollständigt Ihre Antwort.

    Viel Glück!

    WIE KANN ICH DATENWISSENSCHAFTLER WERDEN?

    Haben Sie sich jemals gefragt, wie Unternehmen vorhersagen können, welche Kunden ihre Konkurrenten wahrscheinlich verlassen und zu ihnen kommen, und welche Kunden sie wahrscheinlich anmachen und zu ihren Konkurrenten gehen werden? Nun, Unternehmen haben ihre eigenen speziellen Wissenschaftler, die Big Data analysieren und es Unternehmen ermöglichen, nicht nur ihre Daten zu analysieren und zu präsentieren, sondern auch effektive Strategien auf der Grundlage der wissenschaftlichen Analyse durch einen Datenwissenschaftler zu entwickeln. William S. Cleveland prägte den Begriff Data Scientist im Jahr 2001, als er die Idee der Integration von Informatik und Statistik vorstellte, um bessere Analysewerkzeuge zu entwickeln. Theoretisch nutzen Datenwissenschaftler ihre angewandten Fähigkeiten und Kenntnisse, um Daten in Erkenntnisse umzuwandeln, die Unternehmen bei der Entwicklung von Strategien unterstützen könnten, die von der Produktentwicklung über die Kundenbindung bis zur Suche nach neuen Geschäftsmöglichkeiten reichen.

    Die Datenwissenschaft befasst sich mit der Anordnung von Daten, die aus verschiedenen Quellen stammen, wobei unterschiedliche Fähigkeiten in Programmierung, Mathematik, Statistik und anderen Bereichen eingesetzt werden, um diese zu organisieren. Wenn Sie das Interesse und die Leidenschaft für Daten haben, möchten Sie sich vielleicht tatsächlich mit diesem Bereich befassen.

    Im Laufe der Jahre hat die Nachfrage von Datenwissenschaftlern zugenommen, da immer mehr Menschen den Weg in diesen Bereich finden. Zunächst stellt sich die Frage: Wer ist ein Datenwissenschaftler? Gute Frage! In einfachen Worten ist ein Datenwissenschaftler eine Person, die eine sehr große Menge strukturierter und unstrukturierter Datenpunkte verwendet, um Fähigkeitenstatistik, Programmierung und Mathematik neu zu ordnen und zu organisieren, um sie besser zu verstehen. Sie finden auch Lösungen für geschäftliche Herausforderungen, indem sie kontextbezogene Überlegungen, Branchenkenntnisse und die ordnungsgemäße Analyse bereits vorhandener Annahmen anwenden. Wir können daher sagen, dass die Arbeit des Datenwissenschaftlers eine große Aufgabe ist.

    Damit Sie eine Stelle in diesem Bereich finden, müssen Sie über bestimmte Qualifikationen verfügen.

    Brauche ich einen Abschluss als Datenwissenschaftler?

    Ein Abschluss ist sehr wichtig. Tatsächlich zeigen Studien, dass Datenwissenschaftler mit einem Master-Abschluss etwa 88% ausmachen, während Datenwissenschaftler mit einem Ph.D. sind 46%. Solche Abschlüsse liegen in technischen, quantitativen und wissenschaftlichen Bereichen wie Informatik und Ingenieurwesen, Statistik und Mathematik.

    Dies beantwortet die Frage, ob Sie einen Abschluss als Datenwissenschaftler benötigen. Sie müssen jedoch über bestimmte Fähigkeiten verfügen, um Ihren Abschluss zu sichern, da die meisten Unternehmen genau darauf achten. Dies bringt uns zu unserer nächsten Frage.

    Lesen Sie mehr: Welches ist das beste Trainingsinstitut für Datenanalyse?

    Was sind die genauen Fähigkeiten, um Datenwissenschaftler zu werden?

    Da Datenwissenschaftler bestimmte Wissensbereiche nutzen, um Lösungen für industrielle und geschäftliche Probleme zu finden, sind technische und geschäftliche Fähigkeiten auf jeden Fall ein Muss.

    Zu den technischen Fähigkeiten gehören: Mathematik, Tools für maschinelles Lernen, Statistik, Kenntnisse in Softwareentwicklung, Datenbereinigung, Data Mining, Datenvisualisierung, Cloud-Tools, Python, SQL-Datenbanken, Techniken für unstrukturierte Daten und viele andere.

    Geschäftliche Fähigkeiten sind erforderlich, und dies umfasst Bereiche wie:

    1. Effektive Kommunikation: Dies ist erforderlich, um Ihre Entdeckungen und Techniken einem Publikum vorzustellen, das auf diesem Gebiet technisch oder nichttechnisch sein kann. Die Präsentation müsste in einer Sprache gehalten werden, die sie verstehen werden.

    2. Analytische Problemlösung: Es gibt Herausforderungen auf hohem Niveau, die mit den richtigen Methoden angemessen angegangen werden sollten, um die optimalen personellen und zeitlichen Ressourcen zu nutzen.

    3. Branchenkenntnis: Dies ist erforderlich, um zu wissen, wie die Branche funktioniert, in der Sie tätig sind, und um Daten zu sammeln, zu analysieren und zu nutzen.

    4. Neugier des Intellekts: Sie müssen neue, ungewöhnliche und kreative Wege finden, um Lösungen für Probleme zu finden.

    Technische Fähigkeiten

    In Bezug auf technische Fähigkeiten benötigen Datenwissenschaftler möglicherweise eine breite Palette an technischen und analytischen Werkzeugen und Fähigkeiten. Einige davon sind:

    • Fortgeschrittene Algorithmen

    Datenwissenschaftler müssen vorhandene fortschrittliche Algorithmen entwickeln und verwenden können, um Daten effektiv zu analysieren, insbesondere in Big Data.

    • Programmiersprache

    Datenwissenschaftler müssen die Programmiersprache verstehen, damit sie Programme für eine effektive Analyse erstellen und Tools und Anwendungen wie Python, R, Hadoop, SPSS Tableau und SQL usw. verwenden können.

    • Visuelle Fähigkeiten

    Dies ist eher ein Wissensgebiet, könnte aber auch zu technischen Fähigkeiten gehören. Datenwissenschaftler müssen über fundierte Kenntnisse in Mathematik und statistischen Werkzeugen verfügen, um die Ergebnisse nicht nur zu visualisieren, sondern in leicht verständlichen Grafikformaten usw. zu präsentieren.

    Lesen Sie mehr: Welche Fähigkeiten sind erforderlich, um ein Datenanalyst zu werden?

    Wie wäre es mit Zertifizierungen?

    Dies ist auch ein sehr guter Weg, um Datenwissenschaftler zu werden, aber Sie müssen sicher sein, dass Sie die richtige Zertifizierung durchführen. Sie können sich von Mentoren beraten lassen, nach Stellenangeboten suchen oder von Fachleuten verfasste Schreib- und Lesetexte lesen. Einer der Data Analytics-Zertifizierungskurse wird von Digital Vidya geleitet , einem Online-Live-Schulungsprogramm, das von den besten Branchenexperten geleitet wird.

    Höhepunkte des Schulungsprogramms:

    • Kurs konzipiert und geleitet von der IIT / IIM-Fakultät
    • Wöchentliche Aufträge
    • 100% Placement-Unterstützung
    • 15 Tage Projektarbeit
    • Lebenslanger Zugriff auf Videos

    Lesen Sie mehr: Nehmen Sie an einem kostenlosen Webinar von digital vidya teil, um mehr über die Zertifizierung in der Datenanalyse zu erfahren.

    Wenn Sie von einem Datenwissenschaftler träumen, ist es jetzt an der Zeit, etwas zu unternehmen!

    Wenn ich mir die Anzahl der Follower anschaue, glaube ich, dass dies die beliebteste Frage ist, die etliche Technikfreaks, Ingenieure, Statistiker und Geschäftsleute beschäftigt! Lassen Sie mich etwas Licht auf diese Frage werfen!

    Ein Data Scientist zu werden, ist mit Sicherheit eine Reise und eine Herausforderung.

    Ich gehe davon aus, dass Sie ein Neuling sind. Wenn Sie also vorhaben, Ihre Karriere in Data Science zu beginnen, gibt es einen längeren Aufenthalt.
    Im Folgenden sind die Fragen aufgeführt, die meines Erachtens am wichtigsten sind, wenn Sie daran denken, „DATA SCENTIST“ zu werden.

    • Warum sollten Sie sich für Data Science entscheiden oder Data Scientist werden?
    • Wo soll ich anfangen?
    • Was ist meine Lern-Roadmap?
    • Welche Tools und Techniken muss ich kennen?
    • Was sind die Rollen und Verantwortlichkeiten eines Data Scientists?

    In dieser Antwort werde ich alle diese Fragen beantworten.

    Lassen Sie uns zunächst diskutieren, warum Sie sich für Data Science entscheiden sollten oder warum Sie Data Scientist werden sollten.

    Zunächst wird es von Harvard Business Review bewiesen. Es gilt als der hochrangige Profi mit der Ausbildung und Neugier, Entdeckungen in der Welt von Big Data zu machen. Kein Wunder also, dass Data Scientists Profis in der Big Data Analytics- und der IT-Branche sind.

    Zweitens sind Data Science und Analytics keinem bestimmten Hintergrund oder Gebiet unterworfen! Fachleute aus allen Branchen (z. B. Gesundheitswesen, Reisen, Finanzen, soziale Medien usw.) wechseln durch das Erlernen von Data Science zur Analyse.

    Drittens, können Sie sich vorstellen, wie viel ein Data Science-Job für Sie bringen würde? Nun, das Durchschnittsgehalt eines Datenwissenschaftlers in den USA beträgt ungefähr 120.000 US-Dollar. Sie können darauf wetten, indem Sie die Gehälter anderer IT-Jobs vergleichen.

    Werfen wir jetzt einen Blick auf die Roadmap, um Data Scientist zu werden!

    Lassen Sie mich alle Fähigkeiten auflisten, die erforderlich sind, um Data Scientist zu werden:

    1. Statistiken
    2. Programmierung
    3. Maschinelles Lernen & Deep Learning
    4. Datenbankwissen
    5. Große Daten
    6. Datenaufnahme & Munging
    7. Datenvisualisierung
    8. Datengesteuerte Problemlösung

    Sobald Sie diese Fähigkeiten erworben haben, herzlichen Glückwunsch! Sie sind ein Data Scientist.

    Möchten Sie mehr über diese Fähigkeiten erfahren?

    Sie können das folgende Video durchgehen, das alle Fähigkeiten enthält, die erforderlich sind, um ein moderner Data Scientist zu werden. Hinterlassen Sie unten Ihr Feedback. Viel Spaß beim Lernen! 🙂

    Wenn Sie mit den verschiedenen Tools und Techniken vertraut sind, müssen Sie die verschiedenen Rollen und Verantwortlichkeiten eines Data Scientists kennen:

    Wie wir bereits besprochen haben, ist es eine Reise, Datenwissenschaftler zu werden !

    • Der Data Scientist ist nicht nur für Business Analytics verantwortlich, sondern entwickelt auch Visualisierungen und Algorithmen für maschinelles Lernen.
    • Praktische Erfahrung in Data Mining-Techniken
    • Betriebsmodelle entwickeln
    • Führen Sie eine Datenkonditionierung durch

    Ein Data Scientist recherchiert, analysiert, führt statistische Methoden aus und präsentiert sie, um Erkenntnisse zu gewinnen! Das Erlernen und Ausrüsten mit datenwissenschaftlichen Fähigkeiten und Technologien wird nicht nur den Bedarf an Datenwissenschaftlern decken, sondern wird Sie auch zum „IT-Superhelden“ machen.

    Hier können Sie mehr darüber lesen: 10 Fähigkeiten, um ein Data Scientist zu werden

    Um Datenwissenschaftler zu werden, müssen Sie nur üben und üben! Wenn Sie tatsächlich in dieses Gebiet einsteigen möchten, müssen Sie immer mehr praktische Erfahrungen sammeln. Dazu können Sie Ihr eigenes Projekt erstellen, an den verschiedenen Wettbewerben teilnehmen, die von Kaggle auf verschiedenen anderen Websites organisiert werden. Sie können auch online bei Edureka trainieren! mit 24 * 7 Support und lebenslangem Zugriff.

    Ein Data Scientist hat also alle relevanten Branchenanforderungen und ist in der Lage, diese zu erfüllen!

    Ich hoffe, ich kann Ihre Frage beantworten und Sie motivieren, eine zu werden.

    Alles Gute für Ihre Reise zum Data Scientist! 🙂

    Hier finden Sie die besten Kurse für jedes dieser Themen. Zusammen bilden diese einen umfassenden datenwissenschaftlichen Lehrplan.

    Die besten Data Science-Kurse im Internet, sortiert nach Bewertungen

    Thema 1: Einführung in die Programmierung

    Programmieren lernen: Die Grundlagen (LPT1) und der Crafting Quality Code (LPT2) der University of Toronto über Coursera

    Die Learn to Program-Reihe der University of Toronto bietet eine hervorragende Mischung aus Schwierigkeitsgrad und Umfang für Datenanfänger. Die in Python unterrichtete Serie hat einen gewichteten 4,71-Sterne- Durchschnitt von über 284 Bewertungen.

    Eine Einführung in die interaktive Programmierung in Python (Teil 1) und (Teil 2) von der Rice University über Coursera

    Die Interactive Programming in Python-Reihe der Rice University enthält zwei der besten Online-Kurse aller Zeiten. Sie neigen zu Spielen und interaktiven Anwendungen, die in der Datenwissenschaft weniger relevant sind. Die Serie hat einen gewichteten 4,93-Sterne-Durchschnitt von über 6.069 Bewertungen.

    R Programmierspur von DataCamp

    Wenn Sie R lernen möchten, kombiniert DataCamps R-Programmierspur die Programmiergrundlagen und R-Syntaxanweisungen auf effektive Weise. Es hat eine mit 4,29 Sternen gewichtete durchschnittliche Bewertung über 14 Bewertungen.

    Thema 2: Statistik und Wahrscheinlichkeit

    Grundlagen der Datenanalyse – Teil 1 : Statistik mit R und Teil 2: Inferenzstatistik der University of Texas in Austin über edX

    Die Kurse in der Reihe Grundlagen der Datenanalyse von UT Austin sind zwei der wenigen mit hervorragenden Rezensionen, die auch Statistiken und Wahrscheinlichkeiten vermitteln, wobei der Schwerpunkt auf der Codierung von Beispielen liegt. Die Serie hat eine mit 4,61 Sternen gewichtete durchschnittliche Bewertung über 28 Bewertungen.

    Statistik mit R-Spezialisierung der Duke University über Coursera

    Dukes Statistik mit R-Spezialisierung, die in fünf Kurse unterteilt ist, hat einen umfassenden Lehrplan mit vollständigen Abschnitten, die der Wahrscheinlichkeit gewidmet sind. Es hat eine 3,6-Sterne-gewichtete Durchschnittsbewertung über 5 Bewertungen, aber der Kurs, auf dem es basiert, hat eine 4,77-Sterne-gewichtete Durchschnittsbewertung über 60 Bewertungen.

    Einführung in die Wahrscheinlichkeitsrechnung – Die Wissenschaft der Unsicherheit vom Massachusetts Institute of Technology (MIT) über edX

    Der Kurs „Einführung in die Wahrscheinlichkeit“ des MIT weist mit Abstand die höchsten Bewertungen der Kurse auf, die im Statistik- und Wahrscheinlichkeitsleitfaden berücksichtigt werden. Es ist ausschließlich sehr wahrscheinlich, und es ist länger (15 Wochen) und herausfordernder als die meisten MOOCs. Es hat eine 4,82-Sterne gewichtete durchschnittliche Bewertung über 38 Bewertungen.

    Fach 3: Einführung in Data Science

    Data Science AZ: Real-Life-Data-Science-Übungen von Kirill Eremenko und dem SuperDataScience-Team über Udemy

    Das Data Science AZ von Kirill Eremenko zeichnet sich durch Breite und Tiefe des Data Science-Prozesses aus. Die natürlichen Lehrfähigkeiten des Lehrers werden von den Gutachtern häufig gelobt. Es hat eine gewichtete 4,5-Sterne-Durchschnittsbewertung über 5.078 Bewertungen.

    Einführung in die Datenanalyse nach Udacity

    Udacitys Einführung in die Datenanalyse deckt den datenwissenschaftlichen Prozess mithilfe von Python kohärent ab. Es hat eine gewichtete 5-Sterne-Durchschnittsbewertung über 2 Bewertungen.

    Data Science Fundamentals von Big Data University

    Die Data Science Fundamentals der Big Data University decken den gesamten Data Science-Prozess ab und führen Python, R und mehrere andere Open-Source-Tools ein. Es gibt keine Bewertungen für diesen Kurs auf den Bewertungsseiten, die für diese Analyse verwendet werden.

    Thema 4: Datenvisualisierung

    Datenvisualisierung mit Tableau-Spezialisierung von der University of California, Davis über Coursera

    Die fünfgängige Serie Data Visualization with Tableau Specialization von UC Davis befasst sich intensiv mit der Visualisierungstheorie. Möglichkeiten zum Üben von Tableau werden durch exemplarische Vorgehensweisen und ein Abschlussprojekt bereitgestellt. Es hat eine gewichtete 4-Sterne-Durchschnittsbewertung über 2 Bewertungen.

    Datenvisualisierung mit der ggplot2-Serie von DataCamp

    Ein beträchtlicher Teil der Theorie, die vom ggplot2-Schöpfer Hadley Wickham gebilligt wird, wird in DataCamps Datenvisualisierung mit der ggplot2-Reihe behandelt. Sie werden R und seine skurrile Syntax gut kennen, wenn Sie diese Kurse verlassen. Es gibt keine Bewertungen für diese Kurse auf den Bewertungsseiten, die für diese Analyse verwendet werden.

    Tableau 10-Serie (Tableau 10 AZ und Tableau 10 Advanced Training) von Kirill Eremenko und dem SuperDataScience-Team auf Udemy

    Als effektive praktische Einführung konzentriert sich Kirill Eremenkos Tableau 10-Serie hauptsächlich auf die Werkzeugabdeckung (Tableau) und nicht auf die Datenvisualisierungstheorie. Zusammen haben die beiden Kurse einen gewichteten 4,6-Sterne-Durchschnitt von über 3.724 Bewertungen.

    Fach 5: Maschinelles Lernen

    Maschinelles Lernen von der Stanford University über Coursera

    Das Machine Learning der Stanford University wird von dem berühmten Google Brain-Gründer und ehemaligen Chefwissenschaftler Andrew Ng in Baidu unterrichtet und deckt alle Aspekte des Workflows für maschinelles Lernen und verschiedene Algorithmen ab. In MATLAB oder Octave unterrichtet, hat es eine mit 4,7 Sternen gewichtete durchschnittliche Bewertung über 422 Bewertungen.

    Maschinelles Lernen von der Columbia University über edX

    Die CoIumbia University bietet eine fortgeschrittenere Einführung als Stanford und ist ein neuerer Kurs mit außergewöhnlichen Bewertungen und einem verehrten Ausbilder. Die Aufgaben des Kurses können mit Python, MATLAB oder Octave ausgeführt werden. Es hat eine 4,8-Sterne gewichtete durchschnittliche Bewertung über 10 Bewertungen.

    Maschinelles Lernen AZ: Python & R zum Anfassen in der Datenwissenschaft von Kirill Eremenko und Hadelin de Ponteves über Udemy

    Kirill Eremenko und Hadelin de Ponteves ‘Machine Learning AZ ist ein beeindruckend detailliertes Angebot, das Unterricht in Python und R bietet, was selten vorkommt und bei keinem der anderen Top-Kurse gesagt werden kann. Es hat eine gewichtete 4,5-Sterne-Durchschnittsbewertung über 8.119 Bewertungen.

    Thema # 6: Tiefes Lernen

    Kreative Anwendungen von Deep Learning mit TensorFlow von Kadenze

    Parag Mitals kreative Anwendungen des Deep Learning mit Tensorflow verleihen einem technischen Thema eine einzigartige Wendung. Die “kreativen Anwendungen” sind inspirierend, der Kurs wird professionell produziert und der Ausbilder kennt sich aus. In Python unterrichtet, hat es eine 4,75-Sterne-gewichtete durchschnittliche Bewertung über 16 Bewertungen.

    Neuronale Netze für maschinelles Lernen von der University of Toronto über Coursera

    Lerne aus einer Legende. Geoffrey Hinton ist bekannt als der “Pate des tiefen Lernens”, der international für seine Arbeit an künstlichen neuronalen Netzen ausgezeichnet ist. Seine Neuronalen Netze für maschinelles Lernen sind eine fortgeschrittene Klasse. Es wurde in Python unterrichtet und hat eine gewichtete Durchschnittsbewertung von 4,11 Sternen über 35 Bewertungen.

    Deep Learning AZ: Künstliche Neuronale Netze zum Anfassen von Kirill Eremenko und Hadelin de Ponteves über Udemy

    Deep Learning AZ ist eine leicht zugängliche Einführung in Deep Learning mit intuitiven Erklärungen von Kirill Eremenko und hilfreichen Code-Demos von Hadelin de Ponteves. In Python unterrichtet, hat es eine 4,6-Sterne-gewichtete durchschnittliche Bewertung über 1.314 Bewertungen.

    Und hier ist unsere Top-Kursauswahl für jedes der Zusatzfächer in Data Science.

    Python & seine Werkzeuge

    Python Programming Track von DataCamp sowie die einzelnen Pandakurse :

    Pandas Stiftungen

    Bearbeiten von DataFrames mit Pandas

    Zusammenführen von DataFrames mit Pandas

    Der code-lastige Befehlsstil von DataCamp und die Programmierumgebung im Browser eignen sich hervorragend zum Erlernen der Syntax. Ihre Python-Kurse haben eine gewichtete Durchschnittsbewertung von 4,64 Sternen über 14 Bewertungen. Udacitys Einführung in die Datenanalyse, eine unserer Empfehlungen für die Einführung in datenwissenschaftliche Kurse, deckt auch NumPy und Pandas ab.

    Erforderliche Fähigkeiten, um ein Data Scientist zu werden

    Datenwissenschaftler sind Big Data Wrangler. Sie nehmen eine große Menge unordentlicher Datenpunkte (unstrukturiert und strukturiert) und säubern, massieren und organisieren sie mit ihren beeindruckenden Fähigkeiten in Mathematik, Statistik und Programmierung. Dann wenden sie alle ihre analytischen Fähigkeiten an, um versteckte Lösungen für geschäftliche Herausforderungen zu finden und dem Unternehmen zu präsentieren. Mit anderen Worten, Data Scientists nutzen ihr Wissen über Statistik und Modellierung, um Daten in umsetzbare Erkenntnisse über alles, von der Produktentwicklung über die Kundenbindung bis hin zu neuen Geschäftsmöglichkeiten, umzuwandeln.

    Data Scientist muss sowohl über technische als auch über nichttechnische Fähigkeiten verfügen, um seine Arbeit effektiv ausführen zu können. Technische Fähigkeiten werden in 3 Stufen in Data Science einbezogen. Sie beinhalten:

    1. Datenerfassung & Vorverarbeitung
    2. Datenanalyse & Mustererkennung
    3. Präsentation & Visualisierung

    Für die Durchführung von mehr als drei Phasen werden drei Kategorien von Tools benötigt – Tools zum Abrufen von Daten, Tools zum Analysieren der Daten und Tools zum Präsentieren der Ergebnisse. Hier sind die verschiedenen Tools, die zur Verfügung stehen, um dasselbe auszuführen:

    Tools zum Abrufen und Vorverarbeiten von Daten

    ein. SQL

    Dies ist ein Muss für alle Datenwissenschaftler, unabhängig davon, ob Sie strukturierte oder unstrukturierte Daten verwenden. Unternehmen verwenden die neuesten SQL-Engines wie Apache Hive, Spark-SQL, Flink-SQL, Impala usw.

    b. Big Data-Technologien

    Dies ist das Muss unter den Fähigkeiten, die erforderlich sind, um Data Scientist zu werden. Der Datenwissenschaftler muss sich mit verschiedenen Big-Data-Technologien auskennen – 1

    st

    Gen-Technologien wie Apache Hadoop und sein Ökosystem (Bienenstock, Schwein, Gerinne usw.), Next-Gen-ähnliche Technologien wie Apache Spark und Apache Flink (Apache Flink ersetzt Apache Spark schnell, da Flink eine allgemeine Big-Data-Engine ist, die mit echten Daten umgehen kann Weitere Informationen zu Flink finden Sie in diesem umfassenden Tutorial.

    c. UNIX

    Da die meisten Rohdaten auf einem UNIX- oder Linux-Server gespeichert werden, bevor sie in einem Datenspeicher abgelegt werden, ist es hilfreich, ohne Abhängigkeit von einer Datenbank auf die Rohdaten zugreifen zu können. Unix-Kenntnisse sind also gut für Data Scientists. Befolgen Sie diese Befehlsanleitung, um Linux-Befehle zu üben.

    d. Python

    Python ist eine der beliebtesten Sprachen für Datenwissenschaftler. Python ist eine interpretierte, objektorientierte Programmiersprache mit dynamischer Semantik. Es ist eine Hochsprache mit dynamischer Bindung und Typisierung.

    Tools für Datenanalyse und Mustervergleich

    Dies hängt von Ihrem statistischen Kenntnisstand ab. Einige Tools werden für erweiterte Statistiken verwendet, andere für grundlegende Statistiken.

    ein. SAS

    Viele Unternehmen setzen SAS ein, weshalb einige grundlegende Kenntnisse über SAS von Vorteil sind. Sie können Gleichungen leicht manipulieren.

    b. R

    R ist in der statistischen Welt am beliebtesten. R ist ein Open-Source-Tool und eine Sprache, die objektorientiert ist, sodass Sie sie überall verwenden können. Es ist die erste Wahl für jeden Datenwissenschaftler, da die meisten Dinge in R implementiert sind. Um den Vergleich zwischen dem Top-Datenanalysetool zu erhalten, befolgen Sie diese Vergleichsanleitung zwischen R vs SAS vs SPSS.

    Lesen Sie hier weiter für weitere Fähigkeiten.

    Wer ist ein Data Scientist?

    Ein Datenwissenschaftler ist im Grunde ein Statistiker, der programmieren kann. Datenwissenschaft ist die Kunst, die neuesten Informatik- und statistischen Techniken zu verwenden, um Daten zu sammeln, zu analysieren, zu visualisieren und auf andere Weise Schlussfolgerungen daraus zu ziehen. Die meisten der heiklen Themen, die heutzutage in Bezug auf Verzerrung, Datenqualität, Modellierung, Lernen und Datenbereinigung diskutiert werden, stammen aus den gesunden Statistiken, die wir in den letzten 100 Jahren erstellt haben.

    Die Neuheit der Datenwissenschaft beruht auf dem technischen Bedürfnis, mit dem jetzt verfügbaren Datenvolumen umgehen zu können und es aus vielen unterschiedlichen Formen in ein sauberes, benutzbares Format zu bringen. Darüber hinaus gelten alle anderen Fähigkeiten, die einem Datenwissenschaftler zugeschrieben werden – visuelle Kommunikationsfähigkeiten, gute schriftliche Fähigkeiten, Fachkenntnisse – für jeden, der Wissenschaft betreibt, von Biologie bis Anthropologie.

    Interessant ist, dass die Fähigkeiten, die ein echter „Data Scientist“ benötigt, äußerst selten sind. Unter Verwendung des Venn-Diagramms von Drew Conway für Data Science muss Folgendes vorliegen:

    • Hacking Skills: Dies sind Programmier- und Skriptfähigkeiten, die jedoch häufig nicht an Universitäten oder sogar in der Industrie gelehrt werden. Die empfohlene Programmiersprache ist Python, aber andere tun in gewissem Umfang auch etwas Gutes.
    • Statistische Erfahrung: Nur wenige Personen verfügen über eine Ausbildung in formaler Statistik, die über die einfache lineare Regression hinausgeht. Ein guter Datenwissenschaftler sollte ein Experte in Fragen der Voreingenommenheit, fortgeschrittenen Modellierung und kausalen Folgerung sein.
    • Maschinelles Lernen: Ich werde maschinelles Lernen herausgreifen, da nicht jeder Hacker diese Fähigkeiten besitzt. Es sind besondere Fähigkeiten erforderlich, um effiziente neuronale Netze aufzubauen und zu verstehen, wie sie funktionieren / nicht funktionieren.
    • Sachverstand: Der Datenwissenschaftler muss möglicherweise selbst kein Experte sein. Andernfalls sollte er von einem Experten ausreichend darüber lernen, um die Ergebnisse interpretieren oder kreativ denken zu können.

    Viele Leute, die ich kenne, kamen aus der Mathematik und haben sich dann mit Programmieren und Informatik befasst, um fortgeschrittenere Modelle bauen zu können. Egal, wie Sie dorthin gelangen, Sie müssen Ihre Programmier- und Statistikfähigkeiten verbessern und dürfen Ihre Kommunikations- und Kreativitätstalente nicht aus den Augen verlieren.

    Um mehr über die Wege der Data Scientists zu erfahren, empfehle ich auch ein großartiges Buch, Sebastian Gutierrez, einen der Moderatoren von / r / datascience, der sich Data Scientists at Work nennt. Das Problem ist jedoch, dass es viele Wege gibt, denen Sie folgen können, sodass es sich überwältigend anfühlt, herauszufinden, wie Sie anfangen sollen.

    Das Internet ist jetzt übersät mit Online-Kursen, die Sie in Data Science unterrichten. Sie können einige davon überprüfen ->

    • Coursera (sollte Ihre erste Wahl sein)
    • Fellowships of Insight und Data Incubator
    • John Foremans Daten Smart

    Der beste Weg zu lernen ist natürlich: Schauen Sie sich Online-Wettbewerbe über Kaggle oder DrivenData an, um an Wettbewerben zum maschinellen Lernen teilzunehmen. Fangen Sie klein an und schauen Sie sich die Fragen an, die Sie wirklich interessieren.

    Unterschätzen Sie nicht die Fähigkeit, Menschen persönlich zu treffen. Tauchen Sie so gut Sie können in die Data-Science-Community ein. Nehmen Sie an lokalen Meetups teil, sehen Sie sich Webinare oder lokale Konferenzen an und veröffentlichen Sie natürlich weiterhin Fragen zu / r / datascience, und Sie sind bald auf Ihrem eigenen datenwissenschaftlichen Pfad.

    Egal wie Sie dorthin kommen, genießen Sie die Reise. Data Science ist ein spannendes und aufregendes Gebiet, und es ist nicht so wichtig, ob Sie die lineare Algebra vorwärts und rückwärts kennen oder nicht, wie sich die Ärmel hochzukrempeln und Spaß beim Stöbern zu haben, wo immer Sie gerade sind. Viel Glück!!!

    Quelle: Wie werde ich Datenwissenschaftler?

    Wenn Sie auf der Suche nach einer Karriere sind, die auf mehrere Branchen anwendbar ist und zu einer Vielzahl interessanter und einzigartiger Projekte führen kann, sind Sie bei Data Science genau richtig.

    Von Harvard Business Review als „der sexyste Job des 21. Jahrhunderts“ bezeichnet, ist Data Science ein Bereich, der Innovationen vorantreibt, Ihren kreativen Funken anzieht und die Welt um uns herum erleuchten kann. Diese Eigenschaften und die überdurchschnittliche Vergütung, die der Arbeitsplatz bietet, sind wahrscheinlich die Hauptfaktoren, die dazu führen, dass Data Science jedes Jahr einen hohen Stellenwert auf der Liste der begehrten Arbeitsplätze einnimmt.

    Jobs Data Scientists tatsächlich tun
    Es gibt viele Diskussionen darüber, wie man den Job eines Data Scientists genau definiert, vor allem, weil die Anforderungen an Data Scientists je nach gewähltem Branchenfokus sehr unterschiedlich sind.

    „MEHR ALS ALLES, WAS DATENWISSENSCHAFTLER TUN, MACHT ENTDECKUNGEN, WÄHREND SIE DATEN SCHWIMMEN. ES IST IHRE BEVORZUGTE METHODE, UM DIE WELT ZU NAVIGIEREN. MIT LEICHTIGKEIT IM DIGITALEN REICH KÖNNEN SIE DIE STRUKTUR BRINGEN, UM MENGEN FALSCHER DATEN ZU GROSSEN UND EINE ANALYSE MÖGLICH ZU MACHEN. SIE IDENTIFIZIEREN REICHHALTIGE DATENQUELLEN, VERBINDEN SIE MIT ANDEREN, MÖGLICHERWEISE UNVOLLSTÄNDIGEN DATENQUELLEN UND REINIGEN DEN ERGEBNISSATZ. IN EINER WETTBEWERBSFÄHIGEN LANDSCHAFT, IN DER HERAUSFORDERUNGEN ÄNDERUNGEN FESTHALTEN UND DATEN NIEMALS AUFHALTEN, HILFEN DATENWISSENSCHAFTLER, ENTSCHEIDUNGSMASCHINEN, VON EINER AD-HOC-ANALYSE ZU EINEM DAUERHAFTIGEN DURCHENDEN DATEN GES GES GES GES.

    Zu den Aufgaben, die ein Datenwissenschaftler ausführen soll, gehören:

    • Stellen Sie offene Fragen und führen Sie Recherchen durch, um diese Fragen zu beantworten.
    • Extrahieren großer Datenmengen aus internen und externen Quellen.
    • Vorbereiten von Daten für die prädiktive und präskriptive Modellierung mithilfe von Analyseprogrammen, maschinellem Lernen und statistischen Methoden.
    • Durchsuchen und Untersuchen von Daten, um Trends und Muster zu ermitteln, die zu umsetzbaren Erkenntnissen führen können.
    • Entwicklung neuer Algorithmen zur Lösung von Problemen und neuer Tools zur Automatisierung der Arbeit.

    Es gibt verschiedene Arten von Datenwissenschaftlern, einige davon sind:

    Quantitative, explorative Datenwissenschaftler: Diese Datenwissenschaftler kombinieren Theorie und explorative Forschung, um Produkte zu verbessern. In der Regel haben Datenwissenschaftler dieser Art einen Doktortitel und verfügen möglicherweise über fundierte Kenntnisse in Physik oder maschinellem Lernen.

    Operative Data Scientists: Diese Data Scientists sind in Bereichen wie Finanzen, Vertrieb oder Operations tätig und verfügen über fundierte Kenntnisse in Analytik und Statistik. Sie können sich auf Bereiche wie Business Intelligence konzentrieren, Muster und Trends definieren und mithilfe von Predictive Analytics umsetzbare Erkenntnisse gewinnen.

    Wissenschaftler für Produktdaten: Diese Fachleute konzentrieren sich darauf, die Art und Weise zu verstehen, wie Benutzer mit einem Produkt interagieren, und Wege zu finden, um das Produkt entsprechend zu verbessern oder zu verbessern. Sie arbeiten eng mit Produktmanagern und Ingenieuren zusammen oder fungieren als solche.

    Das Gebiet der Datenwissenschaft deckt also einen großen Bereich ab und reicht von Analysten, die Business-Intelligence-Tools verwenden, bis hin zu Physikern, die Code für innovative Technologien wie selbstfahrende Autos und dergleichen schreiben.

    Gemeinsame Fähigkeiten und Bildungsvoraussetzungen für Data Scientists

    • Mathematische Fähigkeiten wie lineare Algebra, Analysis, Wahrscheinlichkeit und Statistik
    • Werkzeuge und Techniken für maschinelles Lernen
    • Software-Engineering-Kenntnisse
    • Fähigkeiten zur Datenbankverwaltung
    • Sprachen und Anwendungen wie Python, R, SQL, Java, C, C ++, SPSS, Tableau und Hadoop

    Es gibt auch drei Teile der Ausbildung zum Datenwissenschaftler:

    Studienabschlüsse und Abschlusszeugnisse bieten Struktur, Praktika, Vernetzung und anerkannte akademische Qualifikationen für Ihren Lebenslauf. Zu den Hauptfächern, die sich nahtlos in die Karriere der Common Data Science einfügen, gehören: Statistik, Mathematik, Wirtschaft, Betriebsforschung und Informatik.

    Mit MOOCs und selbstgesteuerten Lernkursen können Sie Projekte in Eigenregie abschließen, müssen jedoch Ihren eigenen akademischen Weg strukturieren. Wenn Sie sich für diese Lernmethode entscheiden, müssen Sie sich selbst vernetzen, um einen Job zu finden.

    Bootcamps können von praktizierenden Datenwissenschaftlern unterrichtet werden und sind möglicherweise ein schneller Weg, um einige der Fähigkeiten zu erlernen, die Sie benötigen. Das Bootcamp-Modell basiert auf Erfahrungslernen und bietet einige Möglichkeiten zum Netzwerken, um Sie bei der Vermittlung von Jobs zu unterstützen. [1]

    Fußnoten

    [1] Wie werde ich Data Scientist?

    Das Feld als seine Bedeutung wird in den kommenden Jahren weiter wachsen. Sie erwähnen ferner, dass der Erwerb von Fähigkeiten als Data Scientist nicht nur dem betroffenen Team hilft, Produkte zu verkaufen und zu vermarkten, sondern auch den Unternehmen diesen Wert zurückerstattet.

    „Es fühlt sich an wie eine reine Wissenschaft. Es gibt erstaunliche Neuigkeiten für Sie – die Zahl der offenen Stellen in diesem Bereich nimmt bemerkenswert zu, da immer mehr Arbeitgeber nach Data Scientists, Data Analysts und vielen weiteren Stellenprofilen suchen. 2016 wird ein Jahr mit hervorragenden Beschäftigungsmöglichkeiten, wenn Sie Ihre Fähigkeiten in irgendeiner Weise mit Big-Data-Analytik in Verbindung bringen. Big Data, Data Science – Kombikurs Online-Schulungen | Big Data, Data Science – Kombikurs Online-Kurse

    Die heutige Welt wird verrückt nach ‘Big Data’ und Data Scientist ist auch in diesem Jahr der heißeste Job. Das Dilemma ist jedoch, zu entscheiden, mit welchen Fähigkeiten Sie von Top-Arbeitgebern identifiziert werden. Es ist ein wichtiges Anliegen von Fachleuten und Studenten, dass wenn sie Java beherrschen, dies hilfreich ist, um die Karriere auf die Ebene der Data Scientists voranzutreiben. Welche besonderen Fähigkeiten erhöhen Ihre Glaubwürdigkeit noch mehr und zwingen die Arbeitgeber, Sie vor anderen zu wählen?

    Vor kurzem hat der Crowd-Sourcing-Spezialist von Data Science, Crowd Flower Inc., eine Umfrage durchgeführt, um herauszufinden, welche Data-Science-Kenntnisse am häufigsten nachgefragt werden, um Ihnen das Top-Row-Ticket in Ihrem Traumunternehmen zu verschaffen. Die Experten analysierten mehr als 3500 Stellen auf der beliebten professionellen Website für datenwissenschaftliche Stellen und erstellten einen Bericht mit den Echtzeitdaten. Es wurden die 21 wichtigsten individuellen Fähigkeiten aufgelistet, die am häufigsten von einem Data Science-Experten erwartet werden. Die Ergebnisse sind die besten, die Sie dabei unterstützen, brillante Jobs mit hohen Gehältern zu finden und sich sogar auf Ihren professionellen Zertifizierungskurs vorzubereiten “, so einer der Data Scientists bei Sensis in dem Artikel von Business Today Anfang dieses Jahres. In jüngerer Zeit beschäftigen wir uns als integraler Bestandteil der Datenwissenschaft intensiv mit Techniken und Werkzeugen der Datenvisualisierung. Ein Data Scientist ist eine Weiterentwicklung der Geschäfts- oder Datenanalystenrolle. Die formale Ausbildung ist ähnlich und verfügt über eine solide Grundlage in den Bereichen Informatik und Anwendungen, Modellierung, Statistik, Analytik und Mathematik

    . Was den Data Scientist auszeichnet, ist sein ausgeprägtes Geschäftssinn und die Fähigkeit, Erkenntnisse sowohl an Unternehmens- als auch an IT-Führungskräfte zu übermitteln, um zu beeinflussen, wie ein Unternehmen eine geschäftliche Herausforderung angeht. Gute Datenwissenschaftler werden sich nicht nur mit geschäftlichen Problemen befassen, sondern auch die richtigen Probleme auswählen, die für das Unternehmen den größten Wert haben.

    Die Rolle des Datenwissenschaftlers wurde als „teils Analytiker, teils Künstler“ beschrieben. Ein Datenwissenschaftler ist jemand, der neugierig ist und auf Daten starren und Trends erkennen kann. Es ist fast wie bei einem Renaissance-Menschen, der wirklich lernen und eine Organisation verändern möchte. ”

    Während ein herkömmlicher Datenanalyst möglicherweise nur Daten aus einer einzigen Quelle – beispielsweise einem CRM-System – betrachtet, wird ein Datenwissenschaftler höchstwahrscheinlich Daten aus mehreren unterschiedlichen Quellen untersuchen und untersuchen. Der Datenwissenschaftler sichtet alle eingehenden Daten mit dem Ziel, eine zuvor verborgene Einsicht zu finden, die wiederum einen Wettbewerbsvorteil verschafft oder ein dringendes Geschäftsproblem angeht. Ein Datenwissenschaftler sammelt und meldet Daten nicht nur, sondern betrachtet sie auch aus verschiedenen Blickwinkeln, bestimmt, was sie bedeuten, und empfiehlt Möglichkeiten, die Daten anzuwenden.

    Datenwissenschaftler sind neugierig: Erforschen, Fragen stellen, Was-wäre-wenn-Analysen durchführen, vorhandene Annahmen und Prozesse in Frage stellen

    Die Daten verdoppeln sich alle zwei Jahre und jeder hat von den absurden Wachstumszahlen in Berichten gehört. Vor diesem Hintergrund ist das unvermeidliche Ergebnis das Auftauchen des Data Scientist. Ein Datenwissenschaftler muss riesige Datenmengen analysieren und die Technologiekarte erstellen, um den Übergang von Daten zu Erkenntnissen zu ermöglichen. Der Aufgabenbereich eines Datenwissenschaftlers umfasst die Identifizierung von Datenquellen, die Qualität von Daten, die Korrelation zwischen Datenpunkten und die Weitergabe von Informationen an die Benutzer.

    Momentan wird die Rolle eines Datenwissenschaftlers von einer Kombination von Personen im BI-Team gespielt, z. B. dem Data-Warehouse-Architekten, dem Business-Analysten und anderen Mitarbeitern. Wenn sich die Situation weiterentwickelt, würde der Datenwissenschaftler über diesen Fachleuten arbeiten, um neue Trends und Assoziationen zu entdecken, die jenseits des Bereichs der aktuellen Modelle und Geschäftsprobleme liegen könnten. Der Business Analyst würde an den Daten arbeiten, die der Data Scientist zusammengestellt hat. James Kobielus, Senior Analyst bei Forrester in seinem Geschäftsbereich, geht so weit, die Arbeit eines Datenwissenschaftlers mit der Arbeit von Wissenschaftlern in den Natur- und Sozialwissenschaften zu vergleichen und zu erklären, dass sie Beobachtungs- und Versuchsdaten benötigen würden, um zu arbeiten mit. “Historisch gesehen mussten sich ( Datenwissenschaftler ) mit bloßen Beispielen begnügen.” Mit dem Entstehen einer vollwertigen Karriere wird sich dies bald ändern.

    Die Diskussion darüber, wer genau zum Data Scientist qualifiziert ist, unterscheidet sich nicht allzu sehr von der Debatte darüber, ob ein Data Scientist von Anfang an einen Master-Abschluss in Mathematik oder Statistik haben sollte. In der Zwischenzeit erklärt der Group CTO von Shoppers Stop: „Es gibt einen Mangel an Fachleuten, die man als Data Scientist bezeichnen kann. Im Moment füllt jeder, der eine Leidenschaft für die Arbeit mit Daten hat, die Lücke. “

    Ein Datenwissenschaftler wird an der Entwicklung neuer Algorithmen arbeiten und neue Muster und Einsichten in die Daten bringen, die sonst verborgen bleiben würden. „Ein Data Scientist kann neben der Statistik über eine Qualifikation in Wirtschaftswissenschaften verfügen und benötigt auf jeden Fall ein Dutzend oder mehr Jahre Erfahrung in der Arbeit mit zehn bis fünfzehn BI-Tools“, sagt Chuck Hollis, VP für Global Marketing & CTO, EMC.

    Ein Anbieter von entscheidungswissenschaftlichen und analytischen Dienstleistungen sagt, „Data Scientists werden sich auch mit experimenteller Psychologie, Anthropologie und Sozialwissenschaften befassen.“ Da BI-Kompetenzzentren (BI Centers of Excellence, CoE) eingerichtet werden müssen, wird die Analytik institutionalisiert.

    Mit dem Aufkommen der sozialen Medien, die die meisten Facetten des Geschäfts betreffen, freuen sich Unternehmen darauf, Technologie, soziale Software und BI zu integrieren, um eine kongeniale Entscheidungsumgebung zu schaffen. Der Datenwissenschaftler ist dafür verantwortlich, Informationen in einen sozialen Kontext zu stellen. BI und Analytics spielen bei neuen Ansätzen wie Hadoop eine neue Rolle. Sie warten nicht auf strukturierte, bereinigte und makellose Daten, sondern arbeiten mit einer gemischten Datenmenge, um Echtzeit- oder Nahzeitanalysen bereitzustellen. Descriptive Analytics, Inquisitive Analytics, Predective Analytics und Prescriptive Analytics sind Teil des neuen Paradigmas, wobei der Data Scientist im Mittelpunkt steht.

    Die Evolutionskurve wandelt sich von der Entscheidungsunterstützung hin zu einer zunehmend operativen Phase, mit einem bevorstehenden Fortschritt, der die strategische Kompetenz mit Datenwissenschaftlern auf eine völlig neue Ebene hebt. BI trat vor fünfzehn Jahren auf die Bühne und die IT besaß diese Initiativen. Jetzt ist BI eine Business-Funktion, die Marktforschung mit einem zentralen Fokus auf Analytik umfasst. Unternehmen mit großen Datenmengen (intern und extern) würden The Notion Market besuchen, ohne ein Auge zuzuwerfen, aber kleinere Unternehmen würden zweimal darüber nachdenken, bevor sie jemandem Geld zahlen, um etwas zu tun, was ihr BI-Anbieter ihnen mitteilte, dass ihr BI-Produkt funktionieren würde.

    Es ist jedoch nicht so, als gäbe es Datenwissenschaftler in Hülle und Fülle, die sich alle nach Jobs sehnen. Im Gegenteil, wie Hollis von EMC sagt: „Es gibt einen Mangel an Talenten. Auf jeden Data Scientist warten dreißig Jobs. “

    Als Antwort auf dieses Problem bietet sich Analytics als Service als praktikable Alternative an. Analytics as a Service ist noch im Entstehen begriffen und entwickelt sich weiter. Wenn die Komplexität zunimmt und ausgereifte Servicemodelle entstehen, die mit Ergebnissen und Erfolg verbunden sind, steigt die Akzeptanzrate. Die Möglichkeit, einen Data Scientist über einen Analysedienstleister einzustellen, ist ein Zwischenschritt für viele mittelständische und kleine Unternehmen