Data Scientist, czyli jak zostać badaczem danych

Branża IT to jedna z najszybciej rozwijających się branż zarówno w światowej, jak i polskiej gospodarce. Według publikacji “Raport płacowy Antal 2017”, średnie miesięczne wynagrodzenie brutto w branży IT wyniosło 12 600 zł (w porównaniu do 10 893 zł rok wcześniej). Najbardziej poszukiwani kandydaci w branży IT to programiści wszystkich specjalizacji, ale na pierwszy plan w Polsce wysuwają się programiści Java oraz eksperci Data Scientist, czyli badacze danych. O ile wiemy, czym zajmują się programiści Java, to nazwa Data Scientist brzmi tajemniczo. Po raz pierwszy informacja o takim zawodzie jak badacz danych pojawiła się raptem sześć lat temu w 2012 roku w czasopiśmie “Harvard Business Review”. Oczywiście wyznaczanie dat nie ma tu specjalnie sensu, bo fakt, iż jakieś pojęcie istnieje od konkretnego czasu nie znaczy, że wcześniej ludzie nie zajmowali się danym zagadnieniem. Tylko nikt po prostu go nie nazwał.
Data Scientist
Data Scientist

Data Scientist? “To nie dla mnie”

Czym właściwie zajmuje się Data Scientist, czyli badacz danych? Sięgnijmy – nomen omen – do danych, by odpowiedzieć na to pytanie. Odpowiedzi dostarczy nam Kaggle, znana na całym świecie platforma, skupiająca specjalistów od danych z całego świata. Otóż Kaggle przeprowadziło interesujące badanie społeczności analityków, programistów i ludzi generalnie zajmujących się zbiorami danych. Raport ten miał na celu pokazanie kim są ludzie, którzy zajmują się danymi. Jakie mają zainteresowania, wykształcenie, z jakich narzędzi korzystają itp. Przy okazji polecam obejrzenie poniższego filmu, na którym Jeremy Howard z Kaggle wyłuszcza zebranym konsekwencje faktu, że komputery mogą się uczyć. Jeżeli w przyszłości chcecie mieć pracę, to bycie badaczem danych to dobra droga.

Zainteresowanych wspomnianym raportem odsyłam do źródła w Kaggle. Chcę jedynie zwrócić uwagę na istotne zastrzeżenie poczynione przez zespół badawczy Kaggle: badanie miało postać ankietową (udało się uzyskać ponad 16 tysięcy odpowiedzi, więc całkiem pokaźną liczbę, zwłaszcza w sytuacji, gdy rzecz dotyczy osób o konkretnych umiejętnościach), przy czym osoba uznawana za “Data Scientist”, czyli badacza danych, została przez Kaggle zdefiniowana jako “osoba, która tworzy kod, aby analizować dane”. To podstawowa różnica pomiędzy analitykiem danych wykorzystującym gotowe narzędzia (aplikacje itp.) a data scientist. Badacz danych musi być i analitykiem i programistą. W tym momencie już widzę w oczach wielu czytających rezygnację, “programistą? To nie dla mnie”. Mam jedną prośbę – doczytajcie do końca.

Bootcamp, czyli odpowiednie szkolenie

Badacz danych (Data Scientist) to zawód o bardzo szerokich kompetencjach technicznych, jak i szerokim zakresie praktycznych zastosowań. Badacze danych mogą pracować w branży finansowej, gdzie analizują np. dane o transakcjach bankowych, wspomagają podejmowanie decyzji kredytowych, czy specjalizują się w wyszukiwaniu nadużyć finansowych i wykrywaniu podejrzanych operacji. Badacz danych może pracować również w branży marketingowej, gdzie z kolei będzie zajmować się np. analizą zachowań użytkowników na stronach internetowych, a w dalszej kolejności może współtworzyć systemy rekomendacyjne, albo śledzić w sieci opinie o marce. Zakres zadań, które mogą realizować badacze danych jest bardzo szeroki. Ale przecież podobnie jest z programowaniem.

Najważniejsza informacja brzmi: osoby, które odebrały gruntowne wykształcenie w nietechnicznej dziedzinie wcale nie muszą rezygnować z kariery w branży IT. Duża w tym zasługa nowoczesnego systemu szkoleń nazywanych bootcampami, kiedy w relatywnie krótkim czasie (znacząco krótszym niż klasyczna ścieżka edukacyjna), liczonym w miesiącach, a nie w latach, poznajemy zarówno narzędzia, warsztat, jak i rzeczywiste realia pracy programistów i badaczy danych. Zatem na pytanie “czy mogę być programistą” można odpowiedzieć nieco przewrotnie: każdy może biegać, ale przecież nie każdy będzie olimpijczykiem.

Łukasz Kobyliński - Kodołamacz.pl
Łukasz Kobyliński z Kodołamacz.pl przekonuje, że programista nie musi mieć wykształcenia technicznego (fot. kodołamacz.pl)

Zawód programisty, a tym samym również badacza danych jest dziś zdecydowanie bardziej otwarty niż jeszcze kilka, kilkanaście lat temu. Najbardziej istotną umiejętnością, która charakteryzuje dobrych programistów jest po prostu umiejętność logicznego myślenia. Znane są przypadki osób, które odebrawszy znacznie wcześniej zupełnie inne wykształcenie (np. w gastronomii, czy muzyce) zostały świetnymi programistami. Według badań statystycznych przeprowadzonych w Stanach Zjednoczonych, statystyczny uczestnik bootcampu raczej nie przypomina “klasycznego” ucznia. To 30-latek, z ok. 7-letnim stażem pracy, z wykształceniem przynajmniej licencjackim i – to istotne – nigdy wcześniej nie pracujący jako programista.

A jak to wygląda u nas? Sięgnijmy po badania przeprowadzone w Polsce. Wydział Badań i Analiz Centrum Zarządzania Innowacjami i Transferem Technologii Politechniki Warszawskiej przeprowadził badania dotyczące osób zainteresowanych udziałem w bootcampach realizowanych w ramach projektu Kodołamacz.pl. Wnioski jakie można otrzymać z analizy zebranych podczas badania danych są jednoznaczne. Jak wyjaśnia Łukasz Kobyliński z Kodołamacz.pl: –Dane pokazują, że ścieżkę rozwoju zawodowego w formule bootcampów wybierają nie tylko ludzie związani z IT – aż 42 procent uczestników to osoby spoza branży.

Łukasz Kobyliński dodaje też, że “bootcampy zyskują popularność wśród osób z wykształceniem innym niż ścisłe, ponad 1/3 uczestników naszych kursów to osoby z wykształceniem humanistycznym lub innym, nietechnicznym“. Ponadto wśród wszystkich uczestników 17 procent stanowią kobiety, przy czym ich liczba sukcesywnie rośnie.

Od ekonomii i arabistyki do badania danych

Przykładem doskonale ilustrującym możliwości wynikające z przebranżowienia samego siebie jest historia Klaudii Jankowskiej, absolwentki ekonomii i arabistyki oraz studiów podyplomowych związanych z pomocą Humanitarną, prowadzonych na Uniwersytecie Warszawskim. Bardzo długo próbowała znaleźć dla siebie ścieżkę rozwoju, która łączyłaby wiedzę z różnych kierunków studiów i pozwalała wykorzystywać ją do pomocy humanitarnej. Wybrała bootcamp Kodołamacz.pl dotyczący data science, czyli właśnie badaniu danych. Dzięki nowym umiejętnościom rozpoczęła pracę w Międzynarodowej Federacji Towarzystw Czerwonego Krzyża i Czerwonego Półksiężyca (IFRC) w Genewie.

Klaudia Jankowska - kodołamacz
Klaudia Jankowska połączyła wiedzę badacza danych z wcześniej zdobytymi umiejętnościami w zakresie pomocy humanitarnej (fot. kodołamacz.pl)

Jak przyznaje Jankowska: Nie miałam wcześniej większego doświadczenia z programowaniem, więc był to dla mnie skok na bardzo głęboką wodę. Dziś w swojej pracy monitoruję działania misji – zbieram i analizuję dane dotyczące beneficjentów, naszych działań, ich potrzeb i satysfakcji ze świadczonej pomocy. Bez dostępu do takich danych nie bylibyśmy w stanie ocenić potrzeb a tym samym skuteczności i jakości niesionej pomocy  dodaje Jankowska.

Data Science to coraz ważniejsza dziedzina w branży IT. Ten obszar leżący na styku programowania i analizy danych ma coraz większą wartość dla firm, organizacji oraz całych społeczeństw. Nic dziwnego – praca badacza danych polega na zaprzęgnięciu współczesnych technologii programistycznych i rozwiązań infrastruktury IT do analizy potencjalnie bardzo dużych ilości danych i poszukiwania interesującej, nieznanej wcześniej wiedzy w owych danych. Dla przykładu wystarczy wspomnieć choćby firmy produkujące autonomiczne pojazdy (które muszą analizować dane wokół siebie, aby podjąć decyzję o dalszej trasie), czy świat reklamy internetowej (gdzie decyzje na rynku wymiany reklam podejmuje się w ciągu milisekund, optymalizując cele kupującego i zysk sprzedającego).

Data Scientist – co powinien umieć?

Badacz danych powinien przede wszystkim umieć programować. I po to są właśnie takie  przyspieszone, “bootcampowe” kursy, by ludzi mających dużą wiedzę z innych dziedzin, nauczyć programowania. Ale nie w kilka lat, bo na to po prostu nie ma czasu, lecz w kilka miesięcy. Umiejętność programowania jest niezbędna, głównie dlatego, że badacz danych może swoje rozwiązania zautomatyzować. To niezwykle istotne zwłaszcza w kontekście olbrzymich zbiorów danych (big data), jakie dziś są przetwarzane. Operacje “ręczne” przy tak dużych zbiorach informacji są po prostu nieopłacalne. Badacz danych musi projektować swoje rozwiązania również pod kątem wydajności, a nie tylko samej istoty rozwiązania jakiegoś problemu. Jakie najczęściej języki programowania zna dobry badacz danych? Najczęściej są to R i Python (wraz z bibliotekami Numpy i Pandas). Przydatną, czy wręcz niezbędną umiejętnością – ze względu na częstą pracę z bazami danych – jest także znajomość języka zapytań SQL. Do tego należy dodać umiejętności z zakresu inżynierii oprogramowania, czy algorytmów i struktur danych. Jest to tym bardziej istotne, że badacz danych często stanowi część większego zespołu programistycznego przygotowującego duży, software’owy produkt. Dlatego kod opracowany przez badacza danych powinien spełniać wymogi profesjonalnej produkcji oprogramowania (przejrzystość, testy, odpowiednie przestrzenie nazw itp.). Jednocześnie badacz danych powinien być również statystykiem, mieć wiedzę z zakresu uczenia maszynowego. Oprócz tego powinien mieć także zdolność wizualizacji danych i komunikacji interpersonalnej. Umiejętności miękkie przydadzą się do tego, by wnioski uzyskane z badanych danych móc przekazać innym w zrozumiały sposób. Brzmi skomplikowanie? Cóż, nie bez powodu jest to jedna z najbardziej pożądanych pozycji na rynku pracy.

Wynagrodzenie w data science – na świecie i w Polsce

Zamiast podsumowania, kilka słów na temat, o który zahaczyliśmy we wstępie do tego tekstu – jakie zarobki leżą w zasięgu badacza danych? Gdy dokonamy analizy danych zgromadzony przez wspomnianą wcześniej organizację Kaggle filtrując zebrane informacje pod kątem naszego kraju i np. naszych zachodnich sąsiadów, oto co uzyskujemy. W Polsce mediana rocznych zarobków wśród badaczy danych to ok. 80 tys. zł rocznie (niestety raport Kaggle nie precyzuje, czy mowa o kwotach netto czy brutto), a niemal wszyscy polscy badacze danych (ankietowani przez Kaggle) zarabiają poniżej 170 tys. zł rocznie (jedynie kilku przekraczało tę kwotę). Jak to wygląda w Niemczech? Łatwo się domyślić, że tamtejsi badacze danych zarabiają więcej. Ale o ile? Według danych Kaggle mediana zarobków Data Scientist w Niemczech wynosi ok. 71 750 dolarów (ok. 240 tys. zł rocznie), co i tak jest wartością mniejszą niż w Stanach Zjednoczonych, gdzie mediana zarobków badaczy danych to 110 tys. dolarów rocznie (ok. 370 tys. zł).

Warto jednak pamiętać też o tym, że wynagrodzeniem za zdobycie wachlarza umiejętności badacza danych, poza oczywiście finansowym, jest możliwość pracy w tym obszarze IT, który tak bardzo zmienia dzisiejszy świat. Którego efekty pracy widać było do tej pory jedynie w filmach science-fiction: rozpoznawanie twarzy, obiektów na zdjęciach, internet rzeczy, autonomiczne samochody, analiza języka naturalnego. Dla badaczy danych przyszłość jest teraz.

Materiały dodatkowe – warto!

Jeden tekst o badaczach danych to za mało, chętnym polecam poniższe źródła, z których korzystano podczas opracowywania niniejszego materiału:

| CHIP