Studia podyplomowe

Data Science. Metody, narzędzia, zastosowania - edycja II

Celem studiów jest przekazanie uczestnikom wiedzy i praktycznych umiejętności związanych ze współczesnymi metodami i narzędziami służącymi do pozyskiwania i analizy danych zarówno przy wykorzystaniu podejścia statystycznego jak i opartego na uczeniu maszynowym oraz przedstawienie metod i narzędzi pozwalających na rozwiązywanie problemów współczesnej analizy danych, w tym m.in.: metod wnioskowania statystycznego, zagadnień regresyjnych, klasyfikacji i analizy skupień, analizy danych jakościowych, metod redukcji wymiaru przestrzeni, analizy dokumentów tekstowych, analizy danych pochodzących z serwisów internetowych i sieci społecznościowych, analizy grafów, analizy danych o charakterze masowym i strumieniowym.

 

Nabywane kompetencje:

Absolwent kierunku Data Science. Metody, narzędzia, zastosowania nabędzie wiedzę dotyczącą wykorzystania zaawansowanych metod statystycznych do wykonywania operacji na danych z użyciem takich narzędzi jak język R i Python. Będzie potrafił m.in.:

  • posługiwać się środowiskami programistycznymi przeznaczonymi do pisania programów w językach R i Python
  • wyszukiwać i przetwarzać dane zgromadzone w tradycyjnych bazach relacyjnych oraz dane o zróżnicowanych formatach
  • przygotować rozwiązania służące do automatycznego pozyskiwania danych tekstowych z serwisów WWW i sieci społecznościowych
  • budować systemy reprezentacji i analizy tekstów
  • budować modele grafowe, po wcześniejszym zapoznaniu się z metodami reprezentacji sieci
  • wyznaczyć i zinterpretować statystyki opisowe dla modeli sieciowych
  • przeprowadzić wizualizację sieci
  • ocenić ważność węzłów i krawędzi w modelach sieciowych
  • porównać dwie populacje za pomocą efektywnych narzędzi statystycznych
  • przeprowadzić analizę regresji dwóch zmiennych
  • przeprowadzić analizę skupisk
  • prowadzić analizy statystyczne w oparciu o dane złej jakości zawierające obserwacje odstające i/lub braki w danych
  • posługiwać się metodami wielowymiarowej analizy danych, i grupowania obiektów wielowymiarowych
  • stosować zasady wnioskowania w oparciu o metody statystki matematycznej
  • budować, testować i oceniać modele regresji wielorakiej
  • budować, testować i weryfikować modele za pomocą metod uczenia maszynowego

Czesne

4500 PLN

Opiekun kierunku

Kontakt z Kierownikiem Biura Studiów Podyplomowych –
Przemysław Klimek
tel.+48 12 293 50 29

Program studiów

Program studiów

1. Wprowadzenie do programowania w językach R i Python (26 godzin):

  • Środowiska programistyczne RStudio i Jupyter
  • Zasady projektowania programów komputerowych
  • Struktura programu komputerowego w językach R i Python
  • Typy zmiennych i ich reprezentacja
  • Instrukcje (podstawienia, sterujące)
  • Złożone struktury danych
  • Podprogramy i moduły
  • Obsługa błędów wykonania
  • Obsługa plików
  • Wstępne przetwarzanie danych
  • Wizualizacja danych
  • Obliczenia macierzowe
  • Generatory liczb pseudolosowych
  • Wprowadzenie do przetwarzania danych tekstowych

 

2. Statystyczna analiza danych (48 godzin):

a) Elementy wnioskowania statystycznego (28 godzin):

  • Rozkłady zmiennych losowych
  • Statystyczny opis danych (klasyczny, odporny)
  • Estymacja funkcji gęstości
  • Estymatory – budowa i własności
  • Wnioskowanie statystyczne, testy parametryczne i nieparametryczne
  • Metody bootstrap i testy permutacyjne

b) Statystyczne metody wielowymiarowej analizy danych (20 godzin):

  • Wielowymiarowy rozkład normalny
  • Testy dla wektorów średnich
  • Wnioskowanie w modelach regresji (diagnostyka modelu, regresja ze zmiennymi jakościowymi)
  • Dobór zmiennych w regresji (metody krokowe, lasso)
  • Regresja jądrowa
  • Metody dyskryminacji: klasyfikator Bayesowski, funkcje dyskryminacyjne, metody nieparametryczne, regresja logistyczna
  • Metody redukcji wymiarów (analiza składowych głównych, analiza czynnikowa)
  • Analiza korespondencji
  • Grupowanie obiektów wielowymiarowych
  • Skalowanie wielowymiarowe

 

 

3. Elementy uczenia maszynowego oraz eksploracyjnej analizy danych (38 godzin):

a) Podstawy uczenia maszynowego i eksploracyjnej analizy danych (18 godzin):

  • Drzewa decyzyjne i identyfikacja reguł
  • Metoda wektorów wspierających
  • Analiza współwystępowania
  • Analiza sekwencji
  • Regresja z restrykcjami
  • Regresja nieparametryczna
  • Sieci neuronowe
  • Podejście wielomodelowe

b) Eksploracyjna analiza dokumentów tekstowych (12 godzin):

  • Przygotowanie dokumentów
  • Macierz częstości jako metoda reprezentacji zawartości dokumentów tekstowych
  • Reprezentacja oparta na macierzy współwystępowania słów
  • Analiza składowych semantycznych
  • Klasyfikacja dokumentów
  • Metoda ukrytej alokacji Dirichleta
  • Identyfikacja słów i fraz kluczowych
  • Analiza wydźwięku dokumentów
  • Automatyczna analiza dokumentów tekstowych
  • Analiza zawartości serwisów społecznościowych
  • Pozyskiwanie danych z serwisów internetowych

c) Eksploracyjna analiza sieci – Graph Mining (8 godzin):

  • Pojęcie i rodzaje grafów
  • Metody reprezentacji grafów
  • Statystyki opisowe dla grafów
  • Charakterystyka podstawowych algorytmów grafowych (przeszukiwanie grafu, wybór najkrótszej ścieżki)
  • Analiza sieci społecznych (ważność węzłów i połączeń, analiza struktury sieci, analiza sieci dwudzielnych)
  • Podobieństwo grafów
  • Klasyfikacja bezwzorcowa grafów (analiza skupień w grafach)
  • Wyszukiwanie wzorców częstych w sieciach
  • Zastosowanie eksploracyjnej analizy sieci

 

4. Systemy gromadzenia i przetwarzania danych (38 godzin):

a) Podstawy relacyjnych baz danych (20 godzin):

  • Modele danych. Dane strukturalne i nieustrukturyzowane. Wybrane formaty danych
  • Jakość danych
  • Projektowanie i implementacja relacyjnych baz danych
  • Wyszukiwanie i wstępne przetwarzanie danych w systemach relacyjnych

b) Przetwarzanie dokumentów i wielkich zbiorów danych (18 godzin):

  • Dokumentowe bazy danych
  • Agregacja danych o zróżnicowanych formatach – Apache SPARK
  • Operacje na zbiorach danych o dużej skali – Hadoop
  •  

5. Testowanie i weryfikacja modeli uczenia maszynowego (10 godzin)

Na praktycznym przykładzie pokazane zostanie, jak przygotować, wytrenować i zweryfikować model przy użyciu metod uczenia maszynowego. Jako narzędzie informatyczne wykorzystana zostanie biblioteka Keras.

Profil słuchacza

Oferta kierowana jest do osób zainteresowanych zagadnieniami analizy danych i podejmowania decyzji w takich obszarach jak: finanse, zarządzanie, marketing, produkcja, logistyka, służba zdrowia, energetyka, administracja publiczna, media społecznościowe, a także do osób wykorzystujących metody analizy danych w pracy badawczej, poszukujących zaawansowanych metod wspierających procesy decyzyjne oraz projektujących systemy przetwarzania i analizy danych.

Głównym celem studiów jest zapoznanie słuchaczy z zagadnieniami dotyczącymi statystycznej analizy danych, uczenia maszynowego oraz eksploracyjnej analizy danych. W związku z tym kandydat na studia na kierunku Data Science. Metody, narzędzia, zastosowania powinien mieć elementarną wiedzę z zakresu statystyki. Oczekuje się, że wie, co to jest średnia, mediana, wariancja, korelacja, zna także podstawowe zagadnienia związane z rachunkiem prawdopodobieństwa. Nie jest natomiast wymagane przygotowanie informatyczne. Języki R i Python będą wykorzystywane jako narzędzia do wykonywania obliczeń z zastosowaniem omówionych metod statystycznych.

Wykładowcy

mgr Jakub Kanclerz

mgr Jakub Kanclerz

 

Programista rozwiązań webowych. W pracy łączy praktykę, testy i podejście pragmatyczne. Uważa, że przyzwyczajenia mogą skutecznie ograniczać spektrum dostępnych możliwości. Stale doskonali swoje umiejętności i pozostaje otwarty na poznawanie nowych technologii. Kiedy nie programuje, przekazuje tajniki zawodu, pryncypia i umiejętności studentom w ramach zajęć dydaktycznych na Uniwersytecie Ekonomicznym w Krakowie.


prof. UEK dr hab. Daniel Kosiorowski

prof. UEK dr hab. Daniel Kosiorowski

Działalność naukowo badawcza prof. UEK dr hab. Daniela Kosiorowskiego koncentruje się wokół współczesnej statystyki teoretycznej i jej zastosowań w ekonomii. W szczególności badania dotyczą zagadnień statystyki odpornej, statystyki nieparametrycznej, wielowymiarowej analizy statystycznej i funkcjonalnej analizy danych.

Prof. Kosiorowski jest autorem i współautorem siedemdziesięciu recenzowanych prac naukowych publikowanych przez renomowanych wydawców takich jak Springer-Verlag, Physica-Verlag, International Statistical Institute, posiada publikacje z zakresu statystyki w czasopismach z listy A MNiSW i renomowanych czasopismach z listy B MNiSW. Jest autorem monografii naukowej oraz dwóch podręczników z zakresu statystyki. Prof. Kosiorowski jest autorem i współautorem ponad siedemdziesięciu referatów wygłaszanych na prestiżowych konferencjach międzynarodowych i zagranicznych i krajowych. Jest współautorem profesjonalnego i darmowego pakietu statystycznego środowiska R o nazwie DepthProc. Wypromował kilkunastu magistrów w tym dwóch będących stypendystami Ministra Nauki i Szkolnictwa Wyższego. Opiekował się trójką doktorantów, jest promotorem dwóch rozpraw doktorskich. Prowadził zajęcia w języku polskim i angielskim na wszystkich rodzajach studiów. Był współorganizatorem cyklicznego seminarium naukowego nt zastosowań statystyki odpornej i nieparametrycznej w ekonomii. Wielokrotnie Sporządzał recenzje dla prestiżowych czasopism statystycznych z listy A MNiSW oraz prestiżowych czasopism statystyczno-ekonometrycznych z listy B MNiSW. Był kierownikiem grantu NCN i grantu KBN.


prof. UEK dr hab. Paweł Lula

prof. UEK dr hab. Paweł Lula

Kierownik Katedry Systemów Obliczeniowych (Wydział Zarządzania Uniwersytetu Ekonomicznego w Krakowie).

Zainteresowania naukowe: eksploracyjne metody analizy danych, analiza dokumentów tekstowych, systemy informacyjne.

Autor ponad 150 publikacji naukowo-badawczych;Członek Sekcji Klasyfikacji i Analizy Danych Polskiego Towarzystwa Statystycznego.


dr hab. prof. nadzw. Dariusz Put

dr hab. prof. nadzw. Dariusz Put

Specjalista w zakresie baz danych i zarządzania zasobami informacyjnymi. Jego zainteresowania obejmują także problematykę modelowania danych, klasyczne, semistrukturalne, XML-owe oraz analityczne bazy danych, hurtownie danych, metody integracji zasobów organizacji, zarządzanie danymi w środowisku heterogenicznym, języki zapytań, metody wyszukiwania informacji. Wieloletni dydaktyk, prowadzi przede wszystkjim zajęcia o charakterze praktycznym. Autor ponad 80 publikacji, głównie z dziedziny baz danych i zarządzania zasobami informacyjnymi.


dr hab. Sławomir Śmiech

dr hab. Sławomir Śmiech

 Absolwent matematyki na Uniwersytecie Jagiellońskim. Pracuje w Katedrze Statystyki na Uniwersytecie Ekonomicznym w Krakowie. W roku 2007 otrzymał doktorat, a w 2016 habilitację z ekonomii. Jest kierownikiem i wykonawcą kilku grantów Narodowego Centrum Nauki. Jego zainteresowania badawcze obejmują rynki energii, rynki towarowe oraz ich relacje ze sferą realną i finansową. Opublikował kilkanaście prac w wiodących, międzynarodowych czasopismach z zakresu ekonomii i ekonomii środowiska.


...

Kontakt

Jeśli macie Państwo pytania, wątpliwości dotyczące studiów prosimy o wypełnienie poniższego formularza.

Prześlemy dodatkowe infomacje odnośnie studiów.

Pola oznaczone * są obowiązkowe

*
*
*
*

Wysyłając powyższy formularz potwierdzam, że zapoznałam/-łem się z klauzują informacyjną dotyczącą przetwarzania danych osobowych

Wyrażam zgodę na przetwarzanie moich danych osobowych zawartych w formularzu w celach marketingowych prowadzonych przez Uniwersytet Ekonomiczny w Krakowie – Krakowską Szkołę Biznesu zgodnie z art. 6 ust. l lit. a ogólnego rozporządzenia o ochronie danych osobowych (RODO). *

UEK KSB

KRAKOWSKA SZKOŁA BIZNESU UEK
Uniwersytet Ekonomiczny w Krakowie
ul. Rakowicka 27, 31-510 Kraków

Kontakt: 
tel.: 12 293 55 61 Biuro studiów podyplomowych    
tel.: 12 293 75 53 Biuro studiów MBA
e-mail: ksb@uek.krakow.pl

facebook   Linkedin