[DM]-2017-2018-Vjezbe-03-[R, ETL,]

Description
89

Please download to get full document.

View again

of 2
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Information
Category:

Documents

Publish on:

Views: 12 | Pages: 2

Extension: PDF | Download: 0

Share
Transcript
  PREDMET:  Data Mining   AK. GOD. :  2017/2018   RESURS:  Laboratorijsk  a vježba 3   DATUM OBJAVE:  23.03.2018 LABORATORIJSKA VJEŽB A 3 ETL i obrada podataka u R-u Cilj vježbi: ▪   Upoznavanje sa vektorima i data frame  tipom podataka u R ▪   Upoznavanje sa ETL konceptom ▪   Import podataka u R iz više izvora   ▪   Transformacija podataka u oblik pogodniji za obradu ▪   Osnovna obrada podataka u R-u ▪   Pohrana obrađenih podataka   Napomena: Prije izrade vježbe je obavezno pročitati predavanja vezana za tematiku vježbe  i upoznati se sa osnovnim konceptima ETL-a i R jezika radi poticanja diskusije na vježbama.   Cilj ovih vježbi jeste da se studentima koncepti izlagani na predavanju povežu sa konkretnim  primjerima zadataka i primjerima iz prakse.  Zadatak 1 U prilogu za prvi zadatak data su dva dataseta koji sadrže podatke o 56 svjetskih avio - kompanija i njihovim nesrećama u periodima ’85 - ’99 i ’00 - ’14 respektivno. Prvi dataset je u .csv, a drugi u .rds datoteci. Potrebno je izvršiti import oba dataseta u R. Nakon importa,  potrebno je: ▪   Uvezati dva učitana dataseta u jedan data frame   ▪   Upoznati podatke i odrediti zna čenje svake kolone   ▪   Dodati novu kolonu u kojoj će za svaku kompaniju biti zbir žrtava iz oba perioda   ▪   Sortirati data frame  po novokreiranoj koloni i utvrditi najsigurniju i najmanje sigurnu aviokompaniju ▪   Iscrtati dijagram koji povezuje ASK kolonu i svaku od ostalih kolona. Šta se može zaključiti?  Postoji li neki trend? ▪   Eksportovati podatke u .csv datoteku. Zadatak 2 U prilogu za drugi zadatak data su četri dataseta. Potrebno je izvršiti import svih datasetova u R. Nakon importa, potrebno je: ▪   Odrediti kakve  podatke sadrži svaki od njih i njihovo značenje    ▪   U kontekstu skladišta podataka , odrediti šta svaki od datasetova predstavlja , te nacrtati odgovarajuću star šemu   ▪    Na osnovu nacrtane star šeme kreirati OLAP kocku iz učitanih podataka koristeći komandu: revenue_cube <- tapply(sales_fact$amount, sales_fact[,c( prod , month , year , lo c )], FUN=function(x){ return (sum(x))})   ▪   Interpretirati značenje prethodne komande   ▪   Prikazati dimenzije i ćelije novokreirane OLAP kocke i odrediti pitanja na koja se može odgovoriti Zadatak 3 Potrebno je u MySQL bazu podataka importovati .sql datoteku korištenu u prve dvije vježbe. Koristeći R, potrebno je kreirati konekciju na bazu (paketi DBI i RMySQL), te učitati svaku tabelu u svoj data frame. Za ovako učitane podatke  potrebno je: ▪   Pregledati svaki data frame i utvrditi informacije koje bi mogle biti korisne nekom menadžmentu   ▪   Identificirati podatke koji ulaze u tabelu činjenica, te kreirati tu tabelu   ▪   Identificirati dimenzije, te kreirati tabele dimenzija. Uzeti u obzir da primarni ključ svake dimenzije mora biti strani ključ u tabeli činjenica   ▪   Iz ovih tabela, te koristeći komandu iz prethodnog zadatka, kreirati OLAP kocku   ▪   Prikazati dimenzije i ćelije kreirane OLAP kocke   Šema baze podataka je prikazana na slici 1.   Slika 1    –    ER šema baze podataka sistema iz koje se kreira OLAP kocka
Related Search
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks