Python untuk Data Wrangling

Slides:



Advertisements
Presentasi serupa
PENGENALAN MYSQL Musdalifah DJ.
Advertisements

BASIS DATA.
FAJAR Y. ZEBUA  Menurut Fathansyah (1992, p2) : 1. Himpunan kelompok data (arsip) yang saling berhubungan yang diorganisasi sedemikian.
OLAP - PERTEMUAN 8 – OLAP.
BASIS DATA LANJUTAN.
DATABASE ADMINISTRATION Pertemuan ke-10. Data Movement and Distribution source : Database Administration the complete guide to practices and procedures.
ARRAY (Lanjutan).
OBJECT ORIENTED PROGRAMMING
ARRAY Dr. Lily Wulandari.
© aSup-2007 PENGENALAN SPSS   1 INTRODUCTION to SPSS Statistical Package for Social Science.
KONSEP DAN ARSITEKTUR SISTEM BASIS DATA
Internet Programming MySQL
Pemrogramn Berorientasi Obyek MySQL
Pemrograman Dasar Java
Pemrosesan Teks Klasterisasi Dokumen Teknik Informatika STMIK GI MDP 2013 Shinta P.
Tutorial Matlab Ref : Analisa Numerik Tutorial Matlab Ref :
Pertemuan 2 Socket Introduction
Algoritma dan Struktur Data
Array dan String.
Array adalah struktur data yang memiliki banyak data yang disimpan pada satu nama variabel dan tipe data yang sama.
Structure Data - Array Pertemuan 7 Matakuliah: T0456 / Algoritma dan Metode Object Oriented Programming Tahun: 2007.
Clustering. Definition Clustering is “the process of organizing objects into groups whose members are similar in some way”. A cluster is therefore a collection.
Pertemuan 4 Konsep Dasar SPK (02)
Testing Implementasi Sistem Oleh :Rifiana Arief, SKom, MMSI
Pemrograman Berorientasi Obyek Lanjut (IT251)
INTRODUCTION TO SPSS Statistical Package for Social Science 1.
Rekayasa Perangkat Lunak (Software Engineering)
METHOD, ARRAY DAN STRING
4- Classification: Logistic Regression 9 September 2015 Intro to Logistic Regression.
Pengenalan Database MySQL
Algoritma & PEMROGRAMAN 2B (Visual basic)
Tipe Data Lecture 8.
Tipe Data By Serdiwansyah N. A..
PENGANTAR SQL MI2143 – Dasar SQL Disusun oleh:
Konsep Teknologi Informasi B
KONSEP DAN ARSITEKTUR SISTEM BASIS DATA
Pertemuan 4 PROGRAMMING LANGUAGE.
Sistem Basis Data Pendahuluan
Data Mining.
Materi 1. Konsep dasar, pembuatan dan aplikasi multimedia
Array.
Pertemuan 04 Materi: Informasi dan database Sumber materi:
Sistem Basis Data (Kuliah 2)
02 |Introduction to OpenGL
Pertemuan 2 Database Environment
Algoritma dan Struktur Data
Introduction to Database Management System Pertemuan 01
PEMROGRAMAN TERAPAN (MATLAB)
Praktikum 1 (pengenalan matlab dan pemograman)
Diskusi Anggaplah saudara bertanggung jawab untuk menyeleksi DBMS yang akan dibeli oleh perusahaan ditempat saudara bekerja. Sebagai latihan mulailah merumuskan.
Biodata…… Nama : Muhammad Yunus Alamat : Getap Asal : Sakra Lotim
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Pengenalan mySQL database
Pemrograman, Bahasa C dan Jenis Data Utama
02 |Introduction to OpenGL
Concept Information Systems
SQL Lite Disusun Oleh : Andian Ramadan ( )
SQL Lite Disusun Oleh : Muhammad Hafidz A
Pengantar Basis Data Pengantar Basis Data.
DATA MINING with W E K A.
Latihan Uraikan fungsi setiap kata pada SELECT statement. Apakah yang membatasinya? Apa hambatan memakai aggregate functions pada SELECT statement? Kenapa.
Algoritma Pemrograman
KONSEP DAN ARSITEKTUR SISTEM BASIS DATA
FAJAR Y. ZEBUA Pertemuan vi Database & MySQL FAJAR Y. ZEBUA
Data Statistika diPYTHON
Pemrograman dengan Python syntax, datatype
Plotting dengan Python
02 |Introduction to OpenGL
FAJAR Y. ZEBUA  Menurut Fathansyah (1992, p2) : 1. Himpunan kelompok data (arsip) yang saling berhubungan yang diorganisasi sedemikian.
KELOMPOK 6 Arranged by Group 3 Adam Pangestu ( ) Muhammad Arif( ) Mohammad Lutfi( ) Mala Sari( ) Noor Fajri( )
Transcript presentasi:

Python untuk Data Wrangling Muhammad Hilman Fatoni

Data Wrangling - Definisi Data wrangling adalah proses cleaning dan unifying kumpulan data (data set) yang komplek dan messy untuk memudahkan akses dan analisis. Dengan jumlah data dan sumber data yang tumbuh dan berkembang dengan cepat, maka penting bagi sejumlah besar data yang tersedia untuk diorganisasikan agar bisa analisis. Proses ini biasanya mencakup pengubahan / pemetaan data secara manual dari satu bentuk mentah ke format lain untuk memungkinkan konsumsi dan pengorganisasian data yang lebih nyaman.

Data Wrangling Mengolah Data: Programs Scripts Data Documentation Text Images Movies

Programs dan Scripts Reproducibility Code snapshots Documentation Archiving Version control RCS (Revision Control System), Subversion Feature creep Expansion vs modification

Manajemen Data Size matters (Ukuran itu penting) Apa yang ingin disimpan? Apa yang susah direproduksi? Jangka pendek vs jangka panjang Pengarsipan SCF (Ship Contruction File) archive system Back up ke external drive

Back to Pipeline Data Matlab VTK OpenGL Maya IDL Paraview OSG Photoshop Gnuplot DAFFIE Performer Premier Xmgrace Excel Sumber : http://www.bu.edu/tech/research/training

Data Anda  Sci-vis Package Minimal conversion, atau usahakan dalam bentuk dasar Headers Reformatting ASCII vs binary Data type (int, single, double) Endian-ness Example – exporting dari Matlab ke VTK(Visualization Tool Kit)

Array Layout 2-D example, Matlab >> a(1,1) = 11; 11 12 21 22 >> a1d = reshape(a,4,1) a1d = 11 21 12 22

Array Layout 2-D example, C-Language Output: #include <stdio.h> main() { int m[2][2]; int *pm = m; int i; m[0][0] = 11; m[0][1] = 12; m[1][0] = 21; m[1][1] = 22; for (i=0; i<4; i++) printf("%d\n", pm[i]); } Output: 11 12 21 22

Endian-ness Big endian Little Endian

Larger Picture

Librari Python untuk Data Science Toolbox atau library populer pada Python : NumPy SciPy Pandas SciKit-Learn Library visualisasi matplotlib Seaborn dan lain-lain

Librari Python untuk Data Science NumPy: memperkenalkan objek untuk array dan matriks multidimensi, serta fungsi yang memungkinkan untuk dengan mudah melakukan operasi matematika dan statistik lanjut pada objek-objek tersebut memberikan vektorisasi operasi matematika pada array dan matriks yang secara signifikan meningkatkan kinerja/performa banyak library python menggunakan NumPy introduces objects for multidimensional arrays and matrices, as well as functions that allow to easily perform advanced mathematical and statistical operations on those objects provides vectorization of mathematical operations on arrays and matrices which significantly improves the performance many other python libraries are built on NumPy Link: http://www.numpy.org/

Librari Python untuk Data Science SciPy: kumpulan algoritma untuk aljabar linier, persamaan diferensial, integrasi numerik, optimisasi, statistik, dan lainnya bagian dari SciPy Stack built on NumPy collection of algorithms for linear algebra, differential equations, numerical integration, optimization, statistics and more part of SciPy Stack built on NumPy Link: https://www.scipy.org/scipylib/

Librari Python untuk Data Science Pandas: menambahkan data structure dan tools yang dirancang untuk bekerja dengan data seperti tabel (mirip dengan Series dan Data Frames dalam R) menyediakan alat untuk manipulasi data: reshaping, merging, sorting, slicing, aggregation, dll. memungkinkan handling data yang hilang adds data structures and tools designed to work with table-like data (similar to Series and Data Frames in R) provides tools for data manipulation: reshaping, merging, sorting, slicing, aggregation etc. allows handling missing data Link: http://pandas.pydata.org/

Librari Python untuk Data Science SciKit-Learn: menyediakan algoritma machine learning : classification, regression, clustering, model validation etc. built on NumPy, SciPy dan matplotlib provides machine learning algorithms: classification, regression, clustering, model validation etc. built on NumPy, SciPy and matplotlib Link: http://scikit-learn.org/

Librari Python untuk Data Science matplotlib: python 2D plotting library yang menghasilkan angka-angka dengan format public dalam berbagai format hardcopy satu set fungsi yang mirip dengan MATLAB line plots, scatter plots, barcharts, histograms, pie charts, dll. tingkat low level; upaya lebih diperlukan untuk menciptakan visualisasi lanjut python 2D plotting library which produces publication quality figures in a variety of hardcopy formats  a set of functionalities similar to those of MATLAB line plots, scatter plots, barcharts, histograms, pie charts etc. relatively low-level; some effort needed to create advanced visualization Link: https://matplotlib.org/

Librari Python untuk Data Science Seaborn: based on matplotlib  menyediakan interface high level untuk menggambar statistical graphics yang atraktif Mirip (in style) dengan library populer ggplot2 in R Link: https://seaborn.pydata.org/

Data Wrangling - Join, Combine, dan Reshape Hierarchical Indexing Reordering dan Sorting Levels Summary Statistics dengan Level Combining dan Merging Datasets Database-Style DataFrame Joins Merging on Index

Hierarchical Indexing Hierarchical Indexing merupakan fitur penting dari panda yang memungkinkan user memiliki banyak (dua atau lebih) tingkat indeks pada suatu sumbu. Secara abstrak, hal tersebut menyediakan cara bagi user agar bekerja dengan data dimensi yang lebih tinggi dalam bentuk dimensi yang lebih rendah

Hierarchical Indexing

Hierarchical Indexing - Reordering dan Sorting Levels Terkadang user perlu mengatur ulang urutan level pada sumbu atau mengurutkan data oleh nilai-nilai dalam satu tingkat tertentu. Swaplevel membutuhkan dua nomor atau nama level dan mengembalikan objek baru dengan level yang dipertukarkan (tetapi datanya sebaliknya tidak berubah)

Combining dan Merging Datasets - Database-Style DataFrame Joins Merge or join operations menggabungkan datasets dengan menghubungkan baris menggunakan satu atau lebih keys. Operasi ini adalah penting terhadap relational databases. Fungsi merge pada pandas adalah titik penting untuk menggunakan algoritma ini pada data user

Combining dan Merging Datasets - Database-Style DataFrame Joins

Combining dan Merging Datasets – Merging dengan Index

TERIMA KASIH