"Data Science adalah bidang interdisipliner yang menggunakan metode, proses, algoritma, dan sistem ilmiah untuk mengekstrak pengetahuan dari data terstruktur dan tidak terstruktur."
- IBM
"Data Science menggabungkan statistik, analisis data, machine learning, dan metode terkait untuk memahami dan menganalisis fenomena aktual dengan data."
- Wikipedia
Menggabungkan matematika, statistik, ilmu komputer, dan domain expertise
Keputusan dan insight berdasarkan analisis data empiris
Menggunakan algoritma dan machine learning untuk automasi
Fokus pada penemuan pola dan insight dari data
Dapat menangani data dalam volume besar (Big Data)
Kemampuan untuk memprediksi tren dan perilaku masa depan
Memahami tujuan bisnis dan mendefinisikan masalah yang akan dipecahkan
Mengumpulkan data dan memahami karakteristik data yang tersedia
Membersihkan, mengintegrasikan, dan memformat data untuk analisis
Membangun dan melatih model machine learning atau statistik
Mengevaluasi performa model dan validasi hasil
Implementasi model ke production environment
Interactive development environment
Data manipulation library
Machine learning library
Deep learning framework
Jumlah data yang sangat besar (terabytes hingga petabytes)
Kecepatan data dihasilkan dan diproses secara real-time
Beragam jenis data (structured, semi-structured, unstructured)
Kualitas dan akurasi data yang dapat dipercaya
Nilai bisnis yang dapat diekstrak dari data
Data Visualization adalah representasi grafis dari informasi dan data menggunakan elemen visual seperti chart, graph, dan map untuk memudahkan pemahaman pola, tren, dan insight.
Perbandingan kategori
Tren over time
Proporsi data
Korelasi variabel
Data Scientist adalah profesional yang menggunakan scientific methods, processes, algorithms, dan systems untuk mengekstrak pengetahuan dan insights dari data strukturured dan unstructured.
Programming (Python/R), Statistics, Machine Learning, SQL, Data Visualization
Domain knowledge, Problem solving, Communication, Project management
Mengumpulkan, membersihkan, dan menganalisis data
Membangun dan melatih model machine learning
Membuat visualisasi dan dashboard untuk stakeholders
Menginterpretasi hasil dan memberikan rekomendasi bisnis
Implementasi model ke production environment
Automated Machine Learning yang memungkinkan non-experts untuk membangun model ML dengan mudah
AI yang dapat menjelaskan proses decision making dan reasoning-nya kepada manusia
Quantum computing untuk memproses data dalam skala yang sangat besar dengan kecepatan tinggi
Analisis data langsung di device edge (IoT, mobile) tanpa perlu transfer ke cloud
Teknik machine learning yang menjaga privacy data seperti Federated Learning dan Differential Privacy
AI yang dapat berinteraksi dengan manusia menggunakan natural language processing
Pilih satu industry (healthcare, finance, e-commerce, dll.) dan buat analisis tentang bagaimana Data Science dapat diterapkan untuk memecahkan masalah bisnis di industry tersebut.
Minggu depan sebelum perkuliahan dimulai
"In God we trust, all others must bring data."
- W. Edwards Deming