DAFTAR
ISI
BAGIAN I LANDASAN TEORI
Mahadata, lebih dikenal dengan istilah bahasa Inggris big data, adalah istilah
umum untuk segala himpunan data (data set) dalam jumlah yang sangat besar, rumit
dan tak terstruktur sehingga menjadikannya sukar ditangani apabila hanya
menggunakan perkakas manajemen basis data biasa atau aplikasi pemroses data tradisional belaka. Mahadata(Big
data) juga dapat diartikan sebagai
pertumbuhan data dan informasi yang eksponensial dengan kecepatan dalam
pertambahannya dan memiliki data yang bervariasi sehingga menyebabkan tantangan
baru dalam pengolahan sejumlah data besar yang heterogen dan mengetahui bagaimana
cara memahami semua data tersebut[1].
Berikut
merupakan pengertian big data diruju dari pendapat para ahli,
·
Menurut (Eaton, Dirk, Tom, George, & Paul) Big Data merupakan istilah yang berlaku untuk
informasi yang tidak dapat diproses atau dianalisis menggunakan alat
tradisional.
·
Menurut (Dumbill, 2012) , Big Data adalah data yang
melebihi proses kapasitas dari kovensi sistem database yang ada. Data terlalu
besar dan terlalu cepat atau tidak sesuai dengan struktur arsitektur database
yang ada. Untuk mendapatkan nilai dari data, maka harus memilih jalan altenatif
untuk memprosesnya.
Berdasarkan pengertian para ahli di atas, dapat
disimpulkan bahwa Big Data adalah data yang
memiliki volume besar sehingga tidak dapat diproses menggunakan alat tradisional
biasa dan harus menggunakan cara dan alat baru untuk mendapatkan nilai dari
data ini.
Sebelum
mempelajari suatu hal tentu diperlukan untuk memahami asal muasal atau sejarah
dari hal yang ingin dipelajari tersebut. Berikut urutannya sejarah big data;
§
1944 – Fremont Rider, Pustakawan
universitas Wesleyan. Dia memperkirakan bahwa Perpustakana yang ada di amerika
serikat ukurannya meningkat dua kali lipat setiap 16 tahun
§
1961 – Derek Price. Dia
mendiagramkan pertumbuhan pengetahuan ilmiah dengan cara melihat jumlah
pertumbuhan jurnal ilmiah dan makalah
§
1967 – B.A. Marron dan P.A.D. De
Maine menerbitkan “Automatic data compression” dalam Komunikasi dari ACM, yang
menyatakan bahwa “ledakan informasi” tercatat dalam beberapa tahun terakhir
membuatnya penting bahwa persyaratan penyimpanan untuk semua informasi harus
dijaga agar tetap minimum.
§
1971 – Arthur Miller Menulis dalam “The
Assault on Privacy” menyatakan, “Terlalu banyak informasi. pengurus
tampaknya mengukur seorang pria seimbang dengan jumlah bit kapasitas
penyimpanan berkas itu akan mengisi.”
§
1975 – Departemen Pos dan
Telekomunikasi di Jepang mulai melakukan Arus Informasi Sensus, pelacakan
volume informasi yang beredar di Jepang (ide pertama kali diusulkan dalam
makalah 1969)
§
1980 – I.A. Tjomsland memberikan
ceramah berjudul “Where do we go from here?” Di IEEE Keempat Symposium on
Mass Storage Systems, dia mengatakan “Mereka yang terkait dengan perangkat
penyimpanan lama menyadari bahwa Hukum parkinson Pertama dapat diparafrasekan
untuk menggambarkan Industry kami ‘Data mengembang untuk mengisi ruang yang
tersedia’.
§
1981 – Kantor Pusat statistic
hungaria memulai proyek penelitian untuk menjelaskan informasi indsutri negara,
termasuk mengukur Volume informasi dalam bit.
§
1983 – Ithiel de Sola Pool
menerbitkan “Pelacakan Arus Informasi” di Science. Melihat tren pertumbuhan di
17 Media komunikasi utama 1960-1977, ia menyimpulkan bahwa “kata-kata
yang tersedia untuk Amerika (di atas usia 10) melalui media ini tumbuh pada
tingkat 8,9 persen per tahun, kata-kata benar-benar hadir untuk dari media
tersebut tumbuh hanya 2,9 persen per tahun, Pada periode pengamatan, sebagian
besar pertumbuhan arus informasi adalah karena pertumbuhan penyiaran, Tapi menjelang
akhir periode [1977] situasi berubah: media point-to-point yang tumbuh
lebih cepat dari penyiaran.”
Berikut
merupakan karakteristik yang dimiliki oleh Big Data :
Volume
Data yang ada saat
ini berukuran sangat besar. Di tahun 2000 saja tercatat 800,000 petabyte data
tersimpan di seluruh dunia dan angka ini diperkirakan akan mencapai 35
zettabyte di tahun 2020 atau bahkan lebih. big data memiliki
jumlah data yang sangat besar sehingga dalam proses pengolahan data dibutuhkan
suatu penyimpanan yang besar dan dibutuhkan analisis yang lebih spesifik.
Variety
Selain data
relasional, data apa saja yang umum dianalisis? Dengan meledaknya jumlah
sensor, dan perangkat pintar , dan juga teknologi social networking yang
menghasilkan data-data yang akan sulit jika harus disimpan di dalam relasional
database. big data memiliki aliran data yang yang cepat dan real
time.
Velocity
Seberapa cepat kita
dapat memproses data yang ada? Mungkin hal itu yang pertama ada dalam benak
anda ketika anda membaca ini. Namun sebenarnya velocity di sini kita lihat dari
persepsi seberapa cepat kita mampu mendapatkan hasil analisis terhadap aliran
data yang terus mengalir di saat yang hampir bersamaan dengan datangnya data
tersebut.
Seperti data
pergudangan, toko web atau platform TI, infrastruktur untuk data yang besar
memiliki kebutuhan yang unik. Dalam mempertimbangkan semua komponen platform
data yang besar, penting untuk diingat bahwa tujuan akhir adalah untuk dengan
mudah mengintegrasikan data yang besar dengan data perusahaan Anda untuk
memungkinkan Anda untuk melakukan analisis mendalam pada set data gabungan.
Infrastructure
Requirements
– Data
Acquisition
Tahap akuisisi adalah salah satu perubahan besar
dalam infrastruktur pada hari-hari sebelum big data. Karena big
data mengacu pada aliran data dengan kecepatan yang lebih tinggi dan ragam
yang bervariasi, infrastruktur yang diperlukan untuk mendukung akuisisi data
yang besar harus disampaikan secara perlahan, dapat diprediksi baik di dalam
menangkap data dan dalam memprosesnya secara cepat dan sederhana, dapat
menangani volume transaksi yang sangat tinggi , sering dalam lingkungan
terdistribusi, dan dukungan yang fleksibel, struktur data dinamis
– Data
Organization
Dalam istilah Data pergudangan klasik, pengorganisasian
data disebut integrasi data. Karena ada volume/jumlah data yang sangat besar,
ada kecenderungan untuk mengatur data pada lokasi penyimpanan aslinya, sehingga
menghemat waktu dan uang dengan tidak memindah-midahkan data dengen volume yang
besar. Infrastruktur yang diperlukan untuk mengatur data yang besar harus mampu
mengolah dan memanipulasi data di lokasi penyimpanan asli. Biasanya diproses
didalam batch untuk memproses data yang besar, beragam format,
dari tidak terstruktur menjadi terstruktur.
– Data
Analysis
Karena data tidak selalu bergerak selama fase
organisasi, analisis ini juga dapat dilakukan dalam lingkungan terdistribusi,
di mana beberapa data akan tinggal di mana data itu awalnya disimpan dan
diakses secara transparan dari sebuah data warehouse. Infrastruktur yang
diperlukan untuk menganalisis data yang besar harus mampu mendukung analisis
yang lebih dalam seperti analisis statistik dan data mining, pada data dengan
jenis yang beragam dan disimpan dalam sistem yang terpisah, memberikan waktu respon
lebih cepat didorong oleh perubahan perilaku; dan mengotomatisasi keputusan
berdasarkan model analitis.
Big data dapat dikonsiderasikan sebagai suatu
investasi, dimana implikasi yang nyata baru dapat dirasakan apabila proses
penelitian dan interpretasi big data telah dirampungkan dan menghasilkan
strategi bisnis yang solutif dan implementatif.
Manfaat pertama dari
pemanfaatan big data adalah perusahaan memiliki kesempatan untuk mengambil
keputusan bisnis yang didasarkan atas data yang ilmiah dan terukur, bukan
berdasarkan common sense, intuisi, atau kebijaksanaan yang
bersifat praktis.
Selama
bertahun-tahun, HR telah menggunakan data tidak terstruktur dari jawaban
karyawan dalam survei engagement, performance review, dll. Di era big data ini,
data tak terstruktur tersebut datang dari sumber dalam dan luar organisasi,
termasuk dari social media, blog, wiki, email, dan lain-lain. Semua sumber ini
akan memberikan semakin banyak insight terhadap keterlibatan karyawan terhadap
perusahaan.
Big Data sendiri diimplementasikan hampir ke semua
lini kehidupan masyarakat. Seperti dalam dunia Bisnis, kesehatan, pendidikan,
pariwisata, ekonomi, sosial, budaya ,politik dsb.
Traveloka
mengadakan meetup data untuk pertama kalinya dengan tema "How to Feed Data
Hungry Organization". Pembahasannya kebanyakan berkutat dengan ekosistem
data yang dibangun di Traveloka seperti teknologi apa saja yang digunakan untuk
penyimpanan, pengolahan maupun analisis data. Setidaknya ada 40 lebih, data
scientist/analyst/engineer di Traveloka yang dikomandoi oleh Ainun Najib dengan
tim data engineer dikomandoi oleh Rendy B. Junior dan
tim data science dikomandoi oleh Dr. Philip Thomas. Mari kita
kupas beberapa teknologi dan perangkat yang digunakan oleh tim data Traveloka.
Dplyr dan data.table merupakan library R
yang digunakan untuk data wrangling, mirip seperti query SQL.
Untuk readiblity, dplyr lebih baik dibandingkan data.table.
Sedangkan, data.table lebih cepat untuk proses data yang lebih
besar. Dengan adanya sparklyr pun, query data
dari Data Lake dengan gaya dplyr bisa lebih digunakan secara
langsung ketimbang dengan bahasa SQL. Selain itu, library R
lain yang digunakan di Traveloka ada ggplot2 untuk visualisasi
data statis, Shiny untuk visualisasi data interaktif, dan caret maupun e1071 untuk
machine learning.
Python
Sebagai multipurpose
language, Python bisa digunakan untuk banyak hal. Di Traveloka, Python
digunakan untuk proses ETL, lempar data antar database,
transformasi data/pembersihan maupun machine learning. Dibandingkan
R, Python memiliki ekosistem machine learning yang lebih padu
dengan adanya scikit-learn. Untuk data wrangling,
ada pandas dengan filosofi seperti halnya kelas data
frame yang ada di R. Terlebih lagi, Python juga digunakan untuk
keperluan deep learning via TensorFlow yang memang a
big no kalau dilakukan di R. Saya pun penasaran seperti apakah use
case deep learning yang ada di Traveloka.
Dataiku
Mungkin
ada data scientist yang terlalu R-ish maupun Python-ish, dan
disinilah Dataiku berperan sebagai platform agar sesama data
scientist saling berkolaborasi meskipun bahasa pemrograman yang
digunakan berbeda-beda. Bukan hanya itu, Dataiku juga bisa menjadi jembatan
untuk data engineer, data scientist maupun business
analyst untuk saling berkolaborasi.
Database dan
Penyimpanan
Data
disimpan di Cloud via AWS maupun Google Cloud. Ada berbagai macam database yang
digunakan di Traveloka baik RDBMS maupun NoSQL dengan tujuan yang juga
berbeda-beda. Untuk RDBMS, ada MemSQL, Redshift dan PostgreSQL. Sedangkan untuk
NoSQL, ada DynamoDB dan MongoDB. Untuk query engine dari data
lake AWS S3 bisa menggunakan Qubole, Presto, Hive atau mungkin menggunakan
SparkSQL.
Lainnya
Traveloka
juga menggunakan bahasa pemgrograman seperti Julia yang bisa dibilang masih
baru. Java yang merupakan core dari Big Data juga digunakan
untuk membuat aplikasi untuk presentation layer yang
kemungkinan besar digunakan business users. Ada juga beberapa
perangkat lainnya yang terdengar asing bagi saya seperti Domo, Keboola,
Holistics serta Periscope Data.
- Penghematan
biaya, Teknologi analisis Big data berbasis cloud membawa pengurangan
biaya yang signifikan dalam hal untuk menyimpan data set dalam jumlah
besar, selain mereka dapat mengidentifikasi cara-cara yang lebih efisien
dalam melakukan bisnis.
- Lebih
cepat dan lebih baik
dalam pengambilan keputusan, dengan kecepatan teknologi big data dapat melakukan analisis yang dikombinasikan dengan kemampuan untuk
menganalisis berbagai macam sumber data baru, membuat bisnis mampu
menganalisis informasi dengan cepat dan membuat keputusan berdasarkan
hasil analisis tersebut.
- Melahirkan
produk dan pelayanan baru, dengan kemampuan mengukur kebutuhan dan
kepuasan pelanggan mendatangkan keunggulan dari bisnis untuk menciptakan
produk dan layanan baru yang sesuai dengan keinginan dan kebutuhan dari
pelanggan.
- Menganalisis perilaku konsumen dalam bepergian
maupun berbelanja di fitur e-commerce Traveloka.
- Meningkatkan akurasi proyeksi penjualan dan
produk layanan traveloka.
- Membantu memperkirakan pendapatan dengan lebih
akurat.
- Memecahkan pola perilaku konsumen.
- Membantu menyediakan layanan baru yang sesuai
dengan kebutuhan konsumen.
- Terjaminnya data yang akan menjadi informasi baik
bagi pihak manajemen maupun karyawan.
- Membantu menciptakan peluang usaha baru.
- Traveloka mempunyai fitur pada Halaman
awal sangat rumit untuk pencarian. Setidaknya traveloka menyeimbangkan antara fitur dengan
teknologi Data Resources mereka yang sudah cukup bagus.
- Fokus kepada situs boking domestic ,
sangat disayangkan pengembangkan Big Data yang mereka miliki tidak mampu
mengakomodir semua layanan baik domestik maupun Internasional.
- Pencarian hotel masih sangat kecil
informasi. Traveloka mempunyai komponen Big Data yang baik tapi tidak
mampu mengintegrasikan platform informasi perhotelan dengan memadai.
- Traveloka tidak menyediakan layanan
paket traveling padahal dengan adanya Big Data mereka mampu meningkatkan
keuntungan kompetitif.
- Jika terjadi pembatalan penerbagan atau
tiket oleh customer , pihak traveloka tidak sigap untuk melakukan refund
money.
- Traveloka sebaiknya sigap dan cepat
dalam mengolah dan menganalisis data yang diperoleh untuk meningkatkan
kompetitif apalagi banyak ecommerce yang mulai booming.
- Melakuakn maintenance terhadap aplikasi
fitur layanan.
- Melakukan integrasi data dengan pelbagai
platform akomodasi agar dapat bertukar informasi dengan cepat.
- Memanfaatkan penggunaan Big Data dengan
berani merambah ke seluruh dunia.
- Mengembangkan bisnis baru yang dapat
menyediakan paket layanan traveling dan akomodasi.
- Membangun pusat Data analysis khusus
untuk era 4.0 dan usaha menyiapkan bisnis yang lebih kompetitif di masa
yang akan datang. Karena banyak fintech ata pn aplikasi pasaran yang
menyediakan fitur traveling dan akomodasi.
(t.thn.). Diambil kembali dari wikipedia: https://id.wikipedia.org/wiki/Mahadata
ARDIYANTO. (2016, maret).
Diambil kembali dari kelebihan dan kekurangan Trtaveloka:
http://ardiyanto14002.blogspot.com/2016/03/32-contoh-kelebihan-dan-kekurangan-di.html
Arni, U. D. (2018,
desember 17). Diambil kembali dari garudacyber:
https://garudacyber.co.id/artikel/1446-kelebihan-dan-kekurangan-aplikasi-traveloka
MAULANA.S, I. (2016,
nofember). Diambil kembali dari implementasi big data:
http://ilhammaulanasuryani.blogspot.com/2016/11/implementasi-big-data.html
Puruhita. (2016, Februari
6). Diambil kembali dari Informasi Seputar Dunia Informatika:
https://puruhitas.blog.uns.ac.id/2016/02/06/409/
Ridha, R. (2018). Diambil
kembali dari MENGINTIP EKOSISTEM DATA DI TRAVELOKA:
https://datascience.or.id/article/Mengintip-Ekosistem-Data-di-Traveloka-5a8fa6e6#
[1]
Wikipedia , “ Big Data”, diakses dari https://id.wikipedia.org/wiki/Mahadata , pada tanggal 20 Februari 2019 pukul 14.28
0 Response to "Big Data pada Traveloka Corporation"
Post a Comment