Big Data pada Traveloka Corporation

BAGIAN I LANDASAN TEORI


Mahadata, lebih dikenal dengan istilah bahasa Inggris big data, adalah istilah umum untuk segala himpunan data (data set) dalam jumlah yang sangat besar, rumit dan tak terstruktur sehingga menjadikannya sukar ditangani apabila hanya menggunakan perkakas manajemen basis data biasa atau aplikasi pemroses data tradisional belaka. Mahadata(Big data)  juga dapat diartikan sebagai pertumbuhan data dan informasi yang eksponensial dengan kecepatan dalam pertambahannya dan memiliki data yang bervariasi sehingga menyebabkan tantangan baru dalam pengolahan sejumlah data besar yang heterogen dan mengetahui bagaimana cara memahami semua data tersebut[1].
            Berikut merupakan pengertian big data diruju dari pendapat para ahli,
·         Menurut (Eaton, Dirk, Tom, George, & Paul) Big Data merupakan istilah yang berlaku untuk informasi yang tidak dapat diproses atau dianalisis menggunakan alat tradisional.
·         Menurut (Dumbill, 2012) , Big Data adalah data yang melebihi proses kapasitas dari kovensi sistem database yang ada. Data terlalu besar dan terlalu cepat atau tidak sesuai dengan struktur arsitektur database yang ada. Untuk mendapatkan nilai dari data, maka harus memilih jalan altenatif untuk memprosesnya.
          Berdasarkan pengertian para ahli di atas, dapat disimpulkan bahwa Big Data adalah data yang memiliki volume besar sehingga tidak dapat diproses menggunakan alat tradisional biasa dan harus menggunakan cara dan alat baru untuk mendapatkan nilai dari data ini.



Sebelum mempelajari suatu hal tentu diperlukan untuk memahami asal muasal atau sejarah dari hal yang ingin dipelajari tersebut. Berikut urutannya sejarah big data;
§     1944    – Fremont Rider, Pustakawan universitas Wesleyan. Dia memperkirakan bahwa Perpustakana yang ada di amerika serikat ukurannya meningkat dua kali lipat setiap 16 tahun
§     1961    – Derek Price. Dia mendiagramkan pertumbuhan pengetahuan ilmiah dengan cara melihat jumlah pertumbuhan jurnal ilmiah dan makalah
§     1967    – B.A. Marron dan P.A.D. De Maine menerbitkan “Automatic data compression” dalam Komunikasi dari ACM, yang menyatakan bahwa “ledakan informasi” tercatat dalam beberapa tahun terakhir membuatnya penting bahwa persyaratan penyimpanan untuk semua informasi harus dijaga agar tetap minimum.
§     1971    – Arthur Miller Menulis dalam “The Assault on Privacy” menyatakan, “Terlalu banyak informasi. pengurus tampaknya mengukur seorang pria seimbang dengan jumlah bit kapasitas penyimpanan berkas itu akan mengisi.”
§     1975    – Departemen Pos dan Telekomunikasi di Jepang mulai melakukan Arus Informasi Sensus, pelacakan volume informasi yang beredar di Jepang (ide pertama kali diusulkan dalam makalah 1969)
§     1980    – I.A. Tjomsland memberikan ceramah berjudul “Where do we go from here?”  Di IEEE Keempat Symposium on Mass Storage Systems, dia mengatakan “Mereka yang terkait dengan perangkat penyimpanan lama menyadari bahwa Hukum parkinson Pertama dapat diparafrasekan untuk menggambarkan Industry kami ‘Data mengembang untuk mengisi ruang yang tersedia’.
§     1981    – Kantor Pusat statistic hungaria memulai proyek penelitian untuk menjelaskan informasi indsutri negara, termasuk mengukur Volume informasi dalam bit.
§     1983    – Ithiel de Sola Pool menerbitkan “Pelacakan Arus Informasi” di Science. Melihat tren pertumbuhan di 17 Media komunikasi utama 1960-1977, ia menyimpulkan bahwa “kata-kata yang tersedia untuk Amerika (di atas usia 10) melalui media ini tumbuh pada tingkat 8,9 persen per tahun, kata-kata benar-benar hadir untuk dari media tersebut tumbuh hanya 2,9 persen per tahun, Pada periode pengamatan, sebagian besar pertumbuhan arus informasi adalah karena pertumbuhan penyiaran, Tapi menjelang akhir periode [1977] situasi berubah:  media point-to-point yang tumbuh lebih cepat dari penyiaran.”
1.3      Karakteristik Big Data

Berikut merupakan karakteristik yang dimiliki oleh Big Data :
Volume
         Data yang ada saat ini berukuran sangat besar. Di tahun 2000 saja tercatat 800,000 petabyte data tersimpan di seluruh dunia dan angka ini diperkirakan akan mencapai 35 zettabyte di tahun 2020 atau bahkan lebih.  big data memiliki jumlah data yang sangat besar sehingga dalam proses pengolahan data dibutuhkan suatu penyimpanan yang besar dan dibutuhkan analisis yang lebih spesifik.
Variety
          Selain data relasional, data apa saja yang umum dianalisis? Dengan meledaknya jumlah sensor, dan perangkat pintar , dan juga teknologi social networking yang menghasilkan data-data yang akan sulit jika harus disimpan di dalam relasional database. big data memiliki aliran data yang yang cepat dan real time.
Velocity
          Seberapa cepat kita dapat memproses data yang ada? Mungkin hal itu yang pertama ada dalam benak anda ketika anda membaca ini. Namun sebenarnya velocity di sini kita lihat dari persepsi seberapa cepat kita mampu mendapatkan hasil analisis terhadap aliran data yang terus mengalir di saat yang hampir bersamaan dengan datangnya data tersebut.

Seperti data pergudangan, toko web atau platform TI, infrastruktur untuk data yang besar memiliki kebutuhan yang unik. Dalam mempertimbangkan semua komponen platform data yang besar, penting untuk diingat bahwa tujuan akhir adalah untuk dengan mudah mengintegrasikan data yang besar dengan data perusahaan Anda untuk memungkinkan Anda untuk melakukan analisis mendalam pada set data gabungan.
Infrastructure Requirements
– Data Acquisition
          Tahap akuisisi adalah salah satu perubahan besar dalam infrastruktur pada hari-hari sebelum big data. Karena big data mengacu pada aliran data dengan kecepatan yang lebih tinggi dan ragam yang bervariasi, infrastruktur yang diperlukan untuk mendukung akuisisi data yang besar harus disampaikan secara perlahan, dapat diprediksi baik di dalam menangkap data dan dalam memprosesnya secara cepat dan sederhana, dapat menangani volume transaksi yang sangat tinggi , sering dalam lingkungan terdistribusi, dan dukungan yang fleksibel, struktur data dinamis
– Data Organization
          Dalam istilah Data pergudangan klasik, pengorganisasian data disebut integrasi data. Karena ada volume/jumlah data yang sangat besar, ada kecenderungan untuk mengatur data pada lokasi penyimpanan aslinya, sehingga menghemat waktu dan uang dengan tidak memindah-midahkan data dengen volume yang besar. Infrastruktur yang diperlukan untuk mengatur data yang besar harus mampu mengolah dan memanipulasi data di lokasi penyimpanan asli. Biasanya diproses didalam batch untuk memproses data yang besar, beragam format, dari tidak terstruktur menjadi terstruktur.
– Data Analysis
          Karena data tidak selalu bergerak selama fase organisasi, analisis ini juga dapat dilakukan dalam lingkungan terdistribusi, di mana beberapa data akan tinggal di mana data itu awalnya disimpan dan diakses secara transparan dari sebuah data warehouse. Infrastruktur yang diperlukan untuk menganalisis data yang besar harus mampu mendukung analisis yang lebih dalam seperti analisis statistik dan data mining, pada data dengan jenis yang beragam dan disimpan dalam sistem yang terpisah, memberikan waktu respon lebih cepat didorong oleh perubahan perilaku; dan mengotomatisasi keputusan berdasarkan model analitis.


 Big data dapat dikonsiderasikan sebagai suatu investasi, dimana implikasi yang nyata baru dapat dirasakan apabila proses penelitian dan interpretasi big data telah dirampungkan dan menghasilkan strategi bisnis yang solutif dan implementatif.
         Manfaat pertama dari pemanfaatan big data adalah perusahaan memiliki kesempatan untuk mengambil keputusan bisnis yang didasarkan atas data yang ilmiah dan terukur, bukan berdasarkan common sense, intuisi, atau kebijaksanaan yang bersifat praktis.
          Selama bertahun-tahun, HR telah menggunakan data tidak terstruktur dari jawaban karyawan dalam survei engagement, performance review, dll. Di era big data ini, data tak terstruktur tersebut datang dari sumber dalam dan luar organisasi, termasuk dari social media, blog, wiki, email, dan lain-lain. Semua sumber ini akan memberikan semakin banyak insight terhadap keterlibatan karyawan terhadap perusahaan.
Big Data sendiri diimplementasikan hampir ke semua lini kehidupan masyarakat. Seperti dalam dunia Bisnis, kesehatan, pendidikan, pariwisata, ekonomi, sosial, budaya ,politik dsb.



  


Traveloka mengadakan meetup data untuk pertama kalinya dengan tema "How to Feed Data Hungry Organization". Pembahasannya kebanyakan berkutat dengan ekosistem data yang dibangun di Traveloka seperti teknologi apa saja yang digunakan untuk penyimpanan, pengolahan maupun analisis data. Setidaknya ada 40 lebih, data scientist/analyst/engineer di Traveloka yang dikomandoi oleh Ainun Najib dengan tim data engineer dikomandoi oleh Rendy B. Junior dan tim data science dikomandoi oleh Dr. Philip Thomas. Mari kita kupas beberapa teknologi dan perangkat yang digunakan oleh tim data Traveloka.
       Dplyr dan data.table merupakan library R yang digunakan untuk data wrangling, mirip seperti query SQL. Untuk readiblity, dplyr lebih baik dibandingkan data.table. Sedangkan, data.table lebih cepat untuk proses data yang lebih besar. Dengan adanya sparklyr pun, query data dari Data Lake dengan gaya dplyr bisa lebih digunakan secara langsung ketimbang dengan bahasa SQL. Selain itu, library R lain yang digunakan di Traveloka ada ggplot2 untuk visualisasi data statis, Shiny untuk visualisasi data interaktif, dan caret maupun e1071 untuk machine learning. 
Python
Sebagai multipurpose language, Python bisa digunakan untuk banyak hal. Di Traveloka, Python digunakan untuk proses ETL, lempar data antar database, transformasi data/pembersihan maupun machine learning. Dibandingkan R, Python memiliki ekosistem machine learning yang lebih padu dengan adanya scikit-learn. Untuk data wrangling, ada pandas dengan filosofi seperti halnya kelas data frame yang ada di R. Terlebih lagi, Python juga digunakan untuk keperluan deep learning via TensorFlow yang memang a big no kalau dilakukan di R. Saya pun penasaran seperti apakah use case deep learning yang ada di Traveloka.

Dataiku
Mungkin ada data scientist yang terlalu R-ish maupun Python-ish, dan disinilah Dataiku berperan sebagai platform agar sesama data scientist saling berkolaborasi meskipun bahasa pemrograman yang digunakan berbeda-beda. Bukan hanya itu, Dataiku juga bisa menjadi jembatan untuk data engineerdata scientist maupun business analyst untuk saling berkolaborasi.
Database dan Penyimpanan
Data disimpan di Cloud via AWS maupun Google Cloud. Ada berbagai macam database yang digunakan di Traveloka baik RDBMS maupun NoSQL dengan tujuan yang juga berbeda-beda. Untuk RDBMS, ada MemSQL, Redshift dan PostgreSQL. Sedangkan untuk NoSQL, ada DynamoDB dan MongoDB. Untuk query engine dari data lake AWS S3 bisa menggunakan Qubole, Presto, Hive atau mungkin menggunakan SparkSQL.
Lainnya
Traveloka juga menggunakan bahasa pemgrograman seperti Julia yang bisa dibilang masih baru. Java yang merupakan core dari Big Data juga digunakan untuk membuat aplikasi untuk presentation layer yang kemungkinan besar digunakan business users. Ada juga beberapa perangkat lainnya yang terdengar asing bagi saya seperti Domo, Keboola, Holistics serta Periscope Data.


  1. Penghematan biaya, Teknologi analisis Big data berbasis cloud membawa pengurangan biaya yang signifikan dalam hal untuk menyimpan data set dalam jumlah besar, selain mereka dapat mengidentifikasi cara-cara yang lebih efisien dalam melakukan bisnis.
  2. Lebih cepat dan lebih baik dalam pengambilan keputusan, dengan kecepatan teknologi big data dapat melakukan analisis yang dikombinasikan dengan kemampuan untuk menganalisis berbagai macam sumber data baru, membuat bisnis mampu menganalisis informasi dengan cepat dan membuat keputusan berdasarkan hasil analisis tersebut.
  3. Melahirkan produk dan pelayanan baru, dengan kemampuan mengukur kebutuhan dan kepuasan pelanggan mendatangkan keunggulan dari bisnis untuk menciptakan produk dan layanan baru yang sesuai dengan keinginan dan kebutuhan dari pelanggan.
  4. Menganalisis perilaku konsumen dalam bepergian maupun berbelanja di fitur e-commerce Traveloka.
  5. Meningkatkan akurasi proyeksi penjualan dan produk layanan traveloka.
  6. Membantu memperkirakan pendapatan dengan lebih akurat.
  7. Memecahkan pola perilaku konsumen.
  8. Membantu menyediakan layanan baru yang sesuai dengan kebutuhan konsumen.
  9. Terjaminnya data yang akan menjadi informasi baik bagi pihak manajemen maupun karyawan.
  10. Membantu menciptakan peluang usaha baru.





  • Traveloka mempunyai fitur pada Halaman awal sangat rumit untuk pencarian. Setidaknya traveloka  menyeimbangkan antara fitur dengan teknologi Data Resources mereka yang sudah cukup bagus.
  • Fokus kepada situs boking domestic , sangat disayangkan pengembangkan Big Data yang mereka miliki tidak mampu mengakomodir semua layanan baik domestik maupun Internasional.
  • Pencarian hotel masih sangat kecil informasi. Traveloka mempunyai komponen Big Data yang baik tapi tidak mampu mengintegrasikan platform informasi perhotelan dengan memadai.
  • Traveloka tidak menyediakan layanan paket traveling padahal dengan adanya Big Data mereka mampu meningkatkan keuntungan kompetitif.
  • Jika terjadi pembatalan penerbagan atau tiket oleh customer , pihak traveloka tidak sigap untuk melakukan refund money.
  • Traveloka sebaiknya sigap dan cepat dalam mengolah dan menganalisis data yang diperoleh untuk meningkatkan kompetitif apalagi banyak ecommerce yang mulai booming.
  • Melakuakn maintenance terhadap aplikasi fitur layanan.
  • Melakukan integrasi data dengan pelbagai platform akomodasi agar dapat bertukar informasi dengan cepat.
  • Memanfaatkan penggunaan Big Data dengan berani merambah ke seluruh dunia.
  • Mengembangkan bisnis baru yang dapat menyediakan paket layanan traveling dan akomodasi.
  • Membangun pusat Data analysis khusus untuk era 4.0 dan usaha menyiapkan bisnis yang lebih kompetitif di masa yang akan datang. Karena banyak fintech ata pn aplikasi pasaran yang menyediakan fitur traveling dan akomodasi.









(t.thn.). Diambil kembali dari wikipedia: https://id.wikipedia.org/wiki/Mahadata
ARDIYANTO. (2016, maret). Diambil kembali dari kelebihan dan kekurangan Trtaveloka: http://ardiyanto14002.blogspot.com/2016/03/32-contoh-kelebihan-dan-kekurangan-di.html
Arni, U. D. (2018, desember 17). Diambil kembali dari garudacyber: https://garudacyber.co.id/artikel/1446-kelebihan-dan-kekurangan-aplikasi-traveloka
MAULANA.S, I. (2016, nofember). Diambil kembali dari implementasi big data: http://ilhammaulanasuryani.blogspot.com/2016/11/implementasi-big-data.html
Puruhita. (2016, Februari 6). Diambil kembali dari Informasi Seputar Dunia Informatika: https://puruhitas.blog.uns.ac.id/2016/02/06/409/
Ridha, R. (2018). Diambil kembali dari MENGINTIP EKOSISTEM DATA DI TRAVELOKA: https://datascience.or.id/article/Mengintip-Ekosistem-Data-di-Traveloka-5a8fa6e6#





[1] Wikipedia , “ Big Data”, diakses dari https://id.wikipedia.org/wiki/Mahadata  , pada tanggal 20 Februari 2019 pukul 14.28

Sign up here with your email address to receive updates from this blog in your inbox.

0 Response to "Big Data pada Traveloka Corporation"

Post a Comment