Memahami Definisi Big Data
Beberapa tahun belakangan ini, jika ditanyakan tentang apa yang sedang menjadi trend dalam dunia Teknologi Informasi (TI), mungkin banyak yang akan menjawab "Cloud Computing". Tetapi, sejak awal tahun 2011 muncul istilah "Big Data" yang kemudian menarik perhatian banyak profesional maupun pemerhati Teknologi Informasi. Sejauh ini, perusahaan-perusahaan terkemuka telah memberdayakan infomasi dan data dengan beragam teknologi manajemen data guna menunjang kemajuan bisnisnya. Sebagian besar telah menggunakan tools seperti Data Warehouse (DWH) maupun Business Intelligence (BI) serta aplikasi manajemen harga dan penjualan lainnya sebagai alat pengolah data yang mereka perlukan dalam aktifitas bisnis.
Definisi Big Data
Jika diterjemahkan secara mentah-mentah maka Big Data berarti suatu data dengan kapasitas yang besar. Sebagai contoh, saat ini kapasitas DWH yang digunakan oleh perusahaan-perusahaan di Jepang berkisar dalam skala terabyte. Namun, jika misalnya dalam suatu sistem terdapat 1000 terabyte (1 petabyte) data, apakah sistem tersebut bisa disebut Big Data?
Satu lagi, Big Data sering dikaitkan dengan SNS (Social Network Service), contohnya Facebook. Memang benar Facebook memiliki lebih dari 800 juta orang anggota, dan dikatakan bahwa dalam satu hari Facebook memproses sekitar 10 terabyte data. Pada umumnya, SNS seperti Facebook tidak menggunakan RDBMS(Relational DataBase Management System) sebagai software pengolah data, melainkan lebih banyak menggunakan NoSQL. Lalu, apa kita bisa menyebut sistem NoSQL sebagai Big Data?
Dengan mengkombinasikan kedua uraian diatas, dapat ditarik sebuah definisi bahwa Big Data adalah "suatu sistem yang menggunakan NoSQL dalam memproses atau mengolah data yang berukuran sangat besar, misalnya dalam skala petabyte". Apakah definisi ini tepat? Boleh dikatakan masih setengah benar. Definisi tersebut masih belum menggambarkan Big Data secara menyeluruh. Big Data tidak sesederhana itu,
Big Data memuat arti yang lebih kompleks sehingga perlu definisi yang sedikit lebih kompleks pula demi mendeskripsikannya secara keseluruhan.
Mengapa butuh definisi yang lebih kompleks? Fakta menunjukkan bahwa bukan hanya NoSQL saja yang mampu mengolah data dalam skala raksasa (petabyte). Beberapa perusahaan telah menggunakan RDBMS untuk memberdayakan data dalam kapasitas yang sangat besar. Sebagai contoh, Bank of America memiliki DWH dengan kapasitas lebih dari 1,5 petabyte, Wallmart Stores yang bergerak dalam bisnis retail (supermarket) berskala dunia telah mengelola data berkapasitas lebih dari 2,5 petabyte, dan bahkan situs auction (lelang) eBay memiliki DWH yang menyimpan lebih dari 6 petabyte data. Oleh karena itu, hanya karena telah berskala petabyte saja, suatu data belum bisa disebut Big Data. Sekedar referensi, DWH dengan kapasitas sangat besar seperti beberapa contoh diatas disebut EDW(Enterprise Data Warehouse) dan database yang digunakannya disebut VLDB(Very Large Database).
Memang benar, NoSQL dikenal memiliki potensi dan kapabilitas Scale Up (peningkatan kemampuan mengolah data dengan menambah jumlah server atau storage) yang lebih unggul daripada RDBMS. Tetapi, bukan berarti RDBMS tak diperlukan. NoSQL memang lebih tepat untuk mengolah data yang sifatnya tak berstruktur seperti data teks dan gambar, namun NoSQL kurang tepat bila digunakan untuk mengolah data yang sifatnya berstruktur seperti data-data numerik, juga kurang sesuai untuk memproses data secara lebih detail demi menghasilkan akurasi yang tinggi. Pada kenyataannya, Facebook juga tak hanya menggunakan NoSQL untuk memproses data-datanya, Facebook juga tetap menggunakan RDBMS. Lain kata, penggunaan RDBMS dan NoSQL mesti disesuaikan dengan jenis data yang hendak diproses dan proses macam apa yang dibutuhkan guna mendapat hasil yang optimal.
Karakteristik Big Data : Volume, Variety, Velocity (3V)
Kembali ke pertanyaan awal, apakah sebenarnya Big Data itu? Sayang sekali, hingga saat ini masih belum ada definisi baku yang disepakati secara umum. Ada yang mendeskripsikan Big Data sebagai fenomena yang lahir dari meluasnya penggunaan internet dan kemajuan teknologi informasi yang diikuti dengan terjadinya pertumbuhan data yang luar biasa cepat, yang dikenal dengan istilah ledakan informasi (Information Explosion) maupun banjir data (Data Deluge). Hal ini mengakibatkan terbentuknya aliran data yang super besar dan terus-menerus sehingga sangat sulit untuk dikelola, diproses, maupun dianalisa dengan menggunakan teknologi pengolahan data yang selama ini digunakan (RDBMS). Definisi ini dipertegas lagi dengan menyebutkan bahwa Big Data memiliki tiga karakteristik yang dikenal dengan istilah 3V: Volume, Variety, Velocity. Dalam hal ini, Volume menggambarkan ukuran yang super besar, Variety menggambarkan jenis yang sangat beragam, dan Velocity menggambarkan laju pertumbuhan maupun perubahannya. Namun demikian, definisi ini tentu masih sulit untuk dipahami. Oleh karena itu, uraian berikut mencoba memberikan gambaran yang lebih jelas dan nyata berkaitan dengan maksud definisi Big Data tersebut.
Gambar 1. Big Data 3V
Gambar 1 menggambarkan 3 karakteristik Big Data. Gabungan dari ketiga karakteristik ini menghasilkan data yang terlalu kompleks untuk ditangani dengan sistem konvensional.
Bukan Hanya Masalah Ukuran, Tapi Lebih pada Ragam
Kini jelas bahwa Big Data bukan hanya masalah ukuran yang besar, terlebih yang menjadi ciri khasnya adalah jenis datanya yang sangat beragam dan laju pertumbuhan maupun frekwensi perubahannya yang tinggi. Dalam hal ragam data, Big Data tidak hanya terdiri dari data berstruktur seperti halnya data angka-angka maupun deretan huruf-huruf yang berasal dari sistem database mendasar seperti halnya sistem database keuangan, tetapi juga terdiri atas data multimedia seperti data teks, data suara dan video yang dikenal dengan istilah data tak berstruktur. Terlebih lagi, Big Data juga mencakup data setengah berstruktur seperti halnya data e-mail maupun XML. Dalam hal kecepatan pertumbuhan maupun frekwensi perubahannya, Big Data mencakup data-data yang berasal dari berbagai jenis sensor, mesin-mesin, maupun data log komunikasi yang terus menerus mengalir. Bahkan, juga mencakup data-data yang tak hanya data yang berada di internal perusahaan, tetapi juga data-data di luar perusahaan seperti data-data di Internet. Begitu beragamnya jenis data yang dicakup dalam Big Data inilah yang kiranya dapat dijadikan patokan untuk membedakan Big Data dengan sistem manajemen data pada umumnya.
Fokus pada Trend per-Individu, Kecepatan Lebih Utama daripada Ketepatan
Hingga saat ini, pendayagunaan Big Data didominasi oleh perusahaan-perusahaan jasa berbasis Internet seperti halnya Google dan Facebook. Data yang mereka berdayakan pun bukanlah data-data internal perusahaan seperti halnya data-data penjualan maupun data pelanggan, lebih menitik beratkan pada pengolahan data-data teks dan gambar yang berada di Internet. Bila kita melihat gaya pemberdayaan data yang dilakukan oleh perusahaan-perusahaan pada umumnya, yang dicari adalah trend yang didapat dari pengolahan data secara keseluruhan. Misalnya, dari data konsumen akan didapat informasi tentang trend konsumen dengan memproses data konsumen secara keseluruhan, bukan memproses data per-konsumen untuk mendapatkan trend per-konsumen. Dilain pihak, perusahaan-perusahaan jasa berbasis Internet yang memanfaatkan Big Data justru memfokuskan pemberdayaan data untuk mendapatkan informasi trend per-konsumen dengan memanfaatkan atribut-atribut yang melekat pada pribadi tiap konsumen. Sebut saja toko online Amazon yang memanfaatkan informasi maupun atribut yang melekat pada diri per-konsumen, untuk memberikan rekomendasi yang sesuai kepada tiap konsumen. Satu lagi, pemberdayaan data ala Big Data ini dapat dikatakan lebih berfokus pada kecepatan ketimbang ketepatan.
Kesimpulan
Berdasar uraian diatas, dapat ditarik kesimpulan bahwa Big Data itu adalah limpahan data dengan volume dan ragam yang melampaui kapasitas sistem manajemen data konvensional, yang terbentuk dari meluasnya penggunaan internet maupun pemanfaatan teknologi informasi yang semakin canggih, dan memiliki tiga ciri khas : volume, variety, velocity.
Referensi: ビッグデータへの道 www.hitachi.co.jp
Comments
Pada contoh ini https://www.teknologi-bigdata.com/2019/02/sentimen-netizen-terhadap-jokowi-2018.html sy mencoba mengklasifikasikan sentimen tweet dlm 3 kategori: positif, negatif, netral dgn teknik machine learning (SVM). Variabelnya adalah token (kata-kata) yg terkandung dalam tiap tweet. Berdasarkan token tsb suatu tweet dinilai positif/negatif/netral. Setelah itu sy jg pingin tau, tweet dan user mana yg punya pengaruh kuat terhadap trend sentimen tadi. Untuk tweet sy pilih variabelnya: jumlah posting, jumlah retweet, dan jumlah like. Sedangkan untuk user, variabelnya: jumlah retweet dan jumlah like ( lebih detailnya silahkan baca artikel tsb)
Pada contoh ini https://www.teknologi-bigdata.com/2015/04/contoh-kasus-penggunaan-hbase-untuk-memproses-data-AIS.html sy mencoba memprediksi pergerakan kapal berdasarkan data AIS. Variabel yg saya gunakan adalah: posisi kapal, tipe kapal, draft, tujuan, status, dan kebangsaan ( silakan simak artikelnya ).
Darimana Ditjen Pajak Menghimpun Data?
Lalu, dari mana sumber Big Data yang dapat diberdayakan oleh Ditjen Pajak? Data yang sifatnya terbuka untuk konsumsi publik atau yang dikenal juga dengan istilah Open Source Intelijen (OSIN) sudah tersedia secara berlimpah di dunia maya Internet yang dapat dimanfaatkan oleh siapa saja termasuk Ditjen Pajak tentunya. Lebih dari itu, Ditjen Pajak dikatakan juga telah memiliki data dari pihak ketiga yang diperoleh lewat kerja sama pertukaran data yang berupa informasi kepemilikan saham, penanaman modal, impor-ekspor, pemenang lelang, kepemilikan sekuritas, dan kepemilikan kendaraan mewah (PMK 16/2013, PMK 79/2013, PMK 95/2013, PMK 132/2013, PMK 191/2014). Kemudian, Ditjen Pajak juga telah mewajibkan 23 bank/lembaga penyelenggara kartu kredit untuk memberikan rincian jenis data dan informasi perpajakan mulai tanggal 31 Mei 2016 berdasarkan Peraturan Menteri Keuangan (Permenkeu) No. 39/PMK.03/2016 tentang Perubahan atas Permenkeu No. 16/PMK.03/2013 tentang Rincian Jenis Data dan Informasi Serta Tata Cara Penyampaian Data dan Informasi yang Berkaitan dengan Perpajakan. Menurut lampiran PMK No. 39/PMK.03/2016 tanggal 22 Maret 2016, sebanyak 66 instansi/lembaga pemerintahan telah diwajibkan untuk memberikan data dan informasi perpajakan kepada Ditjen Pajak, termasuk diantaranya adalah BPJS, seluruh Pemda, Kemdagri, BPN, Kementerian Perhubungan, Bank Indonesia (BI), Badan Koordinasi Penanaman Modal (BKPM), dan Kementrian Keuangan.
dari artikel ini : http://www.teknologi-bigdata.com/2017/01/ditjen-pajak-implementasi-teknologi-big-data.html
Data Science Training
Artificial Intelligence Course