Big Data dan Rahasia Kejayaan Google
Big
Data, sebesar apa?
Kurang lebih sejak tahun 2010, istilah Big
Data sudah mulai hangat diperbincangkan. Topik-topik seperti : "Bagaimana
cara menganalisa perilaku setiap konsumen saat berbelanja secara online
sehingga sang penjual bisa memberikan rekomendasi secara otomatis tentang
produk yang sesuai dengan tiap pelanggan.", "Bagaimana menganalisa
kicauan pada Twitter sehingga bisa menemukan topik-topik yang sedang hot atau
trending topic.", "Bagaimana menganalisa transaksi kartu kredit
sehingga bisa dibedakan mana transaksi yang legal dan illegal.", telah
menjadi topik yang sering diangkat di media massa. Data-data tentang perilaku
konsumen pada toko online, kicauan puluhan juta pengguna Twitter maupun data
tentang transaksi kartu kredit dapat dikategorikan sebagai Big Data.
Dalam artikel berjudul "Gartner SaysSolving 'Big Data' Challenge Involves More Than Just Managing Volumes ofData." dinyatakan bahwa Big Data itu memiliki tiga karakteristik : Volume
(Volume), Variasi (Variety), Kecepatan (Velocity).
Untuk menyimpan dan mengolah data dalam jumlah besar diperlukan waktu dan biaya yang besar. Untuk memberdayakan berbagai jenis / variasi data diperlukan prosedur yang sesuai dengan tiap jenis data tersebut. Terakhir, untuk memanfaatkan data yang terus menerus diproduksi dengan kecepatan tertentu, diperlukan kecepatan dalam mengolah data untuk memenuhi target yang ditentukan. Ketiga karakteristik ini menggambarkan betapa sulitnya menangani dan memanfaatkan Big Data. Jadi kalau disederhanakan, Big Data itu adalah data yang besar dalam volume, kumpulan dari berbagai jenis data, dan diproduksi dengan kecepatan tertentu.
Untuk menyimpan dan mengolah data dalam jumlah besar diperlukan waktu dan biaya yang besar. Untuk memberdayakan berbagai jenis / variasi data diperlukan prosedur yang sesuai dengan tiap jenis data tersebut. Terakhir, untuk memanfaatkan data yang terus menerus diproduksi dengan kecepatan tertentu, diperlukan kecepatan dalam mengolah data untuk memenuhi target yang ditentukan. Ketiga karakteristik ini menggambarkan betapa sulitnya menangani dan memanfaatkan Big Data. Jadi kalau disederhanakan, Big Data itu adalah data yang besar dalam volume, kumpulan dari berbagai jenis data, dan diproduksi dengan kecepatan tertentu.
Dalam hal volume, telah terjadi peningkatan
yang drastis sejak sekitar tahun 2000 sehingga kemudian muncul istilah Ledakan
Informasi. Berdasarkan laporan yang dilansir oleh IDC (International Data
Corporation) : "2011 Digital Universe Study: Extracting Value fromChaos", diperkirakan bahwa pada lima tahun kedepan, volume data yang
dihasilkan per-tahun akan meningkat menjadi 6 kali lipat. Pada tahun 2005,
terdapat 130 Exabytes data dan menjadi 1,2 Zettabytes pada 2010. Pada tahun
2015, diperkirakan akan meledak menjadi 7,9 Zettabytes. Sekedar referensi, 1
Zettabyte kurang lebih sama dengan data dalam 200 miliar keping DVD (The HJO3Project). Latar belakang dari membludaknya volume data ini adalah proses
komputerisasi yang telah semakin merasuk ke dalam segala aspek kehidupan
manusia. Mulai dari PC (Personal Computer), smartphone, ATM, komputer kantor
swasta, komputer kantor pemerintah hingga kamera jalan raya milik POLRI maupun
Kemenhub.
Dalam hal jenis, data sudah tidak lagi
hanya berupa lembaran data seperti halnya data yang ditampilkan dengan MS
Excel, MS Access, ataupun software pengolah data lain yang menyimpan teks dan
angka dalam suatu format tertentu. Data saat ini bisa berupa teks data yang
dimuat pada website, blog, SNS(Social Network) seperti halnya Facebook dan
Twitter, yang tidak memiliki format yang ditentukan sebelumnya. Data bisa
berupa music maupun video digital yang didistribusikan dan diakses melalui
internet dan terus bertambah.
Dalam hal kecepatan, data dihasilkan bukan
lagi dalam hitungan hari, dan umur berlakunya data pun menjadi lebih pendek. Sebagai
contoh, laporan hasil analisa transaksi jual-beli yang sebelumnya dilakukan
per-bulan atau perminggu kini dilakukan per-hari bahkan per-jam. Dengan
demikian, masa berlaku data hasil analisa pun bukan lagi dalam hitungan bulan
tapi hanya berlaku dalam satu jam. Bahkan, tidak sedikit proses pengolahan,
analisa, dan pendistribusian data yang telah bisa dilakukan secara real-time.
Google
apanya Big Data?
Google berasal dari sebuah proyek
penelitian yang dimulai pada Januari 1996 oleh dua mahasiswa pasca sarjana,
Larry Page dan Sergey Brin, di Stanford University. Saat ini Google telah
berkembang menjadi raksasa Internet yang sangat pintar, yang telah menjadi guru
tempat bertanya apa saja di dunia maya Internet. Boleh dikatakan terlalu naif
bila ada pengguna Internet yang mengaku tidak tahu Google. Google telah menjadi
bagian hidup para penjelajah dunia maya. Menjadi milik semuanya dan memiliki
semuanya.
Pada awal kelahirannya, Google dibekali
dengan teknologi yang disebut PageRank yang telah menjadikannya search engine
yang unik karena teknologi tersebut belum pernah dimiliki oleh search engine
yang telah ada sebelum Google.
Namun, bukan hanya itu. Google juga telah
mampu mengelola, memanfaatkan, dan memberdayakan limpahan data yang membludak
pada era Ledakan Informasi ini. Google bahkan telah mampu mengolah dan
memberdayakan keberadaan Big Data jauh sebelum istilah itu diperbincangkan
banyak orang. Google memiliki teknologi crawler yang mampu mendownload seluruh
web page yang ada di dunia Internet secara terus menerus mengikuti update pada
jutaan web page tersebut. Google memiliki media penyimpanan data yang dikenal
dengan nama Google File System (GFS) yang menyimpan data secara terdistribusi
dalam ribuan komputer. Kapasitas penyimpanan GFS ini bisa terus diperbesar
hanya dengan menambah jumlah komputer yang disertakan didalamnya. Google
memiliki teknologi pengolahan data yang disebut MapReduce, yang mampu mengolah
data yang disimpan dalam GFS secara paralel menggunakan ribuan komputer
sehingga mampu mengolah data ukuran raksasa dalam waktu berkali lipat lebih
cepat daripada system konvensional. Google juga memiliki system database yang
disebut Bigtable, yang mampu menyajikan data berukuran raksasa yang sudah tak
mampu lagi ditangani oleh system database yang telah ada. Dan masih banyak
lagi. Jadi, intinya, Google telah mampu melihat potensi pada Big Data, kemudian
mengolah dan memberdayakannya jauh sebelum istilah Big Data mulai
diperbincangkan.
Akhirnya,
Big Data jadi milik semua orang.
Google itu hebat dan kaya, dan untungnya
dia juga tidak pelit. Google telah membuka akses terhadap teknologi garapannya
kepada masyarakat internasional. Google telah memaparkan konsep dan cara kerja
GFS, MapReduce, dan Bigtable secara detail dan dapat diakses dengan cuma-cuma.
Hal ini telah berhasil membuka mata para raksasa Internet pada dunia yang lebih
besar.
Apache bertindak cepat dengan mengembangkan
dan merilis versi open source dari Google File System yang diberi nama Hadoop
Distributed File System (HDFS) dan juga versi open source dari MapReduce yang
dibuat satu paket dengan HDFS. Dengan demikian, software Hadoop dapat di-download secara
gratis dari web site Apache. Sebenarnya Hadoop bukanlah proyek asli milik
Apache, tapi dibuat oleh seorang mantan karyawan Yahoo! bernama Doug Cutting
bersama Michael J. Cafarella.
Saat ini Hadoop telah diadopsi oleh
perusahaan-perusahaan besar seperti halnya Yahoo!, Amazon, IBM, Microsoft,
Facebook, Twitter, Hewlett-Packard, LinkedIn, RECRUIT, Rakuten Japan, dan masih
banyak lagi.
Mengolah
Big Data dengan Hadoop? Tidak sulit!
Kini teknologi untuk mengolah Big Data,
Hadoop Mapreduce, sudah di depan mata. Selanjutnya bergantung pada keberanian
kita untuk mau memberdayakannya atau tidak. Hadoop MapReduce memiliki banyak
keunggulan, diantaranya:
1.
Sederhana. Walaupun Hadoop MapReduce adalah software yang mengolah data secara
terdistribusi dan paralel, kita tidak diwajibkan untuk mengerti dan paham apa
itu distributed computing.
2.
Fleksibel dalam Ukuran. Hadoop dapat dijalankan mulai dari satu hingga ribuan
PC. Jadi, dapat dimulai dengan ukuran kecil dulu atau sesuai kebutuhan. Bila
ingin meningkatkan kemampuannya, cukup tambah jumlah PC tanpa harus mengubah
setting dari awal. Bandingkan kalau kita menggunakan system konvensional. Pada
saat komputer kita sudah tidak mampu lagi mengolah data yang semakin besar,
atau ketika teknologi komputer yang kita pakai sudah mulai ketinggalan jaman,
tentu kita harus membeli komputer baru yang memiliki kemampuan yang lebih
tinggi, atau mengupgrade komputer yang sudah ada. Itu berarti kita harus
menginstal system baru mulai dari awal, kemudian memindahkan data dari komputer
lama ke komputer baru, dan melakukan setting ulang agar dapat berjalan seperti
sebelumnya. Bila kita menggunakan Hadoop, kita tak perlu memindahkan data dan
melakukan setting ulang, cukup dengan menambahkan satu komputer lagi, maka
secara otomatis data akan terdistribusi ke komputer yang baru.
3.
Handal, anti Gagal. Ketika kita bicara tentang pengolahan data yang dilakukan
secara paralel dalam banyak komputer, tentu akan timbul pertanyaan: Bagaimana
kalau salah satu dari komputer itu down atau rusak dan tak dapat beroperasi? Bukankah
ini akan menyebabkan seluruh proses akan gagal karena kehilangan salah satu
bagiannya. Tidak demikian dengan Hadoop, walaupun dalam suatu proses pengolahan
data terdapat komputer yang tiba-tiba rusak, Hadoop tetap dapat berjalan
normal.
Sampai disini kita sudah berbincang panjang
lebar soal teori, selanjutnya saatnya untuk praktek, mencoba dan mencicipi
Hadoop. Seperti telah dibahas sebelumnya, Hadoop itu fleksibel, bisa dijalankan
dalam tiga mode yaitu:
1.
Mode Standalone : dengan satu PC Windows. Silakan simak: Menjalankan AplikasiHadoop MapReduce dengan Windows.
2.
Mode Pseudo-Distributed: dengan satu PC Linux yang dibuat seolah-olah Hadoop
berjalan dalam system yang terdistribusi. Silakan simak: Menjalankan HadoopMapReduce Mode Pseudo-Distributed dengan Linux.
3.
Mode Fully Distributed: menjalankan Hadoop sungguhan dalam beberapa PC. Silakan
simak: Menjalankan Hadoop MapReduce Mode Fully Distributed.
Semua tutorial diatas dijelaskan secara
detail langkah demi langkah dan disertai contoh aplikasi WordCount.
Kesimpulan
dan Penutup.
Saat ini kita sedang berada dalam era
Ledakan Informasi, dan kemampuan untuk memberdayakan Big Data adalah kunci
dalam meraih sukses dan kemenangan. Google telah menyadarinya lebih dulu, dan
sukses Google adalah bukti nyata. Hadoop MapReduce, senjata dalam perang Big
Data telah di depan mata, para raksasa sudah mulai bergerak, apakah kita akan
tinggal diam?
Referensi:
http://www.gartner.com/newsroom/id/1731916
http://japan.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf
http://www.hjo3.net/bytes.html
http://hadoop.apache.org/
http://en.wikipedia.org/wiki/Apache_Hadoop
http://en.wikipedia.org/wiki/Google#History
"Hadoop: The Definitive Guide",
Tom White, O'REILLY 2012.
"Googleを支える技術", Nishida Keisuke, WEB+DB PRESS 2008.
Comments
Semoga bermanfaat.
big data projects for cse final year students
Java Training in Chennai
Final Year Projects for CSE
Java Training in Chennai