Apa itu Big Data? Karakteristik Big Data, Apache Hadoop, Manajemen Sumber Daya Terdistribusi, Big Data Pipeline, Big Data Analytics
BIG DATA – DEFINISI, TEKNOLOGI DAN IMPLEMENTASINYA
Big data adalah istilah umum yang mengacu pada teknologi dan teknik untuk memproses dan menganalisis sejumlah besar data terstruktur, semi-terstruktur, atau tidak terstruktur. Saat Anda memproses data besar, Anda menghadapi banyak tantangan, mulai dari pengambilan dan penyimpanan data hingga masalah keamanan informasi.
Meskipun kita sering mendengar dan membicarakan istilah big data, banyak dari kita masih bertanya pada diri sendiri: apa yang dimaksud dengan big data? Apa manfaat dari data besar? Apa itu teknologi data besar? Mengapa data besar dibutuhkan di berbagai bidang?
Apa itu Big Data?
Tidak ada definisi standar untuk data besar. Secara umum big data merupakan kumpulan data yang memiliki jumlah yang sangat besar atau struktur yang kompleks, sehingga teknik pengolahan data tradisional tidak dapat lagi menanganinya dengan baik. Saat ini, istilah big data juga sering digunakan untuk merujuk pada bidang ilmu pengetahuan atau teknologi yang berkaitan dengan pengolahan dan penggunaan data.
Aspek terpenting dari big data sebenarnya bukan hanya seberapa banyak data yang dapat disimpan dan diproses, tetapi juga manfaat atau nilai tambah apa yang dapat diperoleh dari data tersebut. Jika kita tidak dapat mengekstrak nilai tambah, data hanyalah sampah yang tidak berguna. Nilai tambah ini dapat digunakan untuk banyak hal, seperti meningkatkan kelancaran operasi, akurasi penjualan, meningkatkan kualitas layanan, membuat prakiraan atau prediksi pasar, dll.
Di bidang IT, istilah "Sampah keluar di tempat sampah" atau sampah menghasilkan sampah. Maksudnya adalah jika input yang kita berikan pada sistem tersebut berkualitas rendah, maka tentunya kualitas outputnya juga akan rendah. Input yang dimaksud di sini adalah data.
Oleh karena itu, ketika mengimplementasikan big data, penting untuk memastikan kualitas input dan output pada setiap tahap pemrosesan data untuk mendapatkan hasil akhir yang berkualitas tinggi.
Karakteristik Big Data
Karakteristik Big Data, sering disebut dengan singkatan V, yaitu:
Volume : mengacu pada ukuran data yang diproses. Saat ini, unit volume data dunia telah melebihi zettabytes (1021 bytes), bahkan banyak perusahaan atau organisasi harus memproses data petabyte setiap hari. Jumlah data yang besar ini memerlukan teknik pemrosesan yang berbeda dari penyimpanan tradisional.
Speed : adalah kecepatan data yang diterima. Data yang dihasilkan dengan kecepatan tinggi memerlukan teknik pemrosesan yang berbeda dari data peristiwa normal. Contoh data yang dihasilkan dengan kecepatan tinggi adalah pesan Twitter dan data mesin atau sensor.
Pilihan: Data besar berasal dari berbagai sumber dan jenis termasuk dalam salah satu dari tiga kategori: data terstruktur, semi terstruktur, dan tidak terstruktur. Tipe data yang berbeda ini memerlukan keterampilan pemrosesan dan algoritme khusus. Contoh data yang sangat bervariasi adalah pengolahan data media sosial yang terdiri dari teks, gambar, audio dan video.
Kebenaran: Mengacu pada keakuratan atau konsistensi informasi. Data presisi tinggi memberikan hasil analisis berkualitas tinggi. Di sisi lain, data dengan fidelitas rendah mengandung banyak bias, noise, dan outlier. Jika informasi ini tidak diproses dengan baik, maka akan menghasilkan hasil yang kurang bermanfaat, dan bahkan dapat memberikan gambaran atau kesimpulan yang salah. Veracity merupakan tantangan yang cukup sulit ketika berhadapan dengan big data. Selain V, ada yang menambahkan lagi sehingga menjadi 5V, atau nilai. Nilai sering didefinisikan sebagai potensi nilai sosial atau ekonomi yang dapat diciptakan oleh data. Keempat karakteristik di atas (volume, kecepatan, variabilitas dan realisme) harus diolah dan dianalisis untuk memberikan nilai atau keuntungan bagi bisnis dan kehidupan. Oleh karena itu, kelima fungsi tersebut erat kaitannya dengan kemampuan kita mengolah data untuk menghasilkan output yang berkualitas.
Apa itu teknologi big data?
Perkembangan teknologi big data tidak lepas dari konsep atau teknologi open source. Istilah big data terus bergema dengan pesatnya perkembangan teknologi open source yang mendukungnya. Banyak perusahaan besar membawa teknologi data besar yang mereka buat dan gunakan ke komunitas open source. Hal ini kemudian menjadi salah satu faktor terpenting dalam perkembangan big data.
Ada banyak teknologi open source populer di ekosistem big data, berikut beberapa di antaranya:
Apache Hadoop
Apache Hadoop adalah kerangka kerja yang memungkinkan penyimpanan dan pemrosesan data besar terdistribusi di seluruh cluster komputer menggunakan model pemrograman sederhana. Hadoop terinspirasi dari teknologi yang dimiliki oleh Google, seperti Google File System dan Google Map Reduce.
Hadoop menyediakan 3 hal utama yaitu:
Distributed Storage System
Hadoop memiliki sistem file yang disebut Hadoop Distributed File System atau lebih dikenal dengan HDFS. HDFS adalah file terdistribusi atau sistem penyimpanan data pada cluster Hadoop. HDFS terinspirasi oleh Sistem File Google.
Parallel and Distributed Computing Framework
MapReduce adalah model pemrograman untuk pemrosesan terdistribusi data besar pada cluster Hadoop. MapReduce menjalankan dan memproses data dalam HDFS.
Manajemen Sumber Daya Terdistribusi
BENANG adalah alat yang mengelola manajemen sumber daya dan penjadwalan proses di klaster Hadoop. BENANG diperkenalkan di Hadoop 2.0. YARN memisahkan lapisan penyimpanan (HDFS) dan lapisan pemrosesan (MapReduce). Awalnya, Hadoop hanya mendukung MapReduce sebagai satu-satunya framework komputasi paralel yang dapat berjalan di atas cluster Hadoop. YARN memungkinkan banyak kerangka kerja komputasi paralel lainnya seperti Spark, Tez, Storm, dll. untuk berjalan di atas cluster Hadoop dan mengakses data dalam HDFS.
Komponen Apache Hadoop
Apache Hive
Apache Hive adalah kerangka kerja SQL yang berjalan di atas Hadoop. Hive mendukung bahasa pemrograman SQL, yang memudahkan kueri dan analisis data besar di Hadoop. Selain Hadoop, Hive juga dapat digunakan di atas sistem file terdistribusi lainnya seperti Amazon AWS3 dan Alluxion. Dukungan
Hive SQL sangat berguna untuk mem-porting aplikasi berbasis SQL ke Hadoop, terutama untuk sebagian besar aplikasi gudang data yang membutuhkan penyimpanan dan komputer besar. Hive awalnya dikembangkan oleh Facebook untuk digunakan sebagai sistem penyimpanan data mereka. Setelah disumbangkan ke komunitas open source, Hive berkembang pesat dan diadopsi secara luas serta dikembangkan oleh perusahaan besar lainnya seperti Netflix dan Amazon. Komponen Inti Apache Hive
Komponen Inti Apache Hive
Hive pada dasarnya hanyalah sebuah lapisan untuk mengubah perintah SQL menjadi kerangka kerja komputasi terdistribusi. Hive dapat berjalan di berbagai framework yang berjalan di Hadoop, seperti MapReduce, Tez atau Spark.
Apache Spark
Apache Spark adalah kerangka kerja komputasi terdistribusi yang dirancang untuk pemrosesan data besar yang cepat. Apache spark memiliki algoritme yang berbeda dari MapReduce, tetapi dapat berjalan di Hadoop dengan YARN. Spark menyediakan API di Scala, Java, Python, dan SQL dan dapat secara efektif menjalankan berbagai jenis proses seperti proses ETL, aliran data, pembelajaran mesin, visualisasi grafis, dan SQL. Selain HDFS, Spark dapat digunakan dengan sistem file lain seperti Cassandra, Amazon AWS3, dan penyimpanan cloud lainnya. Fitur utama Spark adalah komputasi cluster dalam memori. Penggunaan memori ini secara signifikan dapat meningkatkan kecepatan pemrosesan aplikasi. Dalam beberapa kasus, kecepatan pemrosesan Spark bisa mencapai 100 kali lebih cepat daripada pemrosesan disk seperti MapReduce. Sementara MapReduce lebih cocok untuk pemrosesan batch dengan kumpulan data yang sangat besar, Spark sangat cocok untuk pemrosesan dan streaming berulang, sehingga Spark banyak digunakan untuk pembelajaran mesin. Spark adalah subproyek dari Hadoop yang dikembangkan pada tahun 2009 di UC Berkeley AMPLab. Sejak 2009, lebih dari 1.200 pengembang telah berkontribusi pada proyek Apache Spark.
Selain ketiga teknologi tersebut, ada banyak teknologi dan kerangka kerja data besar open source lainnya seperti HBase, Cassandra, Presto, Storm, Flink, NiFi, Sqoop, Flume, Kafka, dll.
Big Data Pipeline
Untuk memberikan nilai yang berguna, data harus terlebih dahulu melewati berbagai langkah pemrosesan. Mulai dari perekaman/penciptaan, pengumpulan, penyimpanan, pengayaan, analisis dan pengolahan lebih lanjut hingga penyajian. Rangkaian proses data ini sering disebut pipa data.
Secara umum, Big Data Pipeline dapat dibagi menjadi tiga bagian yaitu:
Data Engineering: Meliputi pengumpulan data, pengumpulan data, pembersihan, transformasi dan pengayaan.
Analisis Data / Pembelajaran Mesin: Termasuk keterampilan perencanaan dan perhitungan.
Komunikasi data: Representasi data, termasuk implementasi model dalam aplikasi atau sistem, visualisasi, dll.
Big Data Analytics
Ketika kita berbicara tentang big data, biasanya yang kita maksud adalah big data analytics. Hal ini cukup wajar, karena ketika proyek big data dimulai, diharapkan hasil akhirnya akan memberikan informasi yang berguna yang dapat membantu dalam pengambilan keputusan.
Analisis Data sendiri merupakan rangkaian proses untuk memperoleh informasi atau wawasan dari kumpulan data. Data bisa berupa pola, korelasi, tren, dll. Analisis data sering kali melibatkan teknik dan algoritma pemrosesan data yang cukup kompleks seperti penambangan data dan perhitungan statistik.
Dalam Big Data Analytics, tingkat kesulitannya bahkan lebih tinggi karena data yang diproses berasal dari sumber yang berbeda dalam format dan jenis yang berbeda dan dengan volume dan kecepatan yang tinggi. Oleh karena itu, Big Data Analytics menggunakan teknik dan algoritme yang lebih canggih seperti model prediktif dan pembelajaran mesin untuk melihat tren, pola, korelasi, dan wawasan lainnya.
Secara umum analisis big data dibagi menjadi kategori, yaitu:
Analisis deskriptif
Analisis ini digunakan untuk menjawab pertanyaan tentang apa yang sedang terjadi. Hampir semua organisasi telah menerapkan jenis analisis ini.
Analisis Diagnostik
Setelah kita mengetahui apa yang terjadi, pertanyaan berikutnya biasanya mengapa hal itu terjadi. Jenis analisis ini menggunakan data mendalam untuk menemukan penyebab peristiwa yang lebih dalam.
Predictive Analytics
Predictive Analytics memberikan prediksi tentang apa yang akan terjadi berdasarkan data yang ada. Jenis analisis ini menggunakan pembelajaran mesin dan teknik serta algoritme kecerdasan buatan untuk membuat model prediktif berdasarkan data historis.
Analisis Preskriptif
Menggunakan analisis deskriptif dan prediktif, jenis analisis ini memberikan informasi yang dapat digunakan untuk menghasilkan hasil prediksi.
Implementasi Big Data dalam Bisnis
Kebiasaan masyarakat dan persaingan bisnis di era yang semakin terbuka saat ini menjadikan pengambilan keputusan yang tepat sebagai kunci keberlangsungan bisnis. Data merupakan salah satu faktor keberhasilan pengambilan keputusan.
Profil Pelanggan
Profil dan pola pelanggan dapat dipelajari menggunakan data yang dihasilkan oleh pelanggan yang berinteraksi dengan produk baik secara langsung, melalui situs web, atau melalui aplikasi. Saat ini, informasi profil pelanggan dapat lebih diperluas untuk mencakup informasi geografis bahkan informasi media sosial yang mereka buat.
Semakin banyak informasi yang dikumpulkan dan semakin canggih pemrosesan data, semakin akurat dan detail informasi tentang profil pelanggan dapat diperoleh. Produsen atau penyedia layanan dapat memberikan rekomendasi yang relevan kepada pelanggan untuk meningkatkan penjualan dan loyalitas pelanggan.
Pengembangan Produk
Membangun produk dari ide yang akhirnya diterima dengan baik di pasar adalah sebuah tantangan. Data besar dapat memberikan wawasan mendalam untuk mengidentifikasi kebutuhan pasar, melihat tanggapan pelanggan di papan diskusi atau komentar media sosial, menilai penjualan produk di pasar dengan cepat, mengoptimalkan rantai distribusi, dan mengoptimalkan strategi pemasaran.
Berkat manajemen informasi yang lebih baik dan kegunaan yang lebih cepat, dimungkinkan untuk terus menciptakan produk berkelanjutan yang menawarkan nilai tambah yang baik bagi pelanggan dan pengguna.
Optimalisasi Harga
Harga bisa menjadi kunci bagi pelanggan untuk memutuskan produk mana yang akan dibeli. Namun, perang harga juga dapat berdampak buruk pada produk itu sendiri. Big data dapat menyediakan peta dan model harga yang ada di pasar sehingga produsen dapat menentukan harga dan penawaran yang optimal berdasarkan kebutuhan pasar.
Telekomunikasi Big Data
Telekomunikasi merupakan salah satu bidang yang mau tidak mau harus berhadapan dengan big data. Selain itu, layanan telekomunikasi bisa dibilang merupakan jantung dunia digital kita saat ini. Sementara data sering disebut sebagai "minyak baru", penyedia telekomunikasi seperti tambang minyak yang sangat produktif.
Ada banyak sekali sumber data yang ada dalam sebuah perusahaan telekomunikasi. Sebut saja data operasional jaringan, data transaksi percakapan, data koneksi internet, data pelanggan, dan data produk. Jika semua data-data tersebut dapat diintegrasikan dengan baik, maka akan dapat memberikan insight yang dapat digunakan untuk optimalisasi jaringan, meningkatkan pelayanan, pembuatan produk dan program promosi, serta meningkatkan loyalitas pelanggan.
Big Data untuk Kesehatan
Data dalam bidang kesehatan adalah salah satu contoh big data karena volume, kompleksitas, keragaman serta tuntutan ketepatan waktunya. Disamping itu layanan kesehatan juga melibatkan banyak sekali pihak, diantaranya yaitu berbagai rumah sakit, lab, klinik, dan asuransi kesehatan. Oleh karena itu, industri kesehatan merupakan industri dengan tantangan besar di bidang big data.
Selain informasi, teknologi berperan penting dalam perkembangan kecerdasan buatan. Berbagai perangkat dan teknologi berkinerja tinggi kini tersedia dengan biaya dan keterjangkauan yang relatif rendah. Kecerdasan buatan yang awalnya dianggap hal yang keren dan hanya bisa diterapkan dengan teknologi tinggi dan mahal, kini kecerdasan buatan bisa diterapkan di berbagai perangkat dan sistem dalam penggunaan sehari-hari.
Komunitas Big Data Indonesia
idBigData adalah komunitas big data Indonesia yang diumumkan pada 2 Desember 2014. Saat itu, big data masih merupakan hal yang relatif baru di Indonesia. Banyak orang tidak mengerti apa itu big data, mengapa dan bagaimana menggunakannya. Oleh karena itu, tujuan dibuatnya idBigData sebagai komunitas big data Indonesia harus menjadi platform dimana komponen komunitas dari berbagai bidang berkumpul untuk bertukar pengetahuan dan pengalaman serta membuat berbagai proyek kolaborasi di bidang big data dan penggunaannya, termasuk data science. dan kecerdasan buatan.