Apa itu Big Data? Karakteristik Big Data, Apache Hadoop, Manajemen Sumber Daya Terdistribusi, Big Data Pipeline, Big Data Analytics

BIG DATA – DEFINISI, TEKNOLOGI DAN IMPLEMENTASINYA

Big data adalah istilah umum yang mengacu pada teknologi dan teknik untuk memproses dan menganalisis sejumlah besar data  terstruktur, semi-terstruktur, atau tidak terstruktur. Saat Anda memproses data besar, Anda menghadapi banyak tantangan, mulai dari pengambilan dan penyimpanan data  hingga masalah keamanan informasi. 

Meskipun kita sering mendengar dan membicarakan istilah big data, banyak dari kita masih bertanya pada diri sendiri: apa yang dimaksud dengan big data? Apa manfaat dari data besar? Apa itu teknologi data besar? Mengapa  data besar dibutuhkan di berbagai bidang? 

Apa itu Big Data? 

Tidak ada definisi standar untuk data besar. Secara umum big data merupakan kumpulan data yang memiliki jumlah yang sangat besar atau struktur yang kompleks, sehingga teknik pengolahan data tradisional tidak dapat lagi  menanganinya dengan baik. Saat ini, istilah big data juga sering digunakan untuk merujuk pada bidang ilmu pengetahuan atau teknologi yang berkaitan dengan pengolahan dan penggunaan data. 

Aspek terpenting dari big data sebenarnya bukan hanya seberapa banyak data yang dapat disimpan dan diproses, tetapi juga manfaat atau nilai tambah apa yang dapat diperoleh dari data tersebut. Jika kita tidak dapat mengekstrak nilai tambah, data hanyalah sampah yang tidak berguna. Nilai tambah ini dapat digunakan untuk banyak hal, seperti meningkatkan kelancaran operasi, akurasi penjualan, meningkatkan kualitas layanan, membuat prakiraan atau prediksi pasar, dll. 

Di bidang IT, istilah "Sampah keluar di tempat sampah" atau  sampah  menghasilkan sampah. Maksudnya adalah jika input yang kita berikan pada sistem tersebut berkualitas rendah, maka tentunya kualitas outputnya juga akan rendah. Input yang dimaksud di sini adalah data. 

Oleh karena itu, ketika mengimplementasikan big data, penting untuk memastikan kualitas input dan output pada setiap tahap pemrosesan data untuk mendapatkan hasil akhir yang berkualitas tinggi. 

Karakteristik Big Data 

Karakteristik Big Data, sering disebut dengan singkatan V, yaitu: 

Volume : mengacu pada ukuran data yang  diproses. Saat ini, unit volume data  dunia telah melebihi zettabytes (1021 bytes), bahkan  banyak perusahaan atau organisasi harus memproses data petabyte setiap hari. Jumlah data yang besar ini memerlukan teknik pemrosesan yang berbeda dari penyimpanan tradisional. 

Speed ​​: adalah kecepatan data yang diterima. Data yang dihasilkan dengan kecepatan tinggi memerlukan teknik pemrosesan yang berbeda dari data peristiwa normal. Contoh data yang dihasilkan dengan kecepatan tinggi adalah pesan Twitter dan data  mesin atau sensor. 

 Pilihan: Data besar berasal dari berbagai sumber dan jenis termasuk dalam salah satu dari tiga kategori: data terstruktur, semi terstruktur, dan tidak terstruktur. Tipe data yang berbeda ini memerlukan keterampilan pemrosesan dan algoritme khusus. Contoh data yang sangat bervariasi adalah pengolahan data media sosial  yang terdiri dari teks, gambar, audio dan video. 

Kebenaran: Mengacu pada keakuratan atau konsistensi informasi. Data presisi tinggi  memberikan hasil analisis berkualitas tinggi. Di sisi lain, data dengan fidelitas rendah mengandung banyak bias, noise, dan outlier. Jika informasi ini  tidak diproses dengan baik, maka akan menghasilkan hasil yang kurang bermanfaat, dan bahkan dapat memberikan gambaran atau kesimpulan yang salah. Veracity merupakan tantangan yang cukup sulit ketika berhadapan dengan big data. Selain V, ada  yang menambahkan  lagi sehingga menjadi 5V, atau nilai. Nilai sering didefinisikan sebagai potensi nilai sosial atau ekonomi yang dapat diciptakan oleh data. Keempat karakteristik di atas (volume, kecepatan, variabilitas dan realisme) harus diolah dan dianalisis untuk  memberikan nilai atau keuntungan bagi bisnis dan kehidupan. Oleh karena itu,  kelima fungsi tersebut erat kaitannya dengan kemampuan kita mengolah data untuk menghasilkan output yang berkualitas. 

Bigdata


Apa itu teknologi big data? 

 Perkembangan teknologi big data tidak lepas dari konsep atau teknologi  open source. Istilah big data terus bergema dengan pesatnya perkembangan teknologi open source yang mendukungnya. Banyak perusahaan besar membawa teknologi  data besar yang mereka buat dan  gunakan ke komunitas open source. Hal ini kemudian menjadi salah satu faktor terpenting dalam perkembangan big data. 

Ada banyak  teknologi open source  populer di ekosistem big data, berikut  beberapa di antaranya: 

Apache Hadoop 

Apache Hadoop adalah kerangka kerja yang memungkinkan  penyimpanan dan pemrosesan data  besar  terdistribusi di seluruh cluster komputer menggunakan model pemrograman sederhana. Hadoop terinspirasi dari teknologi yang dimiliki oleh Google, seperti Google File System dan Google Map Reduce.

Hadoop menyediakan 3 hal utama yaitu: 

Distributed Storage System 

Hadoop memiliki sistem file  yang disebut Hadoop Distributed File System atau lebih dikenal dengan HDFS. HDFS adalah file terdistribusi atau sistem penyimpanan  data pada cluster Hadoop. HDFS terinspirasi oleh Sistem File Google. 

Parallel and Distributed Computing Framework  

MapReduce adalah model pemrograman untuk  pemrosesan terdistribusi data besar pada cluster Hadoop. MapReduce menjalankan dan memproses data dalam HDFS. 

Manajemen Sumber Daya Terdistribusi 

BENANG adalah alat yang mengelola manajemen sumber daya dan penjadwalan proses di klaster Hadoop. BENANG diperkenalkan di Hadoop 2.0. YARN memisahkan lapisan penyimpanan (HDFS) dan lapisan pemrosesan (MapReduce). Awalnya, Hadoop hanya mendukung MapReduce sebagai satu-satunya framework komputasi paralel yang dapat berjalan di atas cluster Hadoop. YARN memungkinkan banyak kerangka kerja komputasi paralel lainnya seperti Spark, Tez, Storm, dll. untuk berjalan di atas cluster Hadoop dan mengakses data dalam HDFS. 

Komponen Apache Hadoop 

Apache Hive 

Apache Hive adalah kerangka kerja SQL yang berjalan di atas Hadoop. Hive mendukung bahasa pemrograman SQL, yang memudahkan kueri dan analisis data  besar di  Hadoop. Selain Hadoop, Hive juga dapat digunakan di atas sistem file terdistribusi lainnya seperti Amazon AWS3 dan Alluxion. Dukungan 

Hive  SQL  sangat berguna untuk mem-porting aplikasi berbasis SQL ke Hadoop, terutama untuk sebagian besar aplikasi gudang data  yang membutuhkan  penyimpanan dan komputer besar. Hive awalnya  dikembangkan oleh Facebook untuk digunakan sebagai sistem penyimpanan data  mereka. Setelah disumbangkan ke komunitas open source, Hive berkembang  pesat dan  diadopsi secara luas serta dikembangkan oleh perusahaan besar lainnya seperti Netflix dan Amazon.  Komponen Inti Apache Hive 

Komponen Inti Apache Hive 

Hive pada dasarnya hanyalah sebuah lapisan untuk mengubah perintah SQL menjadi kerangka kerja komputasi terdistribusi. Hive dapat berjalan di berbagai framework yang berjalan di Hadoop, seperti MapReduce, Tez atau Spark. 

Apache Spark 

Apache Spark adalah kerangka kerja komputasi terdistribusi yang dirancang untuk pemrosesan  data besar yang cepat. Apache spark memiliki algoritme yang berbeda dari MapReduce, tetapi dapat berjalan di Hadoop dengan YARN. Spark menyediakan API di Scala, Java, Python, dan SQL dan dapat secara efektif menjalankan berbagai jenis proses seperti proses ETL, aliran data, pembelajaran mesin, visualisasi grafis, dan SQL. Selain HDFS, Spark  dapat digunakan dengan sistem file  lain seperti Cassandra, Amazon AWS3, dan penyimpanan cloud lainnya. Fitur utama Spark adalah komputasi cluster dalam memori. Penggunaan memori ini secara signifikan dapat meningkatkan kecepatan pemrosesan aplikasi. Dalam beberapa kasus, kecepatan pemrosesan Spark bisa mencapai 100 kali lebih cepat daripada pemrosesan  disk seperti MapReduce. Sementara MapReduce lebih cocok untuk pemrosesan batch dengan kumpulan data yang sangat besar,  Spark sangat cocok untuk pemrosesan  dan streaming berulang, sehingga Spark banyak digunakan untuk pembelajaran mesin. Spark adalah subproyek dari Hadoop yang dikembangkan pada tahun 2009 di  UC Berkeley AMPLab. Sejak  2009, lebih dari 1.200 pengembang telah berkontribusi pada proyek Apache Spark. 

Selain ketiga teknologi tersebut, ada banyak teknologi dan kerangka kerja data besar open source lainnya seperti HBase, Cassandra, Presto, Storm, Flink, NiFi, Sqoop, Flume, Kafka, dll. 

Big Data Pipeline 

Untuk  memberikan nilai yang berguna, data harus terlebih dahulu melewati berbagai langkah pemrosesan. Mulai dari perekaman/penciptaan, pengumpulan, penyimpanan, pengayaan, analisis dan pengolahan lebih lanjut hingga penyajian. Rangkaian proses data ini sering disebut pipa data. 

Secara umum, Big Data Pipeline dapat dibagi menjadi tiga bagian yaitu: 

Data Engineering: Meliputi pengumpulan data, pengumpulan data, pembersihan, transformasi dan pengayaan. 

Analisis Data  / Pembelajaran Mesin: Termasuk keterampilan perencanaan dan perhitungan. 

Komunikasi data: Representasi data, termasuk implementasi model dalam aplikasi atau sistem, visualisasi, dll. 

Big Data Analytics 

Ketika kita berbicara tentang big data,  biasanya yang kita maksud adalah big data analytics. Hal ini cukup wajar, karena ketika  proyek big data dimulai, diharapkan hasil akhirnya akan memberikan informasi yang berguna yang dapat membantu dalam pengambilan keputusan. 

Analisis Data  sendiri merupakan rangkaian proses untuk memperoleh informasi atau wawasan dari kumpulan data. Data bisa berupa pola, korelasi, tren, dll. Analisis data sering kali melibatkan teknik dan algoritma pemrosesan data yang cukup kompleks seperti penambangan data dan perhitungan statistik. 

Dalam Big Data Analytics, tingkat kesulitannya bahkan lebih tinggi karena data yang diproses berasal dari  sumber yang berbeda dalam format dan jenis yang berbeda dan dengan volume dan kecepatan yang tinggi. Oleh karena itu, Big Data Analytics  menggunakan teknik dan algoritme yang lebih canggih seperti  model prediktif dan pembelajaran mesin untuk melihat tren, pola, korelasi, dan wawasan lainnya. 

Secara umum analisis big data dibagi menjadi kategori, yaitu: 

Analisis deskriptif 

Analisis ini digunakan untuk menjawab pertanyaan tentang apa yang sedang terjadi. Hampir semua organisasi telah menerapkan jenis analisis  ini. 

Analisis Diagnostik 

Setelah kita mengetahui apa yang terjadi,  pertanyaan berikutnya biasanya mengapa hal itu terjadi. Jenis analisis ini menggunakan  data mendalam untuk menemukan penyebab peristiwa yang lebih dalam. 

Predictive Analytics 

Predictive Analytics memberikan prediksi tentang apa yang akan terjadi berdasarkan data yang ada. Jenis analisis ini menggunakan pembelajaran mesin dan teknik serta algoritme kecerdasan buatan untuk membuat model prediktif berdasarkan data historis. 

Analisis Preskriptif 

Menggunakan analisis deskriptif dan prediktif, jenis analisis  ini memberikan informasi yang dapat digunakan untuk menghasilkan hasil prediksi. 

Implementasi Big Data dalam Bisnis 

Kebiasaan masyarakat dan persaingan bisnis di era yang semakin terbuka saat ini menjadikan pengambilan keputusan yang tepat sebagai kunci keberlangsungan bisnis. Data merupakan salah satu faktor keberhasilan  pengambilan keputusan. 

Profil Pelanggan 

Profil dan pola pelanggan dapat dipelajari menggunakan data yang dihasilkan oleh pelanggan yang berinteraksi dengan produk baik secara langsung, melalui situs web, atau melalui aplikasi. Saat ini, informasi profil pelanggan dapat lebih diperluas untuk mencakup informasi geografis bahkan informasi media sosial  yang mereka buat. 

Semakin banyak  informasi yang dikumpulkan dan semakin canggih pemrosesan data, semakin akurat dan detail informasi tentang profil pelanggan dapat diperoleh. Produsen atau penyedia layanan dapat memberikan rekomendasi yang relevan kepada pelanggan untuk meningkatkan penjualan dan loyalitas pelanggan. 

Pengembangan Produk 

Membangun produk dari  ide yang  akhirnya  diterima dengan baik di pasar adalah sebuah tantangan. Data besar dapat memberikan wawasan mendalam  untuk mengidentifikasi kebutuhan pasar, melihat tanggapan pelanggan di papan diskusi atau komentar media sosial, menilai penjualan produk di pasar dengan cepat, mengoptimalkan rantai distribusi, dan mengoptimalkan strategi pemasaran. 

Berkat manajemen informasi yang lebih baik  dan kegunaan yang lebih cepat, dimungkinkan untuk terus menciptakan produk berkelanjutan yang menawarkan nilai tambah yang baik  bagi pelanggan dan pengguna. 

Optimalisasi Harga 

Harga bisa menjadi kunci bagi pelanggan untuk memutuskan produk mana yang akan dibeli. Namun, perang harga juga dapat berdampak buruk pada produk itu sendiri. Big data dapat menyediakan peta dan model harga yang ada di pasar sehingga produsen dapat menentukan harga dan penawaran yang optimal berdasarkan kebutuhan pasar. 

Telekomunikasi Big Data  

Telekomunikasi merupakan salah satu bidang yang mau tidak mau harus berhadapan dengan big data. Selain itu, layanan telekomunikasi bisa dibilang merupakan jantung  dunia digital kita saat ini. Sementara data sering disebut sebagai "minyak baru", penyedia  telekomunikasi seperti  tambang minyak yang sangat produktif. 

Ada banyak sekali sumber data yang ada dalam sebuah perusahaan telekomunikasi. Sebut saja data operasional jaringan, data transaksi percakapan, data koneksi internet, data pelanggan, dan data produk. Jika semua data-data tersebut dapat diintegrasikan dengan baik, maka akan dapat memberikan insight yang dapat digunakan untuk optimalisasi jaringan, meningkatkan pelayanan, pembuatan produk dan program promosi, serta meningkatkan loyalitas pelanggan. 

Big Data untuk Kesehatan 

Data dalam bidang kesehatan adalah salah satu contoh big data karena volume, kompleksitas, keragaman serta tuntutan ketepatan waktunya. Disamping itu layanan kesehatan juga melibatkan banyak sekali pihak, diantaranya yaitu berbagai rumah sakit, lab, klinik, dan asuransi kesehatan. Oleh karena itu, industri kesehatan merupakan industri dengan tantangan besar di bidang big data.

Selain informasi, teknologi berperan penting dalam perkembangan kecerdasan buatan. Berbagai perangkat dan teknologi berkinerja tinggi kini tersedia dengan biaya dan keterjangkauan yang relatif rendah. Kecerdasan buatan yang awalnya dianggap hal yang keren dan hanya bisa diterapkan dengan teknologi tinggi dan mahal, kini kecerdasan buatan bisa diterapkan di berbagai perangkat dan sistem dalam penggunaan sehari-hari. 

Komunitas Big Data Indonesia 

idBigData adalah komunitas big data Indonesia yang diumumkan pada 2 Desember 2014. Saat itu, big data masih merupakan hal yang relatif baru di Indonesia. Banyak orang tidak mengerti apa itu big data, mengapa dan bagaimana menggunakannya. Oleh karena itu, tujuan dibuatnya idBigData sebagai komunitas big data Indonesia harus menjadi platform dimana komponen komunitas dari berbagai bidang berkumpul untuk bertukar pengetahuan dan pengalaman serta membuat berbagai proyek kolaborasi di bidang big data dan penggunaannya, termasuk data science. dan kecerdasan buatan.

Daftar Isi

TEKNOLOGY
  1. Perkembangan Teknologi Telepon
  2. Penemuan Telegraf oleh Samuel F.B. Morse bersama Rekannya
  3. Penemuan Telepon Pertama oleh Philip Reis Tahun 1861
  4. Sejarah Perkembangan Radio dari Tahun 1888 sampai dengan 1960
  5. Penemuan Komponen Televisi oleh Para Ilmuwan
  6. Peranan dan Dampak Teknologi lnformasi Komunikasi
  7. Manfaat Teknologi untuk Bisnis dan Perbankan
  8. Teknologi perbankan, Internet banking, ibanking, jateng, mandiri, klikbca individual
  9. Manfaat Positif Teknologi Informasi di Berbagai Bidang
  10. Dampak Negatif Perkembangan Teknologi terhadap Hak Cipta
  11. Dampak Negatif Perkembangan Teknologi Komunikasi
  12. Efek-Efek Negatif Yang Timbul dari Penggunaan Internet
  13. Membuat Proposal Usaha Elektronika Praktis, Pengertian Proposal Usaha, Sistematika Menyusun Proposal Usaha
  14. printer, teknologi, printing, perkembangannya, perkembangan, dimensi, komunikasi, informasi, digital, yang, dengan, cara, kerja, pengertian, produk
  15. mine, infra, daur, dewatering, hidrologi, konsep, water, teknologi
  16. tambang, drainase, rencana, debit, printing, teknologi, komunikasi, air, perkembangan, digital, informasi, outer, sump
  17. Perencanaan dan Prosese Pembuatan Jalan Tambang
  18. Perencanaan Material Jalan dan Contoh Pembuatan Jalan
  19. Metode Penambangan Terbuka
  20. Pengertian Sumber Daya Alam | Jenis sumber daya alam | Asal Sumber Daya Alam | Guna Sumber Daya Alam
  21. Akibat Buruk dari Perkembangan Teknologi dan Informasi
  22. Definisi Teknologi Informasi, Infrastruktur Teknologi Informasi, Brainware Teknologi Informasi, Profesi dalam Industri Komputer
  23. Digital Siganature | Exploit Kits | Undetection Tool | Botnet Generator | User Account Control | Membuat Digital Certificate 
  24. Manusia, Teknologi,  Sains, Kebutuhan Dasar Manusia, Penciptaan Material, Menciptakan Kekayaan
  25. Definisi Teknologi Informasi  | Definisi Informasi  | Sejarah Teknologi Informasi | Peranan Teknologi Informasi Bagi Kehidupan Manusia | Dampak Kemajuan Teknologi Informasi
  26. Dengan Kompor Biogas maka secara ekonomi pengeluaran perbulan dapat dihemat | Proses Produksi Energi Biogas
JARINGAN
  1. Mengenal Alat Komunikasi Pada Masa Sejarah
  2. Kemajuan Teknologi Komunikasi Seiring Perkembangan Zaman
  3. Buku Teknologi Informasi dan Komunikasi Kelas XI
  4. Smartphone 4G Harga Dibawah 3 Jutaan Rupiah
  5. 9 Tips Pengawet Baterai Handphone Android
  6. Persaingan Teknologi Smartphone 4G LTE
  7. Teknologi Komunikasi, Apple, iPhone, Sony, kode IMEI, Xperia F8331 Trend Pencarian Colombia
  8. Lenovo Vibe C2, Samsung Galaxy J2
  9. Pertumbuhan Teknologi Aplikasi Handphone Android
  10. Sejarah Perkembangan Teknologi Mesin Faximile
  11. Perkembangan Teknologi Televisi
SMARTPHONE
  1. Samsung Galaxy A51 | Desain Makin Cantik dengan Punch Hole Display  | Pertama Bawa One UI 2 | Performa Masih Bisa Diadu | 4  Kamera Utama + 1 Kamera Selfie
  2. Inilah 7 Smartphone Quad Camera Termurah Di Pasar Buat Kamu Yang Hobee Selfie Atau Games Untuk Di Upload Sosial Media
  3. Kamera Quad Buyer | Sensor CMOS IMX586 | Cara Kerja Sensor Quad Bayer
  4. Ketika 5G Diharapkan Bisa Mendorong Penjualan Perangkat |  Pasar PC Global Bakal Terus Menurun
  5. Tes Realme 5i,  Desain  Layar 6.5 Inci "Mini Drop",   OS, Antarmuka, dan Security,   Quad-Camera 12 MP,   Snapdragon 665
  6. Gadget Yang Cocok Untuk Para Pembuat Content Creator  Dalam Berkreasi
  7. Smartphone Satu Jutaan Berbaterai Jumbo Paling Baru
  8. Xiaomi Mi Note 10 Pro vs Samsung Galaxy A71 "Kamera, Performa atau Fitur Bawaan?
  9. Kebutuhan Pasar Akan Produk Samsung Galaxy Note10 Lite
  10. Virus Smartphone, Menguras Rekening Bank,  SMS Lewat Malware, Cara Melindungi diri 
  11. Keunggulan Samsung Galaxy A22 5G Terbaru 
  12. Pasar Perangkat Lunak | Kerja Jarak Jauh 
  13. OnePlus 10T Marvel Edition akan diluncurkan di India selama akhir pekan, inilah yang ada di dalam kotak
TEKNOLOGI ASTRONOMI
  1. Perkembangan Teknologi Media Elektronik Telegraf
  2. Teknologi Elektronik Untuk Mendapatkan Tegangan DC
  3. Produk Rekayasa Pembangkit Listrik Sederhana
  4. Rekayasa | Peluang Usaha Elektronika Praktis | Elektronik Praktis | Uang Elektronik | Pengertian Elektronika Praktis | Aneka Jenis Alat Elektronika Praktiis dan Manfaatnya
  5. Sumberdaya Usaha | Alat Elektronika Praktis | Keindahan Layar LED Raksasa | Komponen Elektronika
  6. Proses Produksi | Alat Elektronika Praktis | Standar Proses Produksi | Mendesain | Kualitas Produk Elektronika Praktis Langkah Keselamatan Kerja Alat Elektronika Praktis
  7. Rekayasa dan Wirausaha Alat Elektronika Dengan Kendali Otomatis
  8. Sumber Daya Karya Rekayasa Elektronika dengan Kendali Otomatis
  9. Pengertian dan Perkembangan Teknologi Radio
  10. Pengertian, Fungsi Resistor, Nama Resistor, Simbol Resistor
  11. Sound System, Beda Surround Dolby Atmos dan Surround Tradisional
  12. Pembangkit Listrik | Tenaga Angin | Desain Produk | Alat Pendukung Produk
TEKNOLOGI FOTOGRAFI
  1. Teknologi Kamera Mirrorless Leica
  2. Perkembangan Teknologi Fotografi Dari Masa Penemuannya
  3. Sejarah Perkembangan Fotografi di Indonesia
  4. Hubungan Seni dan Kreativitas Dengan Fotografi
TEKNOLOGI INDUSTRI
  1. Bioteknologi Pangan Untuk Meningkatkan Hasil Produksi Pertanian
  2. PENGGUNAAN MINYAK DAN LEMAK DALAM BIDANG NON PANGAN
  3. Bioteknologi Pertanian Meningkatkan Hasil Pangan
  4. Negara Yang Punya Teknologi Pertanian Terbaik
  5. Cara Amerika Serikat, Dalam Memajukan Teknologi Pertanian, Kacang Kedelai
  6. Teknologi Baru Peternakan Sapi Tanpa Cari Rumput
  7. Cara Meningkatkan Produksi Biogas Berlipat Ganda
  8. Pengertian, Teknologi, Industri, Jenis, Manfaat, Keunggulan
  9. Tren Industri Teknologi, Pengaruh Teknologi Industri, Pertumbuhan Teknologi Industri
  10. Teknologi Mengolah Sampah | Cara lama tidak efisien | Bermula dari beasiswa | Limbah medis jadi perhatian | Teknologi Pirolisis | Mengubah Plastik Jadi Bahan Bakar Cair
TEKNOLOGI INFORMASI
TEKNOLOGI PENDIDIKAN