Mengapa Google Cloud Dataflow tidak membunuh Hadoop

Layanan pengolahan data baru Google mungkin terlihat seperti dirancang untuk memikat pengguna menjauh dari Hadoop, tapi fokusnya lebih selektif

Google Cloud Dataflow

Diresmikan awal pekan ini, layanan Cloud Dataflow Google jelas bersaing dengan layanan pemrosesan streaming Data Amazon Kinesis dan produk data yang besar seperti Hadoop - terutama sejak Cloud Dataflow dibangun pada teknologi bahwa klaim Google menggantikan algoritma belakang Hadoop.

Tapi melihat lebih dekat, Cloud Dataflow adalah pemikiran yang lebih baik sebagai cara bagi pengguna Google Cloud untuk memperkaya aplikasi yang mereka kembangkan - dan data yang mereka deposit - dengan komponen analisis. Seorang pembunuh Hadoop? Mungkin tidak.

Google menagih layanan sebagai "langkah terbaru dalam upaya kami untuk membuat data dan analisis diakses oleh semua orang," dengan penekanan pada aplikasi yang sedang menulis daripada data yang Anda memanipulasi.

Secara signifikan, Google Cloud Dataflow dimaksudkan untuk menggantikan MapReduce, perangkat lunak di jantung Hadoop dan sistem pengolahan data besar lainnya. MapReduce pada awalnya dikembangkan oleh Google dan kemudian open-source, tetapi Urs Hölzle, wakil presiden senior dari infrastruktur teknis, menyatakan di Google I / O keynote pada hari Rabu bahwa "kita [at Google] tidak benar-benar menggunakan MapReduce lagi."

Di tempat MapReduce, Google menggunakan dua proyek lainnya, Flume dan MillWheel, yang tampaknya dipengaruhi desain Dataflow itu. Mantan memungkinkan Anda mengelola piplines paralel untuk pengolahan data, yang MapReduce tidak memberikan sendiri. Yang terakhir ini digambarkan sebagai "kerangka kerja untuk membangun aplikasi pengolahan data low-latency," dan tampaknya telah digunakan secara luas di Google untuk beberapa waktu.

Paling menonjol, Cloud Dataflow disebut-sebut sebagai unggul MapReduce dalam jumlah data yang dapat diproses secara efisien. Hölzle mengklaim kinerja yang buruk MapReduce dimulai setelah jumlah data mencapai kisaran multipetabyte. Untuk perspektif, mengklaim Facebook pada tahun 2012 itu memiliki 100-petabyte Hadoop klaster, meskipun perusahaan tidak masuk ke detail tentang berapa banyak modifikasi kustom yang digunakan atau bahkan jika MapReduce itu sendiri masih beroperasi.

Analis Ovum Tony Baer melihat Google Cloud Dataflow sebagai "bagian dari tren utama di mana kita melihat ledakan kerangka kerja yang berbeda dan pendekatan untuk membedah dan menganalisis data yang besar. Dimana pengolahan data sekali besar itu praktis identik dengan MapReduce," katanya dalam sebuah email , "Anda sekarang melihat kerangka seperti Spark, Storm, Giraph, dan lain-lain menyediakan alternatif yang memungkinkan Anda untuk memilih pendekatan yang tepat untuk masalah analitik."

Hadoop sendiri tampaknya miring jauh dari MapReduce mendukung lebih maju (jika menuntut) algoritma pengolahan, seperti Apache Spark. "Banyak masalah tidak meminjamkan diri ke proses dua langkah dari peta dan mengurangi," jelas InfoWorld Andy Oliver, "dan bagi mereka yang melakukannya, Spark dapat melakukan peta dan mengurangi jauh lebih cepat daripada Hadoop bisa."

Baer sependapat: "Dari kelihatannya, Google Cloud Dataflow tampaknya memiliki kemiripan dengan Spark, yang juga memanfaatkan memori dan menghindari overhead MapReduce."

Perbedaan terbesar antara tunggal Hadoop dan Google Cloud Dataflow, meskipun, terletak pada di mana dan bagaimana setiap kemungkinan besar akan dikerahkan. Data cenderung diproses di mana ia duduk, dan untuk alasan itu Hadoop telah menjadi menyimpan data sebanyak sistem pengolahan data. Mereka eying Google Cloud Dataflow tidak mungkin untuk bermigrasi petabyte data ke dalamnya dari instalasi Hadoop yang ada. Ini lebih mungkin Cloud Dataflow akan digunakan untuk meningkatkan aplikasi yang sudah ditulis untuk Google Cloud, yang mana data yang sudah berada dalam sistem Google atau sedang dikumpulkan di sana. Itu bukan di mana sebagian besar proyek Hadoop, sekarang atau di masa depan, yang akan berakhir.

"Saya tidak melihat ini sebagai sebuah drama migrasi," kata Baer.