Friday, July 5, 2013

Data-Intensive Technologies for Cloud Computing

Chapter 5
Data-Intensive Technologies for Cloud Computing
(Teknologi Data-Intensif untuk Cloud Komputasi)
            Sebagai akibat dari ledakan informasi, banyak organisasi data yang tenggelam dan hasil "Data gap" atau ketidakmampuan untuk memproses informasi dan menggunakannya secara efektif meningkat pada tingkat yang mengkhawatirkan. Komputasi data-intensif merupakan paradigma komputasi baru yang dapat mengatasi kesenjangan data menggunakan pemrosesan paralel scalable untuk memungkinkan pemerintah, organisasi komersial, dan penelitian lingkungan untuk memproses sejumlah besar data dan mengimplementasikan aplikasi sebelumnya dianggap tidak praktis atau tidak layak. Cloud computing memberikan kesempatan untuk organisasi dengan sumber daya terbatas internal untuk menerapkan skala besar data-intensif aplikasi komputasi dengan cara yang hemat biaya.
            Tantangan fundamental komputasi data-intensif mengelola dan pengolahan eksponensial pertumbuhan volume data, secara signifikan mengurangi data yang terkait siklus analisis untuk mendukung praktis, aplikasi tepat waktu, dan mengembangkan algoritma baru yang dapat skala untuk mencari dan memproses data dalam jumlah besar. Peneliti di LexisNexis percaya bahwa jawaban untuk tantangan ini adalah scalable, terintegrasi hardware sistem komputer dan arsitektur perangkat lunak yang dirancang untuk paralel pengolahan aplikasi komputasi data-intensif. Bab ini mengeksplorasi tantangan komputasi data-intensif dan menawarkan perbandingan mendalam komersial arsitektur sistem yang tersedia termasuk LexisNexis data Analytics Supercomputer (DAS) juga disebut sebagai LexisNexis High-Performance Komputasi Cluster (HPCC), dan Hadoop, implementasi open source berbasis pada arsitektur MapReduce Google.
            Cloud computing menekankan kemampuan untuk skala sumber daya komputasi yang diperlukan tanpa investasi awal yang besar di bidang infrastruktur dan terkait operasional berkelanjutan biaya. Layanan komputasi awan biasanya dikategorikan dalam tiga model:
1.      Infrastructure as a Service (IaaS). Layanan tersebut meliputi penyediaan perangkat keras dan
perangkat lunak untuk pengolahan, penyimpanan data, jaringan dan setiap infrastruktur yang diperlukan untukpenyebaran sistem operasi dan aplikasi yang biasanya akan diperlukan di sebuah pusat data yang dikelola oleh pengguna
2.      Platform as a Service (PaaS). Layanan termasuk bahasa pemrograman dan alat-alat dan platform aplikasi pengiriman diselenggarakan oleh penyedia layanan untuk mendukung pengembangan dan pengiriman end-user aplikasi
3.      Software sebagai Service (SaaS). Hosted aplikasi perangkat lunak disediakan dan dikelola oleh penyedia layanan untuk pengguna akhir menggantikan lokal dijalankan aplikasi dengan aplikasi berbasis web.

            Aplikasi komputasi data-intensif dilaksanakan baik menggunakan IaaS Model yang memungkinkan penyediaan cluster scalable prosesor untuk data parallel komputasi menggunakan berbagai arsitektur perangkat lunak, atau model PaaS yang menyediakan pengolahan lengkap dan lingkungan pengembangan aplikasi, termasuk baik infrastruktur dan platform yang komponen seperti bahasa pemrograman dan aplikasi alat pengembangan. Komputasi data-intensif dapat diimplementasikan dalam awan publik (infrastruktur awan dan platform yang tersedia untuk umum dari awan penyedia jasa) seperti Amazon Elastic Compute Cloud (EC2) dan elastis MapReduce atau sebagai private cloud (cloud infrastruktur dan platform yang dioperasikan semata-mata untuk sebuah organisasi tertentu dan mungkin ada internal atau eksternal untuk organisasi). IaaS dan PaaS implementasi untuk data-intensif komputasi dapat berupa dinamis ditetapkan dalam lingkungan tervirtualisasi pengolahan berdasarkan penjadwalan aplikasi dan persyaratan pengolahan data, atau dapat diimplementasikan sebagai konfigurasi ketersediaan tinggi persisten. Sebuah konfigurasi persisten memiliki keunggulan kinerja karena menggunakan infrastruktur yang berdedikasi bukan virtualisasi server dibagi dengan pengguna lain.

            Data-intensif digunakan untuk menggambarkan aplikasi yang I / O terikat atau dengan kebutuhan
untuk memproses volume data yang besar. Karakteristik Sistem Komputasi Data-Intensif :

·         Pendekatan untuk paralel pemrograman untuk mengatasi pemrosesan paralel data pada sistem data-intensif
·         Pemrograman abstraksi termasuk model, bahasa, dan algoritma yang memungkinkan ekspresi alami pengolahan paralel data
·         Desain platform komputasi data-intensif untuk memberikan tingkat kehandalan yang tinggi, efisiensi, ketersediaan, dan skalabilitas.
·         Mengidentifikasi aplikasi yang dapat memanfaatkan paradigma komputasi dan mencegah

            Pendekatan untuk pemrosesan paralel sering disebut sebagai sebuah "shared nothing" pendekatan karena setiap node terdiri dari prosesor, memori lokal, dan saham sumber daya disk apa-apa dengan node lain dalam cluster. Arsitektur MapReduce dan model pemrograman dipelopori oleh Google adalah contoh arsitektur sistem modern yang dirancang untuk memproses dan menganalisis dataset besar dan sedang digunakan dengan sukses oleh Google dalam banyak aplikasi untuk memproses sejumlah besar rawWeb data. Hadoop adalah sebuah proyek perangkat lunak open source yang disponsori oleh The Apache Software.
            Bahasa pemrograman ECL merupakan faktor kunci dalam fleksibilitas dan kemampuan
lingkungan pengolahan HPCC. ECL ini dirancang untuk menjadi transparan dan
bahasa pemrograman paralel implisit untuk aplikasi data-intensif. Manfaat utama dari ECL dapat diringkas sebagai berikut:
·         ECL menggabungkan transparan dan implisit paralelisme data yang terlepas dari ukuran dari cluster komputasi dan mengurangi kompleksitas pemrograman paralel meningkatkan produktivitas pengembang aplikasi.
·         ECL memungkinkan penerapan aplikasi data-intensif dengan volume besar data sebelumnya dianggap terselesaikan atau tidak layak. ECL secara khusus dirancang untuk manipulasi data dan pemrosesan query. Urutan besarnya meningkatkan kinerja atas pendekatan lain yang mungkin.
·         ECL menyediakan IDE komprehensif dan tool pemrograman yang menyediakan lingkungan yang sangat-interaktif untuk pengembangan cepat dan pelaksanaan Aplikasi ECL.
·         ECL adalah kuat, tingkat tinggi, pemrograman paralel yang ideal bahasa untuk implementasi ETL, Information Retrieval, Ekstraksi Informasi, dan lainnya aplikasi data-intensif.
·          ECL adalah bahasa matang dan terbukti tapi masih berkembang sebagai kemajuan baru dalam
pemrosesan paralel dan komputasi data-intensif terjadi.

            Sebagai akibat dari berkembangnya informasi, banyak organisasi yang  datanya tertutup dan kesenjangan data atau ketidakmampuan untuk memproses informasi ini dan menggunakannya efektif meningkat pada tingkat yang mengkhawatirkan. Komputasi data-intensif merupakan paradigma komputasi baru yang dapat mengatasi kesenjangan data dan memungkinkan pemerintah dan organisasi komersial dan lingkungan penelitian untuk memproses sejumlah besar data dan aplikasi implement sebelumnya dianggap tidak praktis atau tidak layak.
            Beberapa organisasi dengan pandangan ke depan mengakui sejak awal bahwa baru paralel-processing arsitektur yang diperlukan termasuk Google yang awalnya dikembangkan theMapReduce arsitektur dan LexisNexis yang mengembangkan arsitektur HPCC. Baru-baru ini platform Hadoop telah muncul sebagai alternatif open source untuk pendekatan MapReduce. Hadoop telah memperoleh momentum dengan cepat, dan tambahan add-on kemampuan untuk meningkatkan platform telah dikembangkan termasuk pemrograman dataflow bahasa dan lingkungan eksekusi yang disebut Babi. Arsitektur ini, relatif mereka
kekuatan dan kelemahan, dan penerapan mereka untuk komputasi awan dijelaskan. Ketersediaan
bahasa pemrograman tingkat tinggi paralel berorientasi dataflow telah terbukti menjadi faktor penentu keberhasilan dalam komputasi data-intensif.
            Kesesuaian processing platform dan arsitektur untuk sebuah organisasi dan persyaratan aplikasi yang hanya dapat ditentukan setelah evaluasi seksama tersedia alternatif. Banyak organisasi telah memeluk platform open source sementara lain lebih platform komersial dikembangkan dan didukung oleh mapan
pemimpin industri. The Hadoop Platform MapReduce sekarang sedang digunakan dengan sukses di banyak perusahaan Web yang disebut yang datanya meliputi sejumlah besar Web Informasi sebagai sumber datanya. The LexisNexis Platform HPCC adalah jantung dari utama penyedia jasa informasi dan pemimpin industri, dan telah diadopsi oleh instansi pemerintah, organisasi komersial, dan laboratorium penelitian karena implementasi hemat biaya-kinerja tinggi. Ada aplikasi HPCC termasuk baku pengolahan data, ETL, dan menghubungkan sejumlah besar data untuk mendukung layanan informasi online seperti LexisNexis dan informasi industri terkemuka aplikasi pencari seperti Accurint, ekstraksi entitas dan resolusi entitas data terstruktur dan semi-terstruktur seperti dokumen Web untuk mendukung informasi ekstraksi, analisis statistik Web log untuk aplikasi keamanan seperti sebagai pendeteksi intrusi, pengolahan analisis online untuk mendukung bisnis intelijen analisis dan data dataset besar di bidang pendidikan dan penelitian, sistem (BIS) lingkungan dan oleh instansi pemerintah negara bagian dan federal.
            Ada banyak pengorbanan dalam membuat keputusan yang tepat dalam memilih baru arsitektur sistem komputer, dan sering pendekatan yang terbaik adalah untuk melakukan spesifik uji benchmark dengan aplikasi pelanggan untuk menentukan sistem secara keseluruhan efektivitas dan kinerja. Relatif karakteristik biaya-kinerja sistem dalam tambahan untuk kesesuaian, fleksibilitas, skalabilitas, jejak, dan kekuasaan faktor konsumsi yang berdampak pada total biaya kepemilikan (TCO) harus dipertimbangkan. Alternatif komputasi awan yang mengurangi atau menghilangkan muka investasi infrastruktur juga harus dipertimbangkan jika sumber daya internal yang terbatas. Perbandingan arsitektur MapReduce Hadoop untuk arsitektur HPCC dalam bab ini mengungkapkan banyak kesamaan antara platform termasuk penggunaan dari bahasa pemrograman berorientasi dataflow tingkat tinggi untuk menerapkan transparan Data-pemrosesan paralel. Kedua platform beradaptasi dengan komputasi awan untuk memberikan platform sebagai layanan (PaaS). Keuntungan utama menggunakan arsitektur Hadoop adalah ketersediaan dalam komputasi awan menawarkan layanan publik. Namun, swasta komputasi awan yang memanfaatkan konfigurasi persisten dengan infrastruktur yang berdedikasi bukan server virtualisasi bersama dengan pengguna lain umum dalam awan publik komputasi dapat memiliki keuntungan kinerja yang signifikan untuk komputasi data-intensif aplikasi.
            Beberapa keuntungan tambahan memilih LexisNexis HPCC Platform yang dapat digunakan dalam komputasi awan privat meliputi:
1.      Arsitektur yang mengimplementasikan lingkungan sistem yang sangat terintegrasi dengan kemampuan dari pengolahan data mentah untuk pertanyaan kinerja tinggi dan analisis data menggunakan bahasa umum
2.      Arsitektur yang memberikan kinerja setara pada biaya sistem jauh lebih rendah berdasarkan jumlah node pengolahan diperlukan sebagai ditunjukkan dengan Sortir patokan Terabyte mana platform HPCC adalah hampir 4 kali lebih cepat dari Hadoop berjalan pada hardware yang sama sehingga secara signifikan menurunkan total biaya kepemilikan (TCO)
3.      Arsitektur yang telah terbukti stabil dan dapat diandalkan pada produksi pengolahan data kinerja tinggi aplikasi untuk organisasi bervariasi selama periode 10-tahun
4.      Arsitektur yang menggunakan bahasa pemrograman dataflow (ECL) dengan luas kemampuan built-in untuk pengolahan data-paralel yang memungkinkan operasi kompleks tanpa perlu ekstensif fungsi user-defined dan secara otomatis mengoptimalkan eksekusi grafik dengan ratusan langkah pengolahan menjadi efisien tunggal workunits
5.      Arsitektur dengan tinggi tingkat kesalahan ketahanan dan kemampuan bahasa yang mengurangi kebutuhan untuk pengolahan kembali dalam kasus kegagalan sistem, dan (6) arsitektur yang tersedia dari dan didukung oleh seorang pemimpin terkenal dalam layanan informasi dan solusi risiko (LexisNexis) yang merupakan bagian dari salah satu penerbit terbesar di dunia informasi
ReedElsevier.