Chapter
5
Data-Intensive
Technologies for Cloud Computing
(Teknologi Data-Intensif
untuk Cloud Komputasi)
Sebagai akibat dari ledakan informasi, banyak organisasi data
yang tenggelam
dan hasil "Data gap"
atau ketidakmampuan untuk memproses
informasi dan menggunakannya
secara efektif meningkat pada tingkat yang mengkhawatirkan. Komputasi data-intensif
merupakan paradigma komputasi
baru yang dapat mengatasi
kesenjangan data menggunakan pemrosesan
paralel scalable
untuk memungkinkan pemerintah, organisasi komersial, dan penelitian lingkungan untuk memproses
sejumlah besar data dan mengimplementasikan
aplikasi sebelumnya dianggap
tidak praktis atau tidak layak.
Cloud computing memberikan kesempatan
untuk organisasi dengan sumber daya terbatas internal untuk menerapkan
skala besar data-intensif
aplikasi komputasi dengan cara yang
hemat biaya.
Tantangan fundamental komputasi data-intensif
mengelola dan pengolahan
eksponensial pertumbuhan volume data, secara signifikan mengurangi data yang terkait siklus analisis untuk mendukung praktis, aplikasi tepat
waktu, dan mengembangkan algoritma
baru yang dapat skala untuk mencari dan memproses data dalam jumlah besar. Peneliti di LexisNexis percaya
bahwa jawaban untuk tantangan ini adalah scalable, terintegrasi
hardware sistem komputer dan
arsitektur perangkat lunak yang dirancang untuk paralel pengolahan aplikasi komputasi data-intensif. Bab ini mengeksplorasi
tantangan komputasi data-intensif
dan menawarkan perbandingan mendalam komersial
arsitektur sistem yang tersedia termasuk LexisNexis data
Analytics Supercomputer (DAS) juga
disebut sebagai LexisNexis High-Performance
Komputasi Cluster (HPCC),
dan Hadoop, implementasi
open source berbasis
pada arsitektur MapReduce Google.
Cloud computing menekankan kemampuan
untuk skala sumber daya komputasi yang diperlukan tanpa investasi awal yang besar di
bidang infrastruktur dan terkait operasional
berkelanjutan biaya. Layanan komputasi awan biasanya dikategorikan
dalam tiga model:
1.
Infrastructure
as a Service (IaaS). Layanan tersebut meliputi
penyediaan perangkat keras dan
perangkat lunak untuk pengolahan, penyimpanan data, jaringan dan setiap infrastruktur yang diperlukan untukpenyebaran sistem operasi dan aplikasi yang biasanya akan diperlukan di sebuah pusat data yang dikelola oleh pengguna
perangkat lunak untuk pengolahan, penyimpanan data, jaringan dan setiap infrastruktur yang diperlukan untukpenyebaran sistem operasi dan aplikasi yang biasanya akan diperlukan di sebuah pusat data yang dikelola oleh pengguna
2.
Platform
as a Service (PaaS). Layanan
termasuk bahasa pemrograman dan alat-alat dan platform
aplikasi pengiriman diselenggarakan oleh penyedia layanan untuk mendukung
pengembangan dan pengiriman end-user aplikasi
3.
Software
sebagai Service (SaaS). Hosted
aplikasi perangkat lunak disediakan dan dikelola oleh penyedia layanan untuk
pengguna akhir menggantikan lokal dijalankan
aplikasi dengan aplikasi berbasis web.
Aplikasi komputasi data-intensif dilaksanakan baik
menggunakan IaaS Model yang memungkinkan penyediaan cluster scalable prosesor untuk data
parallel komputasi menggunakan berbagai arsitektur perangkat
lunak, atau model PaaS yang menyediakan pengolahan lengkap dan lingkungan
pengembangan aplikasi, termasuk baik infrastruktur dan platform yang komponen seperti
bahasa pemrograman dan aplikasi alat pengembangan. Komputasi
data-intensif dapat diimplementasikan dalam
awan publik (infrastruktur awan dan platform yang
tersedia untuk umum dari awan penyedia jasa) seperti Amazon Elastic Compute Cloud (EC2)
dan elastis MapReduce atau sebagai private cloud (cloud infrastruktur dan platform yang
dioperasikan semata-mata untuk sebuah organisasi tertentu dan mungkin ada internal atau
eksternal untuk organisasi). IaaS dan PaaS
implementasi untuk data-intensif komputasi dapat berupa dinamis ditetapkan dalam lingkungan
tervirtualisasi pengolahan berdasarkan penjadwalan aplikasi dan persyaratan pengolahan data, atau
dapat diimplementasikan
sebagai konfigurasi ketersediaan tinggi persisten. Sebuah konfigurasi persisten
memiliki keunggulan kinerja karena menggunakan
infrastruktur yang berdedikasi bukan virtualisasi server dibagi dengan pengguna lain.
Data-intensif digunakan untuk menggambarkan aplikasi yang
I / O terikat atau dengan kebutuhan
untuk memproses volume data yang besar. Karakteristik Sistem Komputasi Data-Intensif :
untuk memproses volume data yang besar. Karakteristik Sistem Komputasi Data-Intensif :
·
Pendekatan untuk paralel pemrograman untuk
mengatasi pemrosesan paralel data pada sistem data-intensif
·
Pemrograman abstraksi termasuk model, bahasa,
dan algoritma yang
memungkinkan ekspresi
alami pengolahan paralel data
·
Desain platform komputasi data-intensif
untuk memberikan tingkat kehandalan yang tinggi, efisiensi, ketersediaan,
dan skalabilitas.
·
Mengidentifikasi aplikasi yang dapat
memanfaatkan paradigma komputasi dan mencegah
Pendekatan
untuk pemrosesan paralel sering disebut sebagai
sebuah "shared nothing" pendekatan karena
setiap node terdiri dari prosesor, memori lokal,
dan saham sumber daya disk apa-apa dengan node lain dalam
cluster. Arsitektur MapReduce dan model pemrograman dipelopori oleh Google adalah
contoh arsitektur sistem
modern yang dirancang untuk memproses
dan menganalisis dataset besar dan sedang digunakan
dengan sukses oleh Google dalam
banyak aplikasi untuk memproses
sejumlah besar rawWeb data.
Hadoop adalah sebuah proyek perangkat lunak open source yang disponsori
oleh The Apache Software.
Bahasa pemrograman ECL merupakan
faktor kunci dalam fleksibilitas
dan kemampuan
lingkungan pengolahan HPCC. ECL ini dirancang untuk menjadi transparan dan bahasa pemrograman paralel implisit untuk aplikasi data-intensif. Manfaat utama dari ECL dapat diringkas sebagai berikut:
lingkungan pengolahan HPCC. ECL ini dirancang untuk menjadi transparan dan bahasa pemrograman paralel implisit untuk aplikasi data-intensif. Manfaat utama dari ECL dapat diringkas sebagai berikut:
·
ECL menggabungkan
transparan dan implisit paralelisme data yang terlepas
dari ukuran dari cluster komputasi dan mengurangi kompleksitas pemrograman paralel
meningkatkan
produktivitas pengembang aplikasi.
·
ECL memungkinkan
penerapan aplikasi data-intensif dengan volume besar
data sebelumnya dianggap terselesaikan atau tidak
layak. ECL secara khusus dirancang
untuk manipulasi data dan pemrosesan query. Urutan besarnya
meningkatkan kinerja atas pendekatan lain yang mungkin.
·
ECL
menyediakan IDE komprehensif dan tool pemrograman yang menyediakan
lingkungan yang sangat-interaktif untuk pengembangan
cepat dan pelaksanaan Aplikasi ECL.
·
ECL
adalah kuat, tingkat tinggi, pemrograman paralel yang ideal bahasa untuk
implementasi ETL, Information Retrieval, Ekstraksi Informasi, dan lainnya
aplikasi data-intensif.
·
ECL adalah bahasa matang dan terbukti tapi
masih berkembang sebagai kemajuan baru dalam
pemrosesan paralel dan komputasi data-intensif terjadi.
pemrosesan paralel dan komputasi data-intensif terjadi.
Sebagai akibat
dari berkembangnya informasi, banyak organisasi yang datanya tertutup dan kesenjangan data atau ketidakmampuan untuk memproses
informasi ini dan menggunakannya efektif meningkat pada tingkat yang mengkhawatirkan. Komputasi data-intensif merupakan
paradigma komputasi baru yang dapat mengatasi kesenjangan data dan
memungkinkan pemerintah dan organisasi komersial dan lingkungan penelitian untuk
memproses sejumlah besar data dan aplikasi implement sebelumnya dianggap tidak
praktis atau tidak layak.
Beberapa
organisasi dengan pandangan ke depan mengakui sejak awal bahwa baru
paralel-processing arsitektur yang diperlukan termasuk Google yang awalnya
dikembangkan theMapReduce arsitektur dan LexisNexis yang mengembangkan arsitektur
HPCC. Baru-baru ini
platform Hadoop telah muncul sebagai alternatif open
source untuk pendekatan MapReduce. Hadoop
telah memperoleh momentum dengan cepat, dan tambahan add-on kemampuan
untuk meningkatkan platform telah dikembangkan termasuk
pemrograman dataflow bahasa dan lingkungan eksekusi yang disebut Babi. Arsitektur ini, relatif mereka
kekuatan dan kelemahan, dan penerapan mereka untuk komputasi awan dijelaskan. Ketersediaan
bahasa pemrograman tingkat tinggi paralel berorientasi dataflow telah terbukti menjadi faktor penentu keberhasilan dalam komputasi data-intensif.
kekuatan dan kelemahan, dan penerapan mereka untuk komputasi awan dijelaskan. Ketersediaan
bahasa pemrograman tingkat tinggi paralel berorientasi dataflow telah terbukti menjadi faktor penentu keberhasilan dalam komputasi data-intensif.
Kesesuaian
processing platform dan arsitektur untuk sebuah organisasi dan persyaratan
aplikasi yang hanya dapat ditentukan setelah evaluasi seksama tersedia
alternatif. Banyak
organisasi telah memeluk platform open source sementara
lain lebih platform komersial dikembangkan dan didukung
oleh mapan
pemimpin industri. The Hadoop Platform MapReduce sekarang sedang digunakan dengan sukses di banyak perusahaan Web yang disebut yang datanya meliputi sejumlah besar Web Informasi sebagai sumber datanya. The LexisNexis Platform HPCC adalah jantung dari utama penyedia jasa informasi dan pemimpin industri, dan telah diadopsi oleh instansi pemerintah, organisasi komersial, dan laboratorium penelitian karena implementasi hemat biaya-kinerja tinggi. Ada aplikasi HPCC termasuk baku pengolahan data, ETL, dan menghubungkan sejumlah besar data untuk mendukung layanan informasi online seperti LexisNexis dan informasi industri terkemuka aplikasi pencari seperti Accurint, ekstraksi entitas dan resolusi entitas data terstruktur dan semi-terstruktur seperti dokumen Web untuk mendukung informasi ekstraksi, analisis statistik Web log untuk aplikasi keamanan seperti sebagai pendeteksi intrusi, pengolahan analisis online untuk mendukung bisnis intelijen analisis dan data dataset besar di bidang pendidikan dan penelitian, sistem (BIS) lingkungan dan oleh instansi pemerintah negara bagian dan federal.
pemimpin industri. The Hadoop Platform MapReduce sekarang sedang digunakan dengan sukses di banyak perusahaan Web yang disebut yang datanya meliputi sejumlah besar Web Informasi sebagai sumber datanya. The LexisNexis Platform HPCC adalah jantung dari utama penyedia jasa informasi dan pemimpin industri, dan telah diadopsi oleh instansi pemerintah, organisasi komersial, dan laboratorium penelitian karena implementasi hemat biaya-kinerja tinggi. Ada aplikasi HPCC termasuk baku pengolahan data, ETL, dan menghubungkan sejumlah besar data untuk mendukung layanan informasi online seperti LexisNexis dan informasi industri terkemuka aplikasi pencari seperti Accurint, ekstraksi entitas dan resolusi entitas data terstruktur dan semi-terstruktur seperti dokumen Web untuk mendukung informasi ekstraksi, analisis statistik Web log untuk aplikasi keamanan seperti sebagai pendeteksi intrusi, pengolahan analisis online untuk mendukung bisnis intelijen analisis dan data dataset besar di bidang pendidikan dan penelitian, sistem (BIS) lingkungan dan oleh instansi pemerintah negara bagian dan federal.
Ada banyak
pengorbanan dalam membuat keputusan yang tepat dalam memilih baru
arsitektur sistem komputer, dan sering pendekatan yang
terbaik adalah untuk melakukan spesifik uji benchmark dengan aplikasi pelanggan untuk menentukan
sistem secara keseluruhan efektivitas dan kinerja. Relatif karakteristik
biaya-kinerja sistem dalam tambahan untuk kesesuaian, fleksibilitas, skalabilitas, jejak,
dan kekuasaan faktor konsumsi yang berdampak pada total biaya kepemilikan (TCO) harus
dipertimbangkan. Alternatif
komputasi awan yang mengurangi atau menghilangkan muka
investasi infrastruktur juga harus dipertimbangkan jika
sumber daya internal yang terbatas. Perbandingan arsitektur MapReduce Hadoop untuk arsitektur
HPCC dalam
bab ini mengungkapkan banyak kesamaan antara platform termasuk penggunaan
dari bahasa pemrograman berorientasi dataflow tingkat
tinggi untuk menerapkan transparan Data-pemrosesan paralel. Kedua
platform beradaptasi dengan komputasi awan untuk memberikan
platform sebagai layanan (PaaS). Keuntungan utama
menggunakan arsitektur Hadoop adalah ketersediaan dalam komputasi awan menawarkan
layanan publik. Namun, swasta
komputasi awan yang memanfaatkan konfigurasi persisten
dengan infrastruktur yang berdedikasi bukan server virtualisasi bersama dengan pengguna lain
umum dalam awan publik komputasi dapat memiliki keuntungan kinerja yang
signifikan untuk komputasi data-intensif aplikasi.
Beberapa
keuntungan tambahan memilih LexisNexis HPCC
Platform yang dapat digunakan dalam komputasi awan privat
meliputi:
1.
Arsitektur
yang mengimplementasikan lingkungan sistem yang sangat
terintegrasi dengan kemampuan dari pengolahan data mentah untuk pertanyaan kinerja
tinggi dan analisis data menggunakan bahasa umum
2.
Arsitektur yang memberikan kinerja setara pada
biaya sistem jauh lebih rendah berdasarkan jumlah node
pengolahan diperlukan sebagai ditunjukkan dengan Sortir patokan Terabyte mana platform
HPCC adalah hampir 4 kali lebih cepat dari Hadoop berjalan pada hardware yang sama
sehingga secara signifikan menurunkan total biaya kepemilikan (TCO)
3.
Arsitektur yang telah terbukti stabil dan dapat diandalkan pada produksi
pengolahan data kinerja tinggi aplikasi untuk organisasi bervariasi selama periode
10-tahun
4.
Arsitektur yang menggunakan bahasa pemrograman dataflow (ECL) dengan luas
kemampuan built-in untuk pengolahan data-paralel yang memungkinkan operasi
kompleks tanpa perlu ekstensif fungsi user-defined dan secara otomatis
mengoptimalkan eksekusi grafik dengan ratusan langkah pengolahan menjadi efisien tunggal
workunits
5.
Arsitektur dengan tinggi tingkat kesalahan ketahanan dan kemampuan bahasa
yang mengurangi kebutuhan untuk pengolahan kembali dalam kasus kegagalan sistem, dan (6)
arsitektur yang tersedia dari dan didukung oleh seorang pemimpin terkenal dalam
layanan informasi dan solusi risiko (LexisNexis) yang merupakan bagian dari salah satu
penerbit terbesar di dunia informasi
ReedElsevier.
ReedElsevier.