7 bune practici în implementarea unei soluții Big Data cu Apache Cassandra

Apache Cassandra a devenit una dintre cele mai populare baze de date NoSQL.
De la înființarea sa în 2008, baza de date open source Apache Cassandra™ s-a dovedit a fi imbatabilă atunci când este nevoie de disponibilitate si scalabilitate. Companii de top ca Netflix, eBay, GitHub și Instagram se bazează pe Cassandra pentru a asigura în permanență funcționalitatea serviciilor și o experiență individualizată a clientului.
O bază de date de asemenea complexitate necesită timp de invatare, dar beneficiile sunt pe măsură.

Iată cele mai importante 7 lucruri de știut pentru a începe lucrul cu Cassandra:

1. Cunoaște tiparele de acces
Pentru a modela datele corect, trebuie să cunoști tiparele de citire și scriere pe care sistemul le va administra. Trebuie sa stii cât de des vor apărea interogările în condiții normale sau la încărcare maximă.

2. Modelează datele
Folosind informațiile despre tiparele de interogare de care are nevoie sistemul tău, poți defini cu ușurință cheile potrivite pentru tabelele tale. Acest lucru previne problemele operaționale care rezultă din modele de date ineficiente sau din partițiile mari de date. Reține că tehnicile de modelare a bazelor de date relaționale nu se traduc direct în modelarea datelor Cassandra, așa că strategia de compactare pentru fiecare tabel trebuie planificată cu atenție.

3. Pregătește planul de operațiuni practice
Bazele de date distribuite nu sunt simplu de operat, însă un plan cu proceduri operaționale bine documentate și bine înțelese îl poate face mai puțin complex. O idee bună este să derulezi sarcini operaționale comune, cum ar fi adăugarea sau eliminarea nodurilor dintr-un cluster, repararea și reconstruirea unui centru de date etc. Ia în considerare instalarea și utilizarea unui program care va monitoriza clusterul și va anunța atunci când apare un eveniment neprevăzut. Si un plan de aplicare a update-urilor.

4. Desfășoară teste de performanță
Înainte de a trece de la mediul de dezvoltare la mediul de producție, este necesar să efectuezi testarea realiste a încărcărilor de date. Configurează o aplicație pre-producție care să corespundă specificațiilor de producție și simulează o încărcare care se potrivește cu volumul de citire și scriere așteptat. Rulează această aplicație timp de câteva zile pentru a te asigura că toate procesele inclusiv cele adiționale sunt în concordanță cu rezultatul așteptat.

5. Alege driverele potrivite
Driverele sunt parte integrantă a suitei de aplicații; asigură-te că sunt cele potrivite. Ai grija la echilibrare a încărcării datelor, setările de îmbinare a conexiunilor și strategiile de reîncercare. Este important să înțelegi modul în care fiecare setare influențează comportamentul datelor în aplicație în condiții normale sau în cazul unor erori.

6. Utilizează un framework automat de gestionare a clusterului
A face management pe un cluster nu este un lucru ușor de făcut fără un sistem care să te ajute. Poți alege dintr-o multitudine de variante de framework pentru a configura și obține confortul necesar în folosirea acestor instrumente automate.

7. Apelează la traineri specializați în domeniu
Apache Cassandra deține o multitudine de resurse open source disponibile, cum ar fi Slack channels și Stack Overflow pentru a te ajuta să îmbunătățesti funcționalitățile Cassandra.
Companii de top în dezvoltarea Cassandra, cum ar fi DataStax, oferă o Academie de training gratuit, precum și cursuri susținute de traineri cu experiență în domeniu.

DataStax Enterprise este baza de date pentru aplicații de tip cloud și oferă funcția de căutare enterprise încorporată pentru datele Cassandra care scalează și funcționează într-un mod care satisface cerințele de căutare ale aplicațiilor de tip cloud actuale.

Inițiativele echipei Relevance legate de soluții leader de big data au condus către DataStax, cea mai rapidă și scalabilă platformă de date distribuite. Suntem așadar, din 2015, partenerul DataStax în România.

Sursă informații: https://dzone.com


Continuăm să fim alături de tine în proiectele de Business Intelligence și Data Management.
Rămâi alături de noi: