Apache Cassandra sur Kubernetes : Systèmes d'événements et de graphes évolutifs

Faire évoluer des applications modernes nécessite une base de données capable de gérer un débit d’écriture élevé, un stockage distribué et une mise à l’échelle horizontale prévisible. Apache Cassandra est devenue une référence pour des entreprises comme Netflix, qui l’utilise comme base de données principale pour ses systèmes de streaming à grande échelle, de recommandation et pilotés par l’état. Alors que Netflix utilise des outils propriétaires pour la sauvegarde et la supervision, Cassandra peut également s’intégrer à des solutions open-source pour la persistance, les sauvegardes et l’observabilité dans des environnements Kubernetes.

Cassandra sur Kubernetes

Exécuter Cassandra sur Kubernetes permet aux équipes de tirer parti de l’orchestration de conteneurs tout en conservant les forces principales de Cassandra.

Principaux avantages :

Évolutivité horizontale : Cassandra s’étend en ajoutant des nœuds, répartissant automatiquement les partitions.
Persistance : Utilisation de StatefulSets avec des Volumes persistants pour garantir que les pods conservent leurs données après redémarrage.
Options de sauvegarde :
- Netflix utilise des outils internes, mais des solutions open-source comme K8ssandra, Medusa ou Cassandra Reaper offrent des fonctionnalités de sauvegarde et de réparation.
Haute disponibilité : La réplication entre nœuds et racks assure la tolérance aux pannes.
Contrôle opérationnel : Les opérateurs Kubernetes (comme le CassOperator) gèrent les mises à jour progressives, les réparations et la gestion du cluster.

Exemple : Persistance des pods

apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: cassandra
spec:
  serviceName: "cassandra"
  replicas: 3
  selector:
    matchLabels:
      app: cassandra
  template:
    metadata:
      labels:
        app: cassandra
    spec:
      containers:
      - name: cassandra
        image: cassandra:4.1
        ports:
        - containerPort: 9042
        volumeMounts:
        - name: cassandra-data
          mountPath: /var/lib/cassandra
  volumeClaimTemplates:
  - metadata:
      name: cassandra-data
    spec:
      accessModes: [ "ReadWriteOnce" ]
      resources:
        requests:
          storage: 50Gi

Cela garantit que chaque pod Cassandra dispose d’un stockage persistant et peut récupérer son état après un redéploiement.

Cas d’usage de Cassandra

1️⃣ Systèmes événementiels ou pilotés par l’état

La conception de Cassandra la rend idéale pour :

Données en séries temporelles
Journaux d’événements
Suivi de l’activité utilisateur
Événements IoT ou blockchain

Exemple de table : Activité utilisateur

CREATE TABLE user_activity (
  user_id text,
  event_date date,
  event_time timestamp,
  event_type text,
  metadata text,
  PRIMARY KEY ((user_id, event_date), event_time)
) WITH CLUSTERING ORDER BY (event_time DESC);

Requête :

SELECT * FROM user_activity
WHERE user_id = 'u1'
AND event_date = '2026-02-27';

2️⃣ Données hiérarchiques ou structurées

Cassandra peut également modéliser des arbres ou structures hiérarchiques via :

Pattern de liste d’adjacence : Parent → Enfants
Chemins matérialisés : Stocker le chemin complet sous forme de chaîne
Arbre dénormalisé : Niveaux pré-calculés pour des requêtes prévisibles

Exemple de table : Hiérarchie des catégories

CREATE TABLE category_children (
  parent_id text,
  child_id text,
  name text,
  PRIMARY KEY (parent_id, child_id)
);

La requête des enfants est rapide, mais la traversée complète de l’arbre doit être effectuée côté application ou via des outils graphiques.

3️⃣ Modélisation graphique avec JanusGraph

Pour les graphes sociaux, recommandations ou relations complexes, Cassandra peut servir de backend de stockage pour JanusGraph.

Exemple de tables générées par JanusGraph :

Table des sommets (Vertices)

Colonne	Description
vertex_id	ID unique de l’utilisateur ou entité
label	Type de sommet (`User`)
properties:name	Nom de l’utilisateur
properties:any	Autres propriétés

Table des arêtes (Edges)

Colonne	Description
edge_id	ID unique de l’arête
out_vertex_id	Sommet source
in_vertex_id	Sommet cible
label	Type d’arête (`FRIEND`)
properties:any	Métadonnées (since, poids)

Exemple Gremlin :

g.V().has('vertex_id','u1').out('FRIEND').values('name')

Récupère tous les amis de l’utilisateur u1
Permet efficacement les relations amis d’amis, les amis mutuels et les arêtes pondérées

Cassandra vs CouchDB Mango Queries

Fonctionnalité	Cassandra	CouchDB Mango
Langage de requête	CQL (tables partitionnées)	Mango (requêtes JSON)
Idéal pour	Événements, séries temporelles, systèmes pilotés par l’état	Documents JSON flexibles
Évolutivité horizontale	✅ Excellent	Modérée, réplication en cluster
Modélisation graphique	✅ Avec JanusGraph	❌ Non supporté nativement

Remarque : Cassandra excelle pour des écritures distribuées à haut débit et des partitions prévisibles, tandis que CouchDB est adaptée aux applications documentaires, offline-first, avec une grande flexibilité de requêtes.

Idéal pour les systèmes basés sur LangGraph

L’architecture partitionnée et évolutive de Cassandra la rend adaptée aux pipelines LangGraph, où :

Les flux d’événements sont stockés sous forme de tables en séries temporelles
Les relations graphiques sont maintenues via JanusGraph
Les traversées ou recommandations en temps réel sont nécessaires
L’évolutivité horizontale est critique

Conclusion

Apache Cassandra sur Kubernetes est un choix puissant pour :

Les architectures événementielles
Les systèmes pilotés par l’état
Les graphes sociaux à grande échelle avec JanusGraph
La modélisation hiérarchique pour des requêtes prévisibles
Les pipelines AI/data basés sur LangGraph

Avec des pods persistants, des outils de sauvegarde et des modèles de données flexibles, Cassandra fournit une base distribuée et évolutive, sur laquelle Netflix et d’autres leaders s’appuient pour leurs systèmes critiques.

Article Précédent Article Suivant