Apache Cassandra en Kubernetes: Sistemas de eventos y grafos escalables

Escalar aplicaciones modernas requiere una base de datos capaz de manejar un alto volumen de escrituras, almacenamiento distribuido y escalado horizontal predecible. Apache Cassandra se ha convertido en una referencia para empresas como Netflix, que la utiliza como base de datos principal para sus sistemas de streaming a gran escala, recomendación y sistemas basados en estado. Mientras Netflix utiliza herramientas propietarias para respaldo y monitoreo, Cassandra también puede integrarse con soluciones open-source para persistencia, backups y observabilidad en entornos Kubernetes.

Cassandra en Kubernetes

Ejecutar Cassandra en Kubernetes permite a los equipos aprovechar la orquestación de contenedores manteniendo las principales fortalezas de Cassandra.

Beneficios clave:

Escalabilidad horizontal: Cassandra escala agregando nodos, distribuyendo automáticamente las particiones.
Persistencia: Uso de StatefulSets con Persistent Volumes para garantizar que los pods mantengan sus datos tras reinicios.
Opciones de respaldo:
- Netflix utiliza herramientas internas, pero opciones open-source como K8ssandra, Medusa o Cassandra Reaper ofrecen funcionalidades de backup y reparación.
Alta disponibilidad: La replicación entre nodos y racks asegura tolerancia a fallos.
Control operativo: Operadores de Kubernetes (como CassOperator) gestionan actualizaciones progresivas, reparaciones y la administración del cluster.

Ejemplo: Persistencia de pods

apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: cassandra
spec:
  serviceName: "cassandra"
  replicas: 3
  selector:
    matchLabels:
      app: cassandra
  template:
    metadata:
      labels:
        app: cassandra
    spec:
      containers:
      - name: cassandra
        image: cassandra:4.1
        ports:
        - containerPort: 9042
        volumeMounts:
        - name: cassandra-data
          mountPath: /var/lib/cassandra
  volumeClaimTemplates:
  - metadata:
      name: cassandra-data
    spec:
      accessModes: [ "ReadWriteOnce" ]
      resources:
        requests:
          storage: 50Gi

Esto asegura que cada pod de Cassandra tenga almacenamiento persistente y pueda recuperar su estado tras un redeployment.

Casos de uso de Cassandra

1️⃣ Sistemas basados en eventos o estado

El diseño de Cassandra la hace ideal para:

Datos de series temporales
Logs de eventos
Seguimiento de actividad de usuarios
Eventos IoT o blockchain

Ejemplo de tabla: Actividad de usuario

CREATE TABLE user_activity (
  user_id text,
  event_date date,
  event_time timestamp,
  event_type text,
  metadata text,
  PRIMARY KEY ((user_id, event_date), event_time)
) WITH CLUSTERING ORDER BY (event_time DESC);

Consulta:

SELECT * FROM user_activity
WHERE user_id = 'u1'
AND event_date = '2026-02-27';

2️⃣ Datos jerárquicos o estructurados

Cassandra también puede modelar árboles o estructuras jerárquicas usando:

Patrón de lista de adyacencia: Padre → Hijos
Rutas materializadas: Almacenar la ruta completa como cadena
Árbol denormalizado: Niveles precalculados para consultas predecibles

Ejemplo de tabla: Jerarquía de categorías

CREATE TABLE category_children (
  parent_id text,
  child_id text,
  name text,
  PRIMARY KEY (parent_id, child_id)
);

Consultar los hijos es rápido, pero la traversa completa del árbol debe hacerse desde la aplicación o mediante herramientas gráficas.

3️⃣ Modelado de grafos con JanusGraph

Para grafos sociales, recomendaciones o relaciones complejas, Cassandra puede servir como backend de almacenamiento para JanusGraph.

Ejemplo de tablas generadas por JanusGraph:

Tabla de vértices (Vertices)

Columna	Descripción
vertex_id	ID único del usuario o entidad
label	Tipo de vértice (`User`)
properties:name	Nombre del usuario
properties:any	Otras propiedades

Tabla de aristas (Edges)

Columna	Descripción
edge_id	ID único del edge
out_vertex_id	Vértice de origen
in_vertex_id	Vértice destino
label	Tipo de arista (`FRIEND`)
properties:any	Metadatos (since, peso)

Ejemplo Gremlin:

g.V().has('vertex_id','u1').out('FRIEND').values('name')

Recupera todos los amigos del usuario u1
Permite relaciones amigos de amigos, amigos mutuos y aristas ponderadas eficientemente

Cassandra vs CouchDB Mango Queries

Funcionalidad	Cassandra	CouchDB Mango
Lenguaje de consulta	CQL (tablas particionadas)	Mango (consultas JSON)
Ideal para	Eventos, series temporales, sistemas basados en estado	Documentos JSON flexibles
Escalabilidad horizontal	✅ Excelente	Moderada, replicación en cluster
Modelado de grafos	✅ Con JanusGraph	❌ No soportado nativamente

Nota: Cassandra sobresale en escrituras distribuidas de alto rendimiento y particionamiento predecible, mientras que CouchDB es más adecuado para apps documentales offline-first con gran flexibilidad en consultas.

Ideal para sistemas basados en LangGraph

La arquitectura particionada y escalable de Cassandra la hace adecuada para pipelines LangGraph, donde:

Los flujos de eventos se almacenan en tablas de series temporales
Las relaciones gráficas se mantienen mediante JanusGraph
Se necesitan recorridos o recomendaciones en tiempo real
La escalabilidad horizontal es crítica

Conclusión

Apache Cassandra en Kubernetes es una opción potente para:

Arquitecturas orientadas a eventos
Sistemas basados en estado
Grafos sociales a gran escala con JanusGraph
Modelado jerárquico para consultas predecibles
Pipelines AI/data basados en LangGraph

Con pods persistentes, herramientas de backup y patrones de datos flexibles, Cassandra proporciona una base distribuida y escalable que Netflix y otros líderes confían para sus sistemas críticos.

Artículo Anterior Artículo Siguiente