El giro de Coinbase hacia operaciones lideradas por IA no está yendo muy bien

Coinbase (Nasdaq: COIN) ha vuelto a mostrar a los traders de criptomonedas lo lento que puede ser el hardware en la nube para arruinar incluso un intercambio rápido. Parece que la estrategia de pivote de operaciones impulsadas por IA de la compañía podría haber sido su peor movimiento hasta ahora.

El viernes, la compañía informó que una falla de enfriamiento dentro de Amazon Web Services (Nasdaq: AMZN), ayudó a desencadenar una interrupción de varias horas que afectó el comercio, el acceso a intercambios y las actualizaciones de saldo en toda su plataforma.

El problema comenzó aproximadamente a las 23:50 UTC del 7 de mayo, cuando los monitores internos detectaron una propagación generalizada de fallos en las cotizaciones dentro de los sistemas de la compañía.

En ese momento, varios incidentes Sev1 fueron creados por los ingenieros, y los clientes ya estaban afectados en términos de servicios como comercio spot, Coinbase Prime, Internacional, derivados, Retail, Advanced y intercambios institucionales.

Brian Armstrong, CEO de Coinbase, escribió en X que su empresa “experimentó una interrupción” y que tal ocurrencia era “nunca aceptable”. Según él, la causa fue “un sobrecalentamiento en una sala de un centro de datos de AWS debido a múltiples enfriadores que fallaron.”

Según Brian, la compañía asegura que todos sus servicios están diseñados de tal manera que no se desconectan en caso de que falle una zona de disponibilidad de AWS. La mayoría de los servicios están estructurados así, excepto el intercambio, que utiliza una infraestructura diferente debido a sus altas demandas de latencia.

Coinbase culpa a los enfriadores fallidos de AWS ya que los sistemas de cotización comienzan a fallar antes de la medianoche UTC

Se informó anteriormente por Cryptopolitan que Coinbase planea despedir a 700 empleados, lo que constituye aproximadamente el 14% de la fuerza laboral total. Y esto se hace con la intención de reemplazar procesos manuales con IA.

Rob Witoff, quien dirige la Plataforma de Coinbase, dio los detalles técnicos del asunto. Según él, la interrupción duró mucho tiempo y afectó “el comercio, el acceso a intercambios y las actualizaciones de saldo.”

La advertencia inicial ocurrió alrededor de las 23:50 UTC debido a fallos en las cotizaciones provenientes de los sistemas internos. Seguidamente, se realizó un análisis Sev1 inmediato. Según Rob, la causa de este problema fue un “evento térmico” en un pequeño porcentaje de racks en una de las instalaciones en AWS us-east-1.

Tal estructura para la infraestructura del intercambio resultó útil. Rob dijo que Coinbase mantiene su infraestructura de intercambio en una zona de disponibilidad, ya que la industria valora la velocidad.

Además, la firma tiene una copia de respaldo distribuida de esta infraestructura de intercambio en caso de escenarios como este. Pero la falla de una parte de la infraestructura del intercambio en ese momento no se quedó dentro de sus límites, prolongando el proceso de reparación.

Fallaron dos componentes. Hubo una falla en el hardware debajo del motor de emparejamiento. Por lo tanto, antes de cualquier otra cosa, fue necesario realizar operaciones de recuperación y conmutación por error.

También, el clúster distribuido de Kafka, encargado de compartir información en todos los sistemas de la organización, se cayó. Se requirió la recuperación de las particiones de Kafka en un nuevo hardware, que contenía TiBs de información.

Los ingenieros reconstruyen el quórum y restauran los mercados de Coinbase mediante modos de cancelación únicamente y subasta

El motor de emparejamiento fue responsable de la mayor interrupción en el comercio. El motor de emparejamiento procesa órdenes y mantiene los libros de órdenes. El sistema funciona en un clúster distribuido y requiere quórum antes de elegir un líder y realizar operaciones de forma segura.

Dado que no todos los nodos permanecieron saludables debido a las restricciones en el centro de datos durante la interrupción, no se pudo lograr el quórum, lo que impidió las actividades de comercio en los intercambios Retail, Advanced e Institucional.

Rob mencionó que los equipos de soporte en línea y de ingeniería tuvieron que ejecutar los procedimientos de recuperación ante desastres de la compañía, establecer el quórum y evaluar la salud del sistema en circunstancias de infraestructura difíciles.

Según él, el equipo tuvo que desarrollar, probar, desplegar y validar una solución mientras gestionaba la interrupción general. Kafka habría requerido una recuperación manual extensa porque su arquitectura particionada administra miles de terabytes diariamente.

Hubo algunos problemas con los flujos de saldo retrasados porque Kafka estaba atrasado. Rob afirmó que estos problemas con los saldos desaparecieron después de que la replicación se sincronizó. Según Coinbase, no se perdió ningún dato.

Cuando el motor de emparejamiento volvió a estar en servicio, los mercados no se reactivaron simultáneamente. Primero, Coinbase cambió todos los productos a modo de cancelación únicamente, verificó los estados de los productos, cambió todos los mercados a modo de subasta y, finalmente, habilitó el comercio en Coinbase Exchange.

Además, Rob enfatizó que los clientes no deberían quedar bloqueados temporalmente fuera de sus cuentas. Coinbase aseguró a todos que la compañía proporcionaría una explicación detallada de este incidente en varias semanas.

Sin embargo, Josh Ellithorpe refutó los rumores tras leer la publicación de Rob en Twitter. Como dijo, “nadie programó algo que fallara. Un ‘no ingeniero’ no empujó código a producción y desactivó el motor de comercio. No fue intencional. No fue porque Coinbase no diseñara un sistema de conmutación por error. Las cosas suceden a escala, no dejen que los quarterbacks de sillón les cuenten historias falsas.”

Si quieres una entrada más tranquila en DeFi crypto sin el bombo habitual, empieza con este video gratuito.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado