Recientes incidentes de pérdida de datos

Recientemente, a lo largo del periodo festivo, Sea of Thieves sufrió varios problemas que causaron que los datos de los jugadores como el oro, doblones, elogios o logros obtenidos en ese periodo se perdiesen. Un ingeniero de Rare ha realizado un post en el foro contando el problema y qué harán para evitar que ocurra de nuevo.

Si quieres ver el post original haz click aqui.

 

Hola a todos,

Me llamo Rob y soy el director técnico de servicios de Rare. Estoy aquí porque quería dedicar algo de tiempo a hablaros de los problemas que tuvimos durante el periodo festivo (y este pasado fin de semana), y de cómo estamos avanzando para evitar otro problema de esta naturaleza.

 

Como estoy seguro de que todos sabéis, Sea of Thieves ha ido viento en popa en 2020. Hemos lanzado el juego en Steam, hemos estado lanzando continuamente actualizaciones de contenido mensuales, y los mares se convirtieron en un lugar para que la gente se conectara cuando no podía reunirse en persona. Todo esto culminó en un periodo extraordinariamente ajetreado para Sea of Thieves durante las vacaciones. Nuestro juego resultó ser extremadamente popular durante y hasta la Navidad de 2020, y el período de vacaciones fue el más exitoso para el título desde su lanzamiento en términos de tráfico.

 

Además de todo lo que hemos lanzado en Sea of Thieves durante el año, en 2020 también hemos introducido campañas que nos permiten programar eventos para que los jugadores experimenten entre actualizaciones.

 

Alrededor de las 8 de la tarde del 28 de diciembre de 2020, el servicio que se encarga de seguir la progresión de las campañas comenzó a retrasarse en el procesamiento del flujo de eventos que se utilizan para indicar la progresión de los jugadores. Al pasar por nuestro pico de jugadores diarios, muchos millones de mensajes estaban esperando a ser procesados cuando normalmente los procesaríamos todos inmediatamente.

 

Dada nuestra popularidad durante este periodo, era la primera vez que este servicio experimentaba una carga de este nivel. Como resultado, el servicio tardaba cada vez más en registrar e informar de la finalización de un evento por parte del jugador. Normalmente, tenemos varias mitigaciones que utilizamos para afectar al rendimiento de un servicio en respuesta a la carga que se le aplica. Sin embargo, en este caso esas mitigaciones tuvieron poco o ningún efecto sobre la cantidad de eventos que el servicio procesaba, y por ello la cola de mensajes aumentó.

 

A lo largo de las horas y los días siguientes, nuestros ingenieros enviaron varias actualizaciones de rendimiento al servicio afectado en un esfuerzo por resolver el incidente o, al menos, minimizar el impacto; sin embargo, aunque conseguimos hacer mejoras, no pudimos hacer una mejora suficiente para satisfacer la demanda que se estaba produciendo en el servicio, y el problema persistió.

 

A medida que nuestro análisis y respuesta a los incidentes continuaba, se hizo evidente que, independientemente de los cambios que hiciéramos, seguíamos chocando con un límite de rendimiento, lo que significaba que algo más estaba limitando la cantidad de trabajo que este servicio podía realizar. Finalmente, logramos determinar que un servicio no relacionado, que se encontraba en la parte inferior de la red, estaba causando que nuestro sistema de eventos limitara la cantidad de trabajo que podía ser completado por el servicio afectado.

 

Este servicio no relacionado es un nuevo servicio en producción que estábamos probando entre bastidores para probar las cargas, antes de lanzar la nueva funcionalidad en 2021. El objetivo de la prueba del servicio era validar su rendimiento en condiciones de venta. Se había desplegado a finales de noviembre de 2020, mucho antes de que viéramos ningún problema, y nuestra telemetría no daba ninguna indicación de que estuviera luchando por mantener el ritmo o de que estuviera aplicando silenciosamente una contrapresión a los servicios anteriores.

 

Como el servicio que estaba causando el problema sólo se estaba probando y aún no lo utilizaban los jugadores, lo desactivamos y el servicio afectado respondió inmediatamente despejando el retraso y volviendo a su rendimiento normal. Sin embargo, cuando volvimos a encender el servicio la semana pasada, vimos que se repetía la misma situación a pesar de las medidas de mitigación que habíamos tomado.

 

Así es como estamos avanzando a partir de esto:

  • Un análisis retrospectivo y de la causa raíz de este tipo de incidentes.
  • Vigilar más de cerca los nuevos servicios y tener una sospecha natural de ellos durante un evento de impacto.
  • Desarrollar una mejor comprensión y visibilidad de cómo los servicios bajo presión están impactando en otros servicios.
  • Examinar nuestra arquitectura para romper la cadena de impacto en la que un servicio puede repercutir en el rendimiento de otro.

 

Este es uno de los incidentes de mayor impacto que hemos tenido en Sea of Thieves desde su lanzamiento, y hay mucho que aprender de lo que hemos experimentado durante este periodo. Sabemos que no ha sido un gran periodo para los jugadores de Sea of Thieves, y estamos trabajando duro para asegurar la estabilidad del juego en el futuro.

 

 

 

 

 

Sigue leyendo: