O diretor de segurança do Github, Mike Hanley, disse em 16 de maio do blog oficial “Na semana passada, o Github teve vários problemas de disponibilidade, tanto de longo quanto de curto prazo. Desde então, mitigamos o problema e agora todos os sistemas estão funcionando normalmente.” “As causas desse incidente não estavam relacionadas, mas no geral teve um impacto negativo nos serviços do Github. Isso é inaceitável. Também se desviou dos padrões que o Github deve seguir”, acrescentou.
Três incidentes consecutivos em 9, 10 e 11 de maio de 2023 afetaram os principais serviços fornecidos pelo GitHub, informou a empresa.
De acordo com a empresa, a falha do banco de dados do Git em 9 de maio causou a falha do banco de dados do Github devido a uma alteração na configuração. “Oito em cada 10 serviços no portal de status estão fora do ar”, disse Hanley. “A maior parte do tempo de inatividade durou cerca de uma hora”, disse ele. “Por cerca de uma hora, muitos serviços não conseguiram ler os dados recém-gravados do Git, resultando em interrupções generalizadas. Demorou muito tempo para recuperar alguns pull request e push de dados.”
Segundo Hanley, a interrupção do serviço no dia 9 foi causada por uma alteração na configuração de um serviço interno que fornece dados do Git. “Essa mudança foi planejada para evitar a saturação da conexão e foi introduzida com sucesso em outros back-ends do Git antes. Mas desta vez, o cluster falhou logo após o início do lançamento. Reverti a alteração de configuração e tentei reverter em minutos, mas a reversão falhou devido a um erro interno de infraestrutura.”
Posteriormente, o incidente de 10 de maio ocorreu devido à degradação do desempenho da função de emissão de token de autenticação do aplicativo Github devido à carga. Seis dos 10 serviços importantes do GitHub foram afetados. “Vimos um aumento de 7x na latência de gravação para permissões de aplicativos GitHub em clusters de banco de dados que atendem tokens de autenticação de aplicativos GitHub”, disse Hanley. A taxa de falha de solicitações de token de autenticação atingiu um pico de 76% em um curto período de tempo.”
Ele acrescentou: “O problema de emissão de token foi causado pela ‘implementação ineficiente’ da API para gerenciar as permissões do aplicativo GitHub, e o GitHub está atualizando a API para verificar as alterações no estado da instalação”.
O banco de dados do GitHub sofreu novamente em 11 de maio com a perda de réplicas de leitura. “O cluster de banco de dados que atende os dados do Git travou, acionando um failover automático, e o failover primário foi bem-sucedido, mas a réplica de leitura não foi conectada. “Em média, 15% das solicitações de dados do Git falham ou ficam lentas porque o servidor subjacente não consegue lidar com a carga total de leitura/gravação”, disse ele. Falha ao extrair dados do fluxo de trabalho do GitHub Actions ou pull request não atualizado.”
Hanley disse que, para evitar que incidentes semelhantes aconteçam no futuro, eles estão atentos a vários aspectos, como examinar de perto os processos internos e coordenar as mudanças para que possam ser implantados com mais segurança. “Além da análise e revisão post-mortem habituais, estamos analisando o impacto geral desses incidentes para identificar áreas onde podemos mitigar o impacto de interrupções semelhantes no futuro. “Também estamos melhorando a observabilidade de padrões de consulta de alto custo e baixo volume e nossa capacidade de diagnosticar e mitigar rapidamente esses tipos de problemas.”
No entanto, ao contrário do anúncio de que esta medida estava sendo tomada, os incidentes e acidentes do GitHub não cessaram nos últimos quatro meses, com 3 incidentes em fevereiro, 6 incidentes em março e 4 incidentes em abril.
[email protected]
Source: ITWorld Korea by www.itworld.co.kr.
*The article has been translated based on the content of ITWorld Korea by www.itworld.co.kr. If there is any problem regarding the content, copyright, please leave a report below the article. We will try to process as quickly as possible to protect the rights of the author. Thank you very much!
*We just want readers to access information more quickly and easily with other multilingual content, instead of information only available in a certain language.
*We always respect the copyright of the content of the author and always include the original link of the source article.If the author disagrees, just leave the report below the article, the article will be edited or deleted at the request of the author. Thanks very much! Best regards!