Uma falha nas configurações da rede interna do WhatsApp, Facebook e Instagram causou uma das panes mais longas de suas histórias na última segunda-feira (4). O ponto central da falha estava nos roteadores de backbone.
A empresa não detalhou exatamente como esses roteadores foram afetados, mas uma configuração mal feita deixou os servidores dos aplicativos sem comunicação com a internet.
Apesar do nome estranho, a tradução do termo em inglês "backbone" (espinha dorsal) pode ajudar a entender: são ligações centrais em um sistema com várias conexões (veja no infográfico acima).
Os aplicativos ficaram fora do ar por cerca de 6 horas no mundo todo e fez com que bilhões de pessoas ficassem sem acesso.
O que aconteceu?
O Facebook disse que “alterações de configuração nos roteadores de backbone que coordenam o tráfego de rede entre nossos data centers causaram problemas que interromperam a comunicação”.
Em outras palavras, os sistemas do Facebook (que incluem o WhatsApp e o Instagram) deixaram de “conversar” com a internet no geral. Por isso, quando alguém tentava acessar esses serviços, recebia mensagens de erro ou simplesmente não conseguia carregar os apps.
A rede social disse ainda que o problema não teve a ver com ataque hacker e que não há indícios de vazamentos ou comprometimento dos dados das pessoas durante a instabilidade.
O que é backbone?
O nome "backbone" é esquisito, mas a tradução do termo em inglês (espinha dorsal) pode ajudar a entender: são ligações centrais em um sistema com várias conexões.
“Assim como todo mundo tem um roteador em casa, o Facebook tem milhares de roteadores espalhados pelo mundo que ligam os servidores internos da empresa com a internet. E houve um erro de configuração nos roteadores”, explica Thiago Ayub, diretor de tecnologia da Sage Networks.
“Backbone é um conjunto de roteadores interligados entre si espalhados pelo mundo. Na medida, em que cometemos um erro configuração significa que todos os roteadores dele deixaram de acessar a internet”, completou.
Essa configuração mal feita fez com que os servidores do Facebook não conseguissem se comunicar entre si e com a internet. O que a empresa não explica é como realizou a configuração errada para gerar a pane.
Por que os erros 'DNS' e '500/5XX' apareciam nas páginas?
Quando as pessoas tentavam entrar no endereço de qualquer um dos 3 aplicativos, surgia a mensagem "DNS_PROBE_FINISHED_NXDOMAIN", o que levou muitas pessoas a especularem que a pane foi causada por um "erro de DNS".
Na verdade, o "erro de DNS" foi um sintoma do apagão. Como o Facebook explicou, a origem estava na comunicação entre os seus servidores. Embora as pessoas vissem o erro de DNS, a conexão do Facebook com o mundo que estava interrompida.
O DNS é a "agenda de contatos" da internet. É ele que registra os números (endereços de IP) associados aos "nomes de domínio" (como "globo.com").
A internet só funciona com números, então essa "agenda" cumpre o objetivo de permitir consultas (chamadas de "resoluções de domínio") para que qualquer pessoa possa saber o número de IP do site que pretende acessar. Se acontece uma falha, o acesso à página fica indisponível porque não é possível encontrar o caminho certo para chegar nela.
"Os endereços de IP da empresa Facebook responsáveis pelo serviço de internet se tornaram inalcançáveis", explica Ayub.
"Se a gente fosse fazer uma analogia com a telefonia, é como se você fosse telefonar para o número do Facebook e desse que esse número não foi encontrado", continua.
Para algumas pessoas que tentaram acessar Facebook, Instagram e WhatsApp, apareceu um "Erro 500" ou "Erro 5XX". Esse tipo de mensagem geralmente indica uma dificuldade do computador do usuário se comunicar com o servidor do site ou aplicativo.
"Toda a família de erro que começa com 500 (de 500 a 599) significa que houve um erro interno no servidor. Ou seja, com você usuário, seu navegador, seu smartphone, está tudo certo. O problema não é do seu lado. O problema é do outro lado do modem, do outro lado do nosso celular, que é o servidor", indica Ayub.
Quem alterou as configurações do backbone?
O Facebook não deu detalhes da origem do problema. Mas especialistas indicam a causa mais provável: uma configuração que retirou os sites da empresa da rota do chamado “Border Gateway Protocol”, ou BGP.
Se os DNS é a agenda de contatos, o BGP é o sistema de navegação – o que decide qual rota a rede deve pegar para que a informação chegue corretamente.
Sem as rotas BGP para a rede do Facebook, os próprios servidores do Facebook ficaram inalcançáveis - incluindo o WhatsApp e o Instagram. Essa é a tese apontada pela Cloudflare, uma empresa de infraestrutura de internet que tem um serviço de DNS.
Com a ausência do Facebook da internet, outros serviços apresentaram instabilidade. Isso porque o tráfego desses sites e aplicativos teve um pico, o que também afetou companhias como o Cloudflare.
Fonte: G1