domingo, 7 de janeiro de 2018

8 erros comuns ao lidar com dados e estatísticas, na gestão e na política


Generalizar experiências individuais, ignorar correlações, não entender probabilidade, e torturar dados, são erros comuns em discussões sobre estatísticas, principalmente se o assunto for política ou gestão pública.


Trabalhando há anos com análise de dados e lidando com centenas de milhares de seguidores, percebi que, com conhecimento, disciplina e honestidade, podemos elevar o nível das conversas e decisões, melhorando portanto a gestão das nossas carreiras, empresas e sociedade.
Veja neste artigo alguns dos erros que mais me chamam a atenção ao discutir e tomar decisões usando dados:

Considerar alguma experiência individual como algo generalizado



Uma experiência individual não necessariamente representa um cenário médio. O teste que o Felipe fez não tem a menor relevância frente à média nacional de velocidade de conexão.

Quando uma pessoa está num carro sem cinto de segurança, é ejetada para fora do carro durante um capotamento, o carro é esmagado e, aparentemente, estar sem cinto salva sua vida, isso não quer dizer que todo mundo deva passar a não usar cinto. A estatística de vidas salvas pelo cinto de segurança permanece favorável ao uso do dispositivo de segurança, mesmo que uma, duas ou dez pessoas tenham sobrevivido por estarem sem cinto.

É sempre bom lembrar deste já clássico exemplo dado por João Dória, prefeito de São Paulo:

Tentando explicar o aumento de mortes nas marginais de SP, Doria diz que haveria um aumento de 15% no fluxo de veículos nas principais vias; quando questionado da fonte, João afirma sem sentir qualquer embaraço: os dados são da impressão dele.
Ou no caso deste não-eleitor do Bolsonaro, tentando refutar pesquisa Datafolha de abril de 2017:
Perceba que o Ricardo comete o erro de achar que, por conhecer uma pessoa homossexual e negra que alega votar no Bolsonaro, a estatística de característica média de seus eleitores estaria errada. Neste caso aí, um caso específico de eleitor negro e homossexual não vai alterar significativamente a definição média de quem apoia Bolsonaro, seria preciso uma multidão para esta proporção ser afetada.

Achar que correlação implicaria causalidade

No gráfico abaixo, a linha vermelha é a quantidade de piratas desde o início do séc. 19, a linha azul é a temperatura média global.
Perceba que, conforme o número de piratas diminui, a temperatura média da Terra sobe. Isso quer dizer que, para resfriar a terra, deveríamos incentivar pirataria? Claro que não. Há uma correlação negativa entre o número de piratas e o aquecimento global, mas uma coisa não é causada pela outra. Aumentar o número de piratas não vai esfriar a terra, esquentar a terra não vai reduzir o número de piratas (a não ser que todos morram torrados no calor, mas enfim).
Se uma pessoa com câncer começa a tomar suco de limão e seu câncer entra em remissão, isso não implica necessariamente que a melhora na saúde do doente foi causada pelo suco de limão matinal.
Inclusive, há uma correlação entre mortes por afogamento e filmes com Nicholas Cage, mas eliminar filmes com Nicholas Cage não vai combater mortes por afogamento.
Veja outras correlações curiosas neste site: http://www.tylervigen.com/spurious-correlations

Não usar a correlação – independente de causalidade – a seu favor nas análises e predições

Este é um ponto polêmico e pouco-científico no sentido acadêmico, mas útil no sentido comercial e mercadológico: Saber uma correlação, mesmo sem ter certeza da causalidade, pode ter valor na gestão de projetos e negócios. 
Se você descobriu uma correlação entre o volume nacional de vendas de sorvete e o faturamento da sua marca de sabão em pó, pode ser interessante usar este dado para gestão de seu negócio, mesmo sem ter certeza da causalidade: será que estão usando mais sabão para limpar sujeira de sorvete? Não sei, mas se a correlação existe, podemos usar mesmo sem saber a causalidade.

Considerar que subgrupos contaminados com tendências representam o todo

Muitos anos atrás eu vi uma palestra do Marcelo Tas num evento, provavelmente era a Campus Party. Ele falava de como as pessoas comentavam ativamente sobre o CQC no Twitter, onde o programa pautava discussões e frequentemente colocava termos e hashtags nos trending topics. 
Alguém da plateia perguntou ao Tas se ele considerava as opiniões lidas no Twitter para conduzir o programa, alterar quadros e modificar pautas; o apresentador foi muito preciso e comedido, disse que não podia considerar as opiniões que ele lia no Twitter como representativas da opinião pública sobre o CQC. Que lição! Não é porque 150 pessoas reclamaram de um certo quadro do programa que isso representa a opinião dos outros milhões de telespectadores, é preciso coletar estatísticas confiáveis para saber a opinião de um grupo.

Ignorar os dados só porque você não gosta deles

Numa conversa sobre a idade da terra, apareceu um seguidor defendendo que a terra teria 6 mil anos:
Existem fatos demonstrando que a terra tem (muito) mais de 6 mil anos, mas o Eduardo escolhe ignorar tais dados, pois eles não dizem o que Eduardo quer ouvir.
Outro exemplo: analisando a política nos EUA desde 1968 – data escolhida para contemplar a última grande mudança de posicionamento dos partidos Republicano e Democrata, que se mantém até hoje –, há muito mais condenações e prisões no executivo quando o poder está com os republicanos. 
Desde 1968 os Democratas ficaram 20 anos no poder e houve 1 prisão. Os Republicanos ficaram 28 anos no poder e houve 34 prisões.
Se você é simpatizante do partido Republicano, você pode não gostar destes dados, você pode até tentar explicar de maneira criativa este desequilíbrio todo, mas você não deve, jamais, ignorar os dados só porque você não gosta deles.

Torturar os dados até eles dizerem o que você quer que eles digam

Primeiro você coleta os dados, depois você aplica sua narrativa preferida sobre os dados que coletou, independente do que os dados estejam demonstrando.
Recentemente tem feito sucesso nas redes sociais este gráfico, supostamente demonstrando que o bitcoin seria uma bolha:
Perceba que o gráfico superior traz a cotação em Euro, o que é, no mínimo, incomum. Além disso, usa a cotação de apenas uma das várias bolsas de bitcoin existentes. Outro detalhe importante é que o tal "padrão", com dois picos seguidos, aconteceu também quando o bitcoin estava custando €6 mil, veja:
E mesmo com estes dois picos fazendo exatamente o padrão que o gráfico inferior (Stages of a Financial Bubble) denuncia, o bitcoin continuou subindo de €6 mil até €16 mil, o que não quer dizer que a criptomoeda vá continuar subindo, mas o argumento do gráfico é desmentido no próprio gráfico.

Usar dados manipulados para mentir deliberadamente

Se você usar dados para mentir, pode ser que a conta chegue quando você menos espera:

Em probabilidade, confundir "chance" com "certeza"

Antes das eleições presidenciais americanas de 2016, Donald Trump contra Hillary Clinton, o New York Times publicou o seguinte tweet:
Após a vitória de Trump, o post acima foi prontamente usado nas redes sociais para, supostamente, "comprovar" a ineficiência da mídia tradicional, e denunciar a "mentira" e "imprecisão" dos institutos de pesquisa. Detratores traziam os mais variados tipos de acusações recheadas de ignorância, de não entendimento do método de amostragem à pura e simples trollagem. Muitas demonstrações de ignorância ainda podem ser vistos como respostas ao post do NYTimes.
Para entender por que é uma ignorância, veja o que publiquei no próprio twitter em relação à este post do New York Times:
Sabiam que o post do NYTimes não tem nada de errado? Muitos acham que a vitória de Trump invalidaria este post do NYT. Mas não necessariamente.
O post diz que, a cada 100 eleições exatamente iguais àquela, D. Trump venceria 8 e H. Clinton 92. Calhou de 2016 ser uma das 8 de Trump.
Fazer piada com este post do NYTimes é na verdade um recibo do piadista, no topo tem escrito "eu não sei estatística de ensino fundamental".
Pensa comigo: qual a chance de uma vira-latas nascida na rua, no Gama, cidade na periferia do Distrito Federal, vir morar em Nova York?
É assim que probabilidade funciona.

Sobre o autor

Marco Gomes trabalha com Estratégia de Implantação de Data Science em New York, USA. Profissional reconhecido em 2014 pela revista Forbes como um dos 30 jovens com menos 30 anos mais promissores do país; premiado como O Melhor Profissional de Tecnologias de Marketing do Mundo pela World Technology Network; fundador da boo-box, apontada como uma das empresas de publicidade mais inovadoras do mundo pelas revistas Fast Company e Forbes, vendida em 2015 para a FTPI Digital; e co-fundador do Heartbit / Mova Mais, app de saúde listado pela revista Consumidor Moderno como uma das 100 empresas mais inovadoras do Brasil. Marco fez educação executiva em Gerenciamento de Marketing Estratégico na Universidade de Stanford, Califórnia, e já palestrou na sede da ONU, em Nova York, sobre Economia Criativa e Liberdade de Expressão na Internet.

Nenhum comentário:

Related Posts Plugin for WordPress, Blogger...