Uma recente edição da revista inglesa The Economist exibe uma série de listras coloridas em sua capa. Elas formam um degradê que vai de um azul escuro até um vermelho intenso. Cada listra representa a temperatura de um ano e a linha do tempo vai desde o presente até 1850. A mensagem é bastante clara: o planeta esta cada ano mais quente e é nos anos recentes que estão concentradas as maiores altas de temperatura.

Continue reading

Como desafio pessoal às vezes tento replicar gráficos que acho interessante. O portal Nexo, em particular, costuma ter lindas visualizações de dados. Vou tentar replicar os gráficos desta publicação. Como o foco desta postagem está na visualização e em mostrar exemplos de aplicações do ggplot2 vou omitir as (longas) manipulações de dados, deixando indicadas as fontes (com links) que usei. Numa postagem futura pretendo fazer um tutorial mais detalhado de como reproduzir estes gráficos.

Continue reading

O Latin American Public Opinion Project (LAPOP) aplica a cada dois anos um questionário em diversos países da América Latina. Uma parte destas perguntas investiga a confiança que as pessoas afirmam ter pelas suas instituições. Os dados estão disponíveis gratuitamente na página do LAPOP. Aqui vou examinar apenas as respostas aos questionários aplicados no Brasil em 2017. Confiança média nas instituições Os entrevistados são questionados quanto a sua confiança num rol de instituições e devem atribuir um número, de 1 a 7, para cada uma.

Continue reading

Gráfico de Colunas Há duas funções para criar gráficos de colunas: o geom_bar() e geom_col(). O gráfico mais simples é o de contagem. A base diamonds traz o preço e alguns atributos de uma amostra de diamantes. Uma das características listadas é a qualidade do corte do diamante: em ordem crescente eles são categorizados em Fair, Good, Very Good, Premium e Ideal. Com o geom_bar pode-se facilmente visualizar a quantidade de observações em cada categoria.

Continue reading

Gráfico de linha Gráficos de linha são frequentemente usados para representar séries de tempo, isto é, valores que mudam ao longo do tempo. O ggplot oferce alguma variedade de opções para este fim, mas a mais comum é geom_line(). Este geom exige argumentos tanto para o eixo-x como para o eixo-y. Em geral, o eixo-x representa o tempo e o eixo-y o valor da variável de interesse. Este ponto pode parecer irrelevante, mas será importante para entender algumas das dificuldades em usar séries de tempo com o ggplot.

Continue reading

Queremos visualizar para compreender melhor os dados. O R tem uma função plot() que satisfaz as nossas principais demandas, mas a função é limitada em vários aspectos. Talvez o mais importante é que as visualizações não são muito bonitas. Esteticamente um gráfico de ggplot2 de complexidade similar é mais bonito. O ggplot2 funciona construindo camadas sobre um mesmo gráfico. Começamos com um gráfico de dispersão e vamos acrescentando outros elementos: linhas de regressão para revelar uma correlação nos dados, cores diferentes para agrupar grupos distintos.

Continue reading

Gráfico de dispersão O gráfico de dispersão mapeia pares de pontos num plano bidimensional. A principal utilidade deste tipo de gráfico é deixar claro qual a relação entre as duas variáveis escolhidas. Em geral, colocamos a variável explicativa (regressor) no eixo horizontal e a variável explicada no eixo vertical. O primeiro passo é instalar o pacote ggplot2. O R funciona como um repositório de pacotes: cada pacote é como uma família de funções.

Continue reading

Author's picture

Vinicius Oike Reginatto

Mestre em Economia (FEA/USP)

São Paulo, Brasil