Queremos visualizar para compreender melhor os dados. O R tem uma função plot() que satisfaz as nossas principais demandas, mas a função é limitada em vários aspectos. Talvez o mais importante é que as visualizações não são muito bonitas. Esteticamente um gráfico de ggplot2 de complexidade similar é mais bonito.

O ggplot2 funciona construindo camadas sobre um mesmo gráfico. Começamos com um gráfico de dispersão e vamos acrescentando outros elementos: linhas de regressão para revelar uma correlação nos dados, cores diferentes para agrupar grupos distintos. Os links abaixo servem de sumário para um pequeno curso introdutório ao ggplot2. Idealmente, eles devem ser lidos na ordem em que estão abaixo. Os tópicos estão ordenados em ordem crescente de complexidade e focam apenas na visualização, deixando os detalhes da manipulação dos dados de lado. Um tutorial de dplyr, um pacote bastante popular para manipular dados está disponível aqui; alternativamente, um tutorial de data.table está disponível aqui. Acabei optando por utilizar apenas funções base do R para manipular os dados nos exemplos. Isto traz a vantagem de dispensar a instalação de novos pacotes, mas as funções base do R têm uma sintaxe pouco intuitiva.

Para um guia introdutório ao R veja o meu Intensivo de R.

Este texto é parcialmente inspirado pelos livros ggplot2, The Wall Street Jounral Guide to Information Graphics e pelo artigo An Economist’s Guide to Visualizing Data (JEP, 2014).