O boxplot – ou diagrama de caixa – é uma ferramenta gráfica da estatística descritiva que facilita a análise de variáveis quantitativas. Por ele se obtém informações sobre posição, dispersão, assimetria e valores extremos ou atípicos (outliers).
A construção do boxplot utiliza cinco medidas estatísticas:
mínimo, máximo, mediana, primeiro quartil e terceiro quartil.
A caixa é delimitada pelos primeiro e terceiro quartis e é cortada pela mediana. As linhas são conhecidas como caudas da distribuição e indicam os limites superior e inferior da variável, isto é, maior e menor valores desconsiderados os outliers.
Dado um conjunto ordenado de dados, o 1º quartil (ou quartil inferior) representa o valor observado aos 25% dos valores; o 2º quartil é a mediana (50% das observações são menores e 50% são maiores do que a mediana); e o 3º quartil (ou quartil superior) é o valor que aparece aos 75% da amostra.
R facilita a criação do boxplot a partir de um vetor, conforme a figura abaixo.