Entendendo Estatística Descritiva
Este post focará na parte teórica da estatística descritiva. Isso inclui o entendimento dos principais termos utilizados e o que cada um significa ao se realizar uma análise.
Segue um breve resumo do que será explicado neste post:
- Introdução à Estatística Descritiva;
- Tipos de variáveis;
- Distribuição de dados e medidas de posição;
- Tendências Centrais (Média, mediana e modal);
- Quartis, decis e percentis;
- Simetria dos dados.
Introdução: Como a estatística descritiva pode nos ajudar no processo de decisões e inferências?
Informação é um dos maiores valores que uma empresa ou indivíduo pode ter para decidir alguma coisa. Porém, são várias etapas percorridas até que se chegue a esse ponto.
First things first. É pré-requisito termos dados (ou amostras) para uma análise. Sem dados, não conseguimos sequer iniciar o entendimento do que está acontecendo. Porém em um primeiro momento, os dados brutos não são capazes de nos dizer coisas relevantes. As ideias e insights não estão visíveis e não podemos tirar nenhuma conclusão.
Então, a partir destes dados, precisamos de ferramentas que nos ajudem a chegar ao próximo nível : as informações.
Com a informação após realizar todo o processo de agrupamento e entendimento dos dados por meio de análises humanas, conseguimos chegar finalmente chegar a etapa de conhecimento.
Por fim, com o conhecimento, podemos ter a inteligência para realizar inferências, predições ou hipóteses para novas amostras que venham a surgir em um conjunto de dados.
Por exemplo, conseguimos ao final de todas essas fases prever dado algumas características que identificamos relevantes que uma pessoa possui como:
- Classificá-lo com grandes ou poucas chances de realizar uma compra de determinado produto;
- Um investidor aportar determinada quantidade mensalmente na corretora;
- Uma pessoa assinar determinado serviço.
Sumarizando o que foi mencionado anteriormente: para chegar à etapa de ser possível inferir/predizer, precisamos seguir o ciclo abaixo:
Dados -> Informação/Conhecimento -> Inteligência
Este entendimento pode ser classificado em:
- Descritivo: “O que aconteceu?, Quanto aconteceu?, Que região aconteceu?”
- Diagnóstico: “Por que aconteceu?”
- Preditivo: “O que acontecerá?”
- Prescritivo: “O que posso fazer em relação a isso?”
Vamos focar na transição entre dados e informação. Como podemos dar este passo?
Daí, podemos utilizar a estatística descritiva. A estatística descritiva é o primeiro passo para conhecer e compreender os dados, gerando informações relevantes! Por meio dela conseguimos ter uma descrição dos dados.
Para aplicar a estatística descritiva se faz necessário alguns pré-requisitos.
Uma delas é a amostragem. Uma amostragem representa uma parte de determinada população, ao qual poderemos fazer inferências futuramente.
Essas amostras também precisam ser confiáveis, ou seja, precisam representar bem a população alvo, caso contrário, nossa análise acabará não tendo utilidade futuramente.
Aqui fica um exercício para exemplificação: Imagine se a amostragem de uma pesquisa eleitoral (pessoas que são entrevistadas para verificar em qual candidato votarão) só considere apenas pessoas de uma característica específica? O que você acha que pode acontecer neste caso?
Podemos ter uma amostra que não é tão representativa se comparada à toda a população (no exemplo, todos os eleitores).
Por exemplo, a pesquisa pode ter sido feita com pessoas de uma determinada faixa etária ou apena de uma determinada região. Por isso geralmente dados como: faixa etária, renda, grau de instrução são informados neste tipo de pesquisa.
Com isso, ao elaborar uma pesquisa eleitoral são considerados todos os fatores para representar as características de toda a população.
Em resumo, temos a seguinte fórmula para ser possível realizar inferências estatísticas:
Amostragem + Estatística Descritiva = Inferência Estatística
Por fim, vamos começar a entender os conceitos e termos básicos utilizado na estatística descritiva.
Tipos de Variáveis
Dentro de um conjunto de dados, temos dois tipos principais de variáveis possíveis: qualitativas e quantitativas.
- Quantitativas: discretas e contínuas;
- Qualitativas: nominal e ordinal;
Vamos a seguir entender mais detalhadamente cada tipo.
Qualitativas (Categórica)
Nominal
Não há nenhum valor que diga qual a ordenação da classificação ou categoria em si.
Ordinal
É a mesma ideia da nominal, com exceção de que existe uma ordenação para classificação.
Quantitativas
Discretas
Valores numéricos e mensuráveis. Na maioria das vezes representam uma contagem de determinado valor. Geralmente são números inteiros.
Exemplos:
- Número de dependentes em um convênio médico;
- Total de reclamações de clientes em um call center;
Contínuas
Geralmente representam uma escala/intervalo numérico infinito (podendo também ser um data) que pode ser medido por meio de algum instrumento. Geralmente agrupamos estes dados em classes, pois divergem muito dentro de uma população. São exemplos:
- Peso (IMC);
- Altura (baixo, médio, alto);
- Idade (criança, adolescente, adulto).
Reflexão: Uma variável pode ser quantitativa e ser utilizada como qualitativa?
A resposta é SIM! Vamos utilizar o exemplo do IMC. Para calculá-lo, precisamos de duas variáveis qualitativas: peso e altura. Ao fazer o cálculo, transformamos para classificar pessoas em determinada classe. Ou seja: uma variável do tipo qualitativa e ordinal.
TL;DR
- Variáveis podem ser qualitativas (classificação) ou quantitativas (números).
- Variáveis qualitativas podem ser discretas (“é contável?”) ou contínuas (“está dentro de um intervalo infinito, porém conseguimos medir?”)
- Toda variável numérico é quantitativa, mas também pode ser qualitativa. Um exemplo é o peso/altura para classificar pelo IMC
Distribuição de dados e medidas de posição
Ao começar uma análise de um conjunto de dados, é vital que se consiga compreender como está a distribuição das amostras.
Podemos utilizar algumas medidas que nos ajudam entender a tendência central e a variância de nosso dados.
Tendências Centrais: Média, Mediana e Modal
Os principais parâmetros que nos dizem respeito à tendência central das amostras são: média, mediana e modal. Vamos entender no detalhe cada um deles.
Média
A média é uma das medidas que podem nos mostrar em relação à posição central da distribuição. Geralmente em fórmulas, é representada pela letra x com um traço em cima ou pela letra “u”.
Muitos não sabem (eu não sabia até estudar sobre), mas existem vários tipos de médias. A mais conhecida é a média aritmética.
Quando falamos de uma média aritmética, basta somar todos os valores e dividir pela quantidade de items. Abaixo temos a fórmula formal para descobrirmos a média aritmética:
Porém, temos outros exemplos como a média aritmética ponderada , o qual podemos dar pesos para algumas variáveis, bastando multiplicar pelos pesos e divididos pela soma de pesos.
Por exemplo, imagine que a média de um aluno é composta por duas notas (c chamaremos de B1 e B2), porém a segunda nota tem um peso duas vezes maior. Na B1, o aluno tirou nota 4 e na B2 nota 7. Então, qual será sua média?
Média Ponderada = B1 * (peso B1) + B2 * (peso B2) / (Soma dos pesos)Soma dos pesos = (peso B1) + (peso B2)
Então, vamos verificar passo a passo:
* B1 = 4
* B2 = 7
* peso B1 = 1
* peso B2 = 2
Vamos aplicar estes valores nas fórmulas acima. Primeiramente, precisamos descobrir a “soma dos pesos” para depois podermos calcular a média ponderada.
Soma dos pesos = 1 + 2 = 3Média Ponderada = (4 * 1 + 7 * 2) / 3
Média Ponderada = 6
Logo, o valor da média neste caso é 6. Note que é muito similar à uma média aritmética, porém sempre temos que considerar o valor do peso em relação ao divisor (soma dos pesos) conforme aumentamos o peso.
Existem outros tipos de médias, tais como: média quadrática, média geométrica, média harmônica dentre outros. Cada uma tem um aplicação para um nicho de problemas específico e o post ficaria muito grande se descrevesse cada um destes.
Por exemplo, a média geométrica é muito utilizada para problemas de finança e problemas onde há uma variância utilizando valores percentuais.
Note também que na média são considerados os valores de todas as observações para o cálculo. Então, caso um grande número de valores fora do padrão, a média se deixará ser afetada por esses valores.
Moda
Quando pensamos em algo que está “na moda”, sabemos que é algo que muitas pessoas estão usando. Fazendo uma analogia com a estatística descritiva, o conceito é o mesmo: é o valor que mais se repete em um conjunto de dados. Imagine que temo um conjunto de dados com a idade de clientes: 21,21 17, 32, 45, 44, 29, 21, 41, 44,
A moda neste caso é o 21, pois podemos observar que aparece três vezes no conjunto.
Curiosidade: Se todos os valores do conjunto de dados tem a mesma frequência, dizemos que é amodal. Caso tenha duas modas, podemos chamá-lo de bimodal, três trimodal e assim por diante.
Mediana
A mediana é basicamente o valor central de nossos dados, ou seja, aquele valor que fatia nosso conjunto de dados em duas partes.
Para obtê-la, precisamos primeiramente ordenar os dados de forma crescente (também chamado de formato de rol) e obter os valores centrais.
Caso o número de amostras seja ímpar, basta pegar o elemento que divide o conjunto de dados em duas partes iguais. Já se for par, deve-se somar os dois elementos centrais e dividir por dois.
Essa relação é dada pelas fórmulas abaixo:
Número de Elementos ímpar:Amostra: {5, 3, 1, 2, 5, 9, 7}1. Ordenar a amostra em ordem crescente:Amostra ordenada: {1, 2, 3, 5, 5, 7, 9}2A. Aplicar a fórmula da mediana (nº elementos ímpar)posicao mediana = (n + 1) / 2n: Número de elementos da populaçãoAplicando a fórmula:posicao mediana= (7 + 1) / 2
posicao mediana = 8 / 2
posicao mediana = 4A posição nº 4 da mediana é o número 5, logo:Md = 52B. Aplicar a fórmula da mediana (nº total de elementos da amostra par)amostra: {1, 2, 2, 3, 4, 8}n: Número de elementos da populaçãoposição mediana 1 = (n + 1) / 2
posição mediana 2 = [(n + 1) / 2] + 1Md = (amostra[posição mediana 1] + amostra[posição mediana 2]) / 2Aplicando as fórmulas:posição mediana 1 = (6 + 1) / 2
posição mediana 1 = 7 / 2
posição mediana 1 = 3posição mediana 2 = 3 + 1
posição mediana 2 = 4 A posição nº 3 e 4 são respectivamente são os números 2 e 3. Logo:Md = (2 + 3) / 2
Md = 2,5
Note que diferentemente da média, nao são levados em consideraçao todos os valores do conjunto de dados, somente os valores centrais após a ordenação. Isso implica que o valor da mediana não leva em consideração valores muito discrepantes no conjunto de dados.
Também nos permite visualizar a dispersão dos valores em caso de ter um dataset desequilibrado.
TL;DR
- A mediana não é afetada em casos que existirem valores muito discrepantes. Um exemplo de casos com muito valores extremos é a distribuição de riqueza entre pessoas ao redor do mundo;
- Para calcular a mediana, precisamos primeiramente ordenar os dados e obter o(s) valore(s) centrais;
- Já a média tem influência por valores extremos. Se houverem muitos valores extremos ou fora do padrão em nosso conjunto de dados, a mediana provavelmente representará melhor a tendência central.
- Existem diversos tipos de média e o uso de cada uma implica no contexto em que se está aplicando.
- A média aritmética simples é a somar todos os números e dividir por quantos deles aparecem;
- A média ponderada pode dar maior ou menor importância para observações de acordo com sua importância
Quartis, decis, percentis e “N”is
Já sabemos conforme acima que a mediana divide nossas amostras em dois conjuntos de dados.
Mas podemos dividir nosso dados em N partes para entender a distribuição dos dados. Os valores que “cortam” esses dados em N partes se chamam separatrizes.
Por exemplo, se queremos cortar nossa amostra em duas partes, qual valor seria a separatriz? Ora, é a mediana!
Vamos estudar a principal utilizada na estatística descritiva: os quartis.
Se você entender a ideia do quartis, basta apenas aplicar os conceitos e fórmulas para decis, percentis ou qualquer quantidade de separatrizes que deseje utilizar em seus dados.
Quartis
Os quartis dividem nosso conjunto de dados em quatro partes iguais, ou, quatro quadrantes.
Para isso precisamos de três pontos de cortes.
Vamos chamar nossos pontos de corte de Q1, Q2 e Q3 (Quartil 1, Quartil 2 e Quartil 3 respectivamente):
Conforme o desenho dos quadrantes acima, podemos extrair informações interessantes:
- O ponto de corte da mediana é equivalente ao segundo quadrante(Q2);
- Temos 25% de todos os nossos valores no primeiro quadrante (Q1);
- Temos 50% de todos os nossos valores até o segundo quadrante (Q2);
- Temos 75% de todos os nossos valores até o terceiro quadrante (Q3).
Também chamamos a distância entre Q1 e Q3 de amplitude interquartílica.
Vamos agora fazer um exemplo na prática para encontrar os valores aproximados dos pontos de corte de cada quadrante.
Vamos utilizar os mesmos dados do exemplo da mediana, pois o cálculo de valor de corte segue o mesmo raciocínio para n° de elementos pares e ímpares.
Exemplo de cálculo de quartis para n° de elementos ímpar
Temos duas formas de resolver e encontrar o valor aproximado de cada quartil. Porém, vamos utilizar a fórmula formal inicialmente para encontrar o valor aproximado do ponto de corte de cada quadrante.
Assim, por meio dessa fórmula conseguimos calcular decis, percentis dentre quaisquer outros, pois a ideia vale é válida para quantos pontos de corte se desejar.
Os passos que temos seguir para calcular os valores aproximados de cada quartis são basicamente (parece muita coisa, mas a seguir veremos que é relativamente simples e muito similar ao que fizemos quando calculamos a mediana) para n° de elementos ímpares:
- 1. Ordene os dados de forma crescente (em rol);
- 2. Aplique a fórmula para obter a posição de Q1 (aprox. 25% dos nossos dados) e com isso, encontre o valor de corte do quadrante Q1;
- 3. Aplique a fórmula para obter a posição de Q2 (aprox. 50% dos nossos dados) e com isso, encontre o valor de corte do quadrante Q2;
- 4. Aplique a fórmula para obter a posição de Q3 (aprox. 75% dos nossos dados)e com isso, encontre o valor de corte do quadrante Q3;
Abaixo vamos representar os nossos dados graficamente em uma reta (Lembrando que estamos utilizando os seguintes valores: {1, 2, 3, 5, 5, 7,9})
O que sabemos até agora é que temos sete elementos em nosso conjunto, ou seja, o número de elementos é ímpar e que já estão em rol (ordenados).
Vamos aplicar os passos descritos acima (com exceção do passo 1, pois nossos dados já se encontram em ordem crescente).
2. Aplique a fórmula para obter a posição de Q1 e encontre o valor de corte do quadrante Q1;
A fórmula para obter qual a posição que queremos encontrar dado pela porcentagem dos dados que queremos ter:
Posição do Quartil(porcentagem) = porcentagem x (n° total de dados da amostra + 1)
Sabemos que conceitualmente o primeiro quadrante (Q1) representa os primeiros 25% da nossa amostragem e que temos 7 elementos em nossa amostra.
Com isso, podemos aplicar a fórmula acima
Posição do Quartil(porcentagem) = Q(p) = Q(25%)
N° de elementos = n = 7Q(p) = p x (n + 1)
Q(0,25) = 0,25 x (7 + 1)
Q(0,25) = 2
Bingo! Sabemos que o corte de Q1 está no segundo elemento de nossos dados. Qual o valor de nosso segundo elemento? 2! Então temos Q1 = 2
Q1 = 2
3. Aplique a fórmula para obter a posição de Q2 e com isso, encontre o valor de corte do quadrante Q2;
Vamos usar a mesma ideia do passo dois, porém com uma diferença: o Q2 (mediana) deve conter aproximadamente 50% da nossa amostragem
Com isso, podemos aplicar a fórmula acima
Posição do Quartil(porcentagem) = Q(p) = Q(50%)
N° de elementos = n = 7Q(p) = p x (n + 1)
Q(0,5) = 0,5 x (7 + 1)
Q(0,5) = 4
Bingo! Sabemos que o corte de Q2 está no quarto elemento de nossos dados. Qual o valor de nosso segundo elemento? 5! Então temos Q2 = 5
Q2 = 5
4. Aplique a fórmula para obter a posição de Q3 e com isso, encontre o valor de corte do quadrante Q3;
Vamos usar a mesma ideia dos passo dois e três, porém com uma diferença: o Q2 (mediana) deve conter aproximadamente 75% da nossa amostragem
Com isso, podemos aplicar a fórmula acima
Posição do Quartil(porcentagem) = Q(p) = Q(75%)
N° de elementos = n = 7Q(p) = p x (n + 1)
Q(0,5) = 0,75 x (7 + 1)
Q(0,5) = 6
Bingo! Sabemos que o corte de Q3 está no sexto elemento de nossos dados. Qual o valor de nosso segundo elemento? 7! Então temos Q3 = 7
Q3 = 7
Com isso, temos nossos dados divididos em quatro conjuntos.
Vamos agora entender como calcular os quartis quando o n° de elementos for par.
Exemplo de cálculo de quartis para n° de elementos par
Os passos que temos seguir para calcular os valores aproximados de cada quartis são bem similares com o que vimos anteriormente para elementos ímpares.
Porém, vamos relembrar como calculamos a mediana para números pares. Lembre-se que não iremos obter um valor inteiro para a posição da mediana, porque não há um valor no conjunto de dados que corte os dados do meio. Tente se lembrar o que fizemos para teste caso.
Caso não lembre: utilizamos uma simples média aritmética com os dois elementos centrais em nosso dataset (somá-los e então dividir por dois) e assim conseguir o valor da mediana.
Aqui para obter os valores de Q1, Q2, Q3 utilizaremos a mesma ideia.
Abaixo vamos representar os nossos dados graficamente em uma reta (Lembrando que estamos utilizando os seguintes valores: {1, 2, 2, 3, 4, 8}).
Vamos utilizar os passos que usamos quando o n° de elementos foi ímpar (novamente com exceção do passo 1, pois já estão ordenados).
2. Aplique a fórmula para obter a posição de Q1 e encontre o valor de corte do quadrante Q1;
Abaixo segue a fórmula base já explicada no exemplo anterior:
Posição do Quartil(porcentagem) = porcentagem x (n° total de dados da amostra + 1)
Neste caso, abemos que conceitualmente o primeiro quadrante (Q1) representa os primeiros 25% da nossa amostragem e que temos 6 elementos em nossa amostra.
Com isso, podemos aplicar a fórmula acima
Posição do Quartil(porcentagem) = Q(p) = Q(25%)
N° de elementos = n = 6Q(p) = p x (n + 1)
Q(0,25) = 0,25 x (6 + 1)
Q(0,25) = 1,75
Note que conforme vemos, agora não temos uma posição com valor absoluto.
Portanto temos que pegar os dois valores inteiros entre este (1, 75). Sabemos que é um número que entre a posição 1 e 2, que são os valores respectivamente 1 e 2. Vamos então obter uma média aritmética:
Q1 = (1 + 2) / 2
Q1 = 1,5
Bingo! Sabemos que o corte de Q1 está em 1,5.
3. Aplique a fórmula para obter a posição de Q2 e com isso, encontre o valor de corte do quadrante Q2;
Vamos usar a mesma ideia do passo dois, porém com uma diferença: o Q2 (mediana) deve conter aproximadamente 50% da nossa amostragem
Com isso, podemos aplicar a fórmula acima.
Posição do Quartil(porcentagem) = Q(p) = Q(50%)
N° de elementos = n = 6Q(p) = p x (n + 1)
Q(0,5) = 0,5 x (6 + 1)
Q(0,5) = 3,5
Novamente, não temos uma posição com valor absoluto.
Portanto temos que pegar os dois valores inteiros entre este (3,5). Sabemos que é um número que entre a posição 3 e 4, que são os valores respectivamente 2 e e. Vamos então obter uma média aritmética:
Q2 = (2 + 3) /2
Q2 = 2,5
Bingo! Sabemos que o corte de Q2 (mediana) está em 2,5.
4. Aplique a fórmula para obter a posição de Q3 e com isso, encontre o valor de corte do quadrante Q3;
Vamos usar a mesma ideia do passo dois, porém com uma diferença: o Q3 deve conter aproximadamente 75% da nossa amostragem
Com isso, podemos aplicar a fórmula acima.
Posição do Quartil(porcentagem) = Q(p) = Q(75%)
N° de elementos = n = 6Q(p) = p x (n + 1)
Q(0,5) = 0,5 x (6 + 1)
Q(0,5) = 3,5
Novamente, não temos uma posição com valor absoluto.
Portanto temos que pegar os dois valores inteiros entre este (3,5). Sabemos que é um número que entre a posição 3 e 4, que são os valores respectivamente 2 e e. Vamos então obter uma média aritmética:
Q2 = (2 + 3) /2
Q2 = 2,5
Bingo! Sabemos que o corte de Q2 (mediana) está em 2,5.
Com isso, temos nossos dados divididos em quatro conjuntos.
Cálculo de quartis utilizando somente medianas
Notou que a ideia é bem semelhante quando calculamos a mediana?
É tão semelhante que podemos obter os mesmos resultados somente utilizando medianas!
Para isso, basta:
- Obter a mediana do conjunto de dados (com isso obtemos o valor de Q2 de cara)
- Para cada conjunto de dados, descubra a sua mediana.
- A mediana dos 50% dos dados inferiores será o valor de Q1;
- A mediana dos 50% dos dados superiores será o valor de Q3.
Vamos ver isso na prática com ambos os casos que estudamos.
OBSERVAÇÃO IMPORTANTE: É necessário tomar um certo tipo de cuidado quando se calcular simplesmente pela mediana dos subconjuntos inferior e superior de dados.
Diferentemente da fórmula formal descrita acima, podemos perder um certo de nível de precisão dos valores quando obtemos números decimais/fracionais ao calcular as posições de cada quartil e colocar mais ou menos valores em determinado quartil.
Como você poderá observar abaixo, os valores de corte ficaram diferentes para o exemplo com n° de elementos par, pois foram arrendodados de acordo com a mediana de cada subconjunto de dados. (A posição de Q1 utilizando a técnica formal é 1,75: isso inclusive nos diz que o valor do corte está muito mais perto de 1 do que 2. Em outras palavras: “1,75” é mais próximo da segunda posição do que da primeira — ou seja — quando aplicamos uma média aritmética na fórmula formal, também perdemos um certo nível de precisão no intervalo entre os quartis).
Utilizando somente medianas com n° de elementos ímparAmostra = {1, 2, 3, 5, 5, 7, 9}1. Calcule a mediana da amostra (Q2)posicao mediana = (n + 1) / 2n: Número de elementos da amostraAplicando a fórmula:posicao mediana= (7 + 1) / 2
posicao mediana = 8 / 2
posicao mediana = 4A posição nº 4 da mediana é o número 5, logo:Md = 5
Q2 = Md
Q2 = 52. Calcule a mediana do subconjunto inferior para obter Q1Subconjunto Inferior = {1, 2, 3}Q1 =~ Mediana Subconjunto InferiorMediana Subconjunto Inferior = 2Q1 = 23. Calcule a mediana do subconjunto superiorSubconjunto Superior = {5, 7, 9}Q3 =~ Mediana Subconjunto SuperiorMediana Subconjunto Superior = 7Q3 =~ 7Utilizando somente medianas com n° de elementos parAmostra = {1, 2, 3, 3, 4, 8}1. Calcule a mediana da amostra (Q2)posicao mediana = (n + 1) / 2n: Número de elementos da amostraAplicando a fórmula:posicao mediana= (6 + 1) / 2
posicao mediana = 8 / 2
posicao mediana = 3,5A posição 3,5 está entre as posições 3 e 4 que tem os valores 2 e 3 respectivamente. Logo:Md = (2 + 3) / 2
Md = 2,5
Q2 = Md
Q2 =~ 2,52. Calcule a mediana do subconjunto inferior para obter Q1Subconjunto Inferior = {1, 2, 2}Q1 =~ Mediana Subconjunto InferiorMediana Subconjunto Inferior = 2Q1 =~ 23. Calcule a mediana do subconjunto superiorSubconjunto Superior = {3, 4, 8}Q3 =~ Mediana Subconjunto Superior
Mediana Subconjunto Superior = 4Q3 =~ 4
TL;DR
- Para melhor entender a dispersão e a tendência dos nossos dados, podemos dividir a nossa amostra em N partes por meio de valores (separatriz), bastando apenas encontrar os N valores separatrizes que cortam nos dados;
- O mais conhecido é o quartil: os dados são subdivididos em quatro partes. Porém existem outros muito utilizado: decil (dez partes) e percentil (cem partes)
- O quartil é subdividido em três quadrantes: Q1 (25% dos dados), Q2 (50% dos dados — equivalente à mediana), Q3 (75% dos dados).
- A ideia para calcular o valor aproximado de cada corte segue a mesma ideia do que utilizamos para calcular a mediana.
Simetria dos dados
Agora que entendemos os conceitos de média, mediana e modal, vamos verificar a relação entre as mesmas para definir a simetria dos dados.
O valor da mediana está no intervalo entre a média e a moda:
Moda — — — Mediana— — — MédiaMédia — — — — Mediana— — — — Moda
Com isso, há possibilidade de três situações distintas:
- Caso 1: A média, a moda e a mediana serem iguais;
- Caso 2: A mediana ser maior que a média e a mediana ser menor que a moda;
- Caso 3: A mediana ser menor que a média e a mediana ser maior que a moda;
Para o caso 1, chamamos de simetria.
Com isso, encerramos alguns conceitos básicos para realizar a estatística descritiva em um conjunto de dados.