Em uma auditoria tributária, a probabilidade de uma declaração fiscal apresentar um erro é de 1/4. Se um auditor examina 4 declarações de forma independente, a probabilidade de encontrar exatamente 2 declarações com erro é
O tempo para autuar um processo administrativo em um sistema automatizado é modelado por uma variável contínua com
distribuição uniforme entre 8:00h e 11:00h, horário disponível para autuações de processos. A probabilidade de que uma declaração seja processada antes das 9:00h é
Considere um conjunto de dados com as seguintes medidas:
Média =10
Mediana = 9
Amplitude = 8
Desvio-padrão = 3
Se a cada valor do conjunto for somado o número 4, então o novo conjunto de dados terá
A Fundação Seade (Sistema Estadual de Análise de Dados)
realizou um estudo sobre a evolução da população paulistana,
entre os anos 1920 e 2022, cujos resultados estão dispostos
no gráfico a seguir. No gráfico, as barras indicam a população
no ano indicado, e a linha indica a taxa média de crescimento
anual na década correspondente. Os dados exibidos no gráfico permitem concluir que
Uma empresa do setor financeiro deseja prever a cotação
diária de uma ação com base nos preços históricos. Para isso,
a equipe de ciência de dados decide utilizar técnicas de
modelagem de séries temporais.
A equipe analisou diferentes abordagens e encontraram os
seguintes padrões nos dados: • Os preços seguem uma tendência crescente ao longo
do tempo;
• Há um padrão sazonal, com aumentos e quedas
recorrentes em períodos específicos;
• Os valores atuais são fortemente influenciados pelos
valores anteriores.
Com base nas características descritas, assinale a alternativa
que apresenta a técnica de modelagem de séries temporais
mais adequada para capturar esses padrões e gerar
previsões precisas.
Uma empresa de e-commerce processa 10 milhões de
transações diárias e deseja identificar compras anômalas que
possam indicar fraude. Para lidar com esse grande volume de
dados, a equipe de ciência de dados decide utilizar o Apache
Spark para processar os dados de forma distribuída.
A equipe analisou um subconjunto de transações (em
dólares):
[35, 42, 38, 40, 1500, 37, 39, 41, 36, 2500, 43,
5000, 38, 44, 3700]
Utilizando o Spark SQL, calcularam a média e o desvio padrão
amostral das compras. Um valor é considerado anomalia se
estiver acima de 2 desvios padrão da média. Em relação à situação proposta e à análise, assinale a
alternativa que apresenta as transações que podem ser
classificadas como anômalas.
Uma equipe de cientistas de dados desenvolve um modelo
preditivo para estimar o preço de carros usados com base em
variáveis como ano de fabricação, quilometragem, marca e
número de proprietários anteriores.
Assinale a alternativa que apresenta a abordagem mais
adequada para construir este modelo preditivo.
Na biblioteca Scipy, existem várias funções utilizadas para
avaliar o comportamento estatístico de amostras de dados.
Assinale a alternativa que descreve uma função que pode ser
usada para verificar se um grande volume de dados segue
uma distribuição comum, como a normal, sem exigir que os
parâmetros da distribuição sejam previamente conhecidos.