Prova Completa: Analista da CVM - TI/Ciência de Dados (CVM - FGV

3219738 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CVM

Provas:

Analista da CVM - TI/Ciência de Dados
Provas ×

Análise de DadosTécnicas de Pré-processamentoTratamento de Dados Ausentes

Ao receber um conjunto de dados para elaborar um modelo preditivo, uma equipe de analistas de dados percebeu que havia uma quantidade significativa de dados faltantes em certos atributos. Foi então debatido o uso de duas técnicas para lidar com esse problema: (1) remoção de observações contendo dados ausentes e (2) “inputação” multivariável, sendo que apenas uma das duas seria aplicada.

Duas características do conjunto de dados que devem ser prioritariamente consideradas na escolha entre as duas técnicas são:

A

o intervalo dos atributos com dados faltantes e a fração de dados faltantes;

B

o número de observações e a fração de dados faltantes;

C

a fração de atributos com dados faltantes e o intervalo dos atributos com dados faltantes ;

D

uma medida de dependência estatística entre os atributos e a fração de atributos com dados faltantes;

E

o número de observações e uma medida de dependência estatística entre os atributos.

Provas

Questão presente nas seguintes provas

3219737 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CVM

Provas:

Analista da CVM - TI/Ciência de Dados
Provas ×

Para ser utilizado em um modelo neural de regressão, um conjunto de dados precisa ser tratado de tal forma que todos os atributos de entrada sejam representados como um ou mais valores numéricos no intervalo [0, 1].

Os atributos de uma observação são: idade (inteiro >= 18), escolaridade (fundamental, médio, superior, pós-graduação), estado de residência (Acre, Alagoas, …, Tocantins, incluindo Distrito Federal) e local de trabalho (empresa, home office, misto).

O número mínimo de valores necessários para representar uma observação com os atributos acima descritos para o modelo de regressão, de forma que não ocorra perda de informação ordinal nem inserção de vieses nos dados, é:

Provas

Questão presente nas seguintes provas

3219736 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CVM

Provas:

Analista da CVM - TI/Ciência de Dados
Provas ×

Visando a maximizar a eficiência de uma equipe de auditores fiscais, um sistema de classificação de documentação foi encomendado à equipe de ciência de dados, com o objetivo de decidir, com base nos documentos obtidos durante uma fiscalização, se um exame detalhado de documentação é ou não necessário.

Idealmente, o sistema permitiria aos auditores direcionar mais tempo às auditorias complexas e agilizar a análise dos casos mais simples, otimizando o custo de pessoal e equipamento especializado. Contudo, não examinar detalhadamente um caso complexo pode custar muito caro ao governo, a ponto de anular quaisquer ganhos obtidos usando o sistema com um pequeno número de erros.

Considerando esse cenário, e o fato de o sistema de classificação responder apenas “sim” ou “não” quanto à necessidade de exame detalhado, a métrica de classificação a ser maximizada pela equipe que irá implementar o sistema é:

Provas

Questão presente nas seguintes provas

3219735 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CVM

Provas:

Analista da CVM - TI/Ciência de Dados
Provas ×

Análise de Dados

Uma equipe de analistas de dados preparou um modelo preditivo cuja entrada consiste em planilhas contendo uma matriz de valores reais entre 1 e 10. Tais planilhas são obtidas de um sistema externo à equipe. O modelo foi treinado com um conjunto de planilhas que foi coletado pelos analistas, de forma a obter uma amostra representativa dos dados a serem utilizados. A média e o desvio padrão de duas colunas importantes foram calculados do conjunto de treinamento, como uma forma simples de verificar a consistência da distribuição dos dados, sendo seus valores 4,89 e 3,08, respectivamente. O modelo obteve bons resultados durante sua etapa de testes, com uma precisão de 94%.

Ao iniciar a operação do modelo com planilhas atuais, entretanto, os analistas observaram que o modelo teve um desempenho muito inferior, com precisão de apenas 72%. Investigando as planilhas recebidas, obtiveram a média e o desvio padrão para as duas colunas importantes com valores 5,34 e 3,68, respectivamente.

A explicação mais adequada à situação descrita é:

A

as planilhas atuais contêm ruído: valores ausentes nas colunas importantes;

B

a distribuição dos valores nas planilhas atuais não corresponde mais aos dados usados no treinamento, pois foram coletadas em momentos diferentes (drifting);

C

a distribuição dos valores nas planilhas atuais não corresponde mais aos dados usados no treinamento devido a uma mudança na posição das colunas;

D

a distribuição dos valores nas planilhas de treinamento não corresponde aos dados atuais, pois a amostra obtida pelos analistas não foi representativa;

E

as planilhas atuais contêm ruído: valores fora do intervalo definido para o modelo.

Provas

Questão presente nas seguintes provas

3219734 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CVM

Provas:

Analista da CVM - TI/Ciência de Dados
Provas ×

Uma certa organização busca melhorar a qualidade e agilidade do seu atendimento eletrônico. Para isso um projeto foi criado para agrupar os e-mails recebidos de acordo com o tipo de problema a ser resolvido e assim repassá-los para o setor mais apropriado.

A equipe responsável pela implementação do projeto resolveu utilizar um modelo de linguagem recente para representar o máximo possível de informação contida num e-mail em um vetor de dimensão 768. Entretanto, depararam-se com o seguinte problema: as distâncias entre os vetores se mostraram muito pequenas, tornando o agrupamento por diversos algoritmos muito pouco significativo.

Com esse último problema em mente, a sequência mais apropriada de algoritmos a ser aplicada sobre os vetores, de forma a obter um agrupamento significativo dos e-mails, é:

Provas

Questão presente nas seguintes provas

3219733 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CVM

Provas:

Analista da CVM - TI/Ciência de Dados
Provas ×

Flávia, responsável pelo setor de análise de dados de uma rede de concessionárias de carros, está realizando o pré-processamento dos dados dos clientes da rede. Entre os atributos do conjunto de dados, estão os CPFs dos clientes, o seu sexo e a quantidade de carros que eles já compraram na rede.

Esses três atributos podem ser classificados, respectivamente, como:

Provas

Questão presente nas seguintes provas

3219732 Ano: 2024
Disciplina: Estatística
Banca: FGV
Orgão: CVM

Provas:

Analista da CVM - TI/Ciência de Dados
Provas ×

Alexandre recebe a tarefa de treinar um sistema de detecção de fraudes no banco em que trabalha. Para isso, ele testa cinco modelos, M1, M2, M3, M4 e M5, que possuem, respectivamente, 2, 2, 2, 3 e 3 parâmetros. Alexandre realiza uma seleção bayesiana dos modelos, usando o critério de informação bayesiano.
Sabendo que o tamanho da amostra é 200 e que os valores maximizados das funções de verossimilhança dos modelos são 0,3; 0,4; 0,5; 0,3 e 0,5, respectivamente, Alexandre seleciona o modelo:
(se necessário, use ln(2) = 0,7; ln(3) = 1,1 e ln(5) = 1,6)

Provas

Questão presente nas seguintes provas

3219731 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CVM

Provas:

Analista da CVM - TI/Ciência de Dados
Provas ×

Data Mining
Inteligência ArtificialMachine LearningAplicaçõesPLN: Processamento de Linguagem Natural

Texto 1

Aline, cientista de dados da CVM, foi designada para aferir a reação à prova da CVM entre os usuários de uma rede social de textos curtos usando técnicas de análise de sentimentos. Para isso, ela realiza um processo de KDD. Nesse processo, Aline opta por representar os textos obtidos da rede social no formato de vetores reais de baixa dimensionalidade, calculados a partir das representações das palavras obtidas de um modelo de linguagem pré-treinado utilizando a técnica word2vec.

Considerando o texto 1, a fase do KDD em que Aline gera os vetores a partir dos textos é chamada de:

Provas

Questão presente nas seguintes provas

3219730 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CVM

Provas:

Analista da CVM - TI/Ciência de Dados
Provas ×

Inteligência ArtificialMachine LearningAplicaçõesPLN: Processamento de Linguagem Natural

Texto 1

Aline, cientista de dados da CVM, foi designada para aferir a reação à prova da CVM entre os usuários de uma rede social de textos curtos usando técnicas de análise de sentimentos. Para isso, ela realiza um processo de KDD. Nesse processo, Aline opta por representar os textos obtidos da rede social no formato de vetores reais de baixa dimensionalidade, calculados a partir das representações das palavras obtidas de um modelo de linguagem pré-treinado utilizando a técnica word2vec.

Considerando o texto 1, a representação das palavras que será utilizada por Aline é chamada de:

Provas

Questão presente nas seguintes provas

3219729 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CVM

Provas:

Analista da CVM - TI/Ciência de Dados
Provas ×

Big Data

As informações são a base de toda tomada de decisão e gestão de empresas, sendo um diferencial importante o uso de grandes volumes de dados de diversas fontes.

Nesse contexto, as soluções de Big Data para análise de dados devem ter a capacidade de:

A

processar dados heterogêneos, de alto volume e alta velocidade, utilizando estruturas computacionais aprimoradas para a automação de processos e tomadas de decisão;

B

operar dados homogêneos, de alto volume e limitada velocidade, gerando valor agregado para o negócio da empresa;

C

manusear volumes de dados armazenados localmente, heterogêneos e com atividades semiestruturadas, agregando valor ao processo decisório da empresa;

D

processar grandes volumes de dados homogêneos, cujo objetivo principal é a implementação de técnicas avançadas de criptografia;

E

auxiliar no processo de gestão empresarial, processando dados heterogêneos, de alto volume e alta velocidade, descartando domínios de dados e transações.