Foram encontradas 5.012 questões.
Em projetos de Data Warehouse a missão de integração de dados oriundos de diversas fontes é uma das mais críticas. Essa missão é composta por diversas tarefas, como por exemplo: carga, extração e transformação. As fontes de dados podem ser as mais variadas e vão desde arquivos de planilhas eletrônicas até bancos de dados relacionais com milhões de tuplas.
A respeito dos desafios existentes na consolidação de dados em projetos Data Warehouse, analise as afirmativas abaixo e marque alternativa correta.
I. Chamamos de ETL as ferramentas de software que são especializadas no processo de integração de dados. Elas são capazes de se conectar a diferentes fontes para extração de dados, transformar os dados quando necessário, e finalmente carrega-los na base que consolidará todas as informações importantes.
II. O processo de transformação de dados nos permite a realização de diversas operações. A operação de transposição por exemplo, nos permite transforma linhas em colunas ou vice-versa. Já a operação de derivação ocorre quando, através de uma função de mapeamento, realizamos a mudança dos dados de domínio para um outro domínio.
III. Pentaho Data Integration, Oracle Data Integrator e Informatica Power Center são alguns exemplos de ferramentas de integração de dados conhecidas no mercado.
Provas
Armazém de dados, conhecido na língua inglesa pelo nome Data Warehouse, é utilizado para centralizarmos informações de uma organização de forma consolidada. Isso torna menos complexo o trabalho de análise de grandes volumes de dados, oferecendo um grande apoio a tomada de decisões dentro da organização.
A respeito de Data Warehouse e demais conceitos que o circundam, analise as afirmativas abaixo e marque alternativa correta.
I. Data Warehouse armazena dados em formato de séries históricas. Os dados são armazenados neste formato pois, por definição, são considerados voláteis.
II. Um Data Mart consulta um subconjunto de dados de um Data Warehouse. Isso ocorre pois um Data Mart é focado em um tipo específico de usuário que não precisa de acesso a todos os dados de um Data Warehouse para conseguir respostas para suas perguntas.
III. Ferramentas OLAP permitem ao usuário realizar operações de Drill Up e de Drill Down. Esse tipo de operação é importante pois facilita a análise de dados em diferentes níveis de granularidade.
Provas
A respeito das fontes de informação que servem de base para a construção dos dados operados por um Data Warehouse, marque a alternativa que indica, corretamente, o nome do tipo de sistema conectado a um bancos de dados que armazena informações transacionais, realizadas no dia a dia, em nível operacional.
Provas
Criada na década de 90, a expressão Data Mining serve para definirmos a área de estudo de dados focada na aquisição de conhecimento a partir destes dados. Essa área conta com o apoio de outras áreas de estudo, como por exemplo a estatística e a inteligência artificial.
Marque a alternativa que indica, corretamente, o nome do tipo de problema que Data Mining é capaz de resolver e que é um caso especifico de problemas de classificação.
Provas
Python é provavelmente a linguagem mais comentada atualmente no mundo da computação. Trata-se de uma linguagem de propósito geral e por possuir uma grande comunidade, conta com uma grande variedade de bibliotecas especializadas em temas como por exemplo: ciência de dados, programação web, inteligência artificial e banco de dados.
A respeito das bibliotecas do Python, marque a alternativa que não indica o nome de uma biblioteca dessa linguagem.
Provas
Para atender os requisitos de uma aplicação em sua organização, um Analista necessitou utilizar a tecnologia de IoT. Ele pesquisou essa tecnologia e verificou, corretamente, que
Provas
A implantação de uma solução de machine learning tipicamente passa por 5 fases. Na fase inicial, deve-se ter clareza quanto à pergunta ou problema para o qual se busca uma solução e quanto às informações que serão utilizadas, sejam elas de propriedade do interessado ou a serem adquiridas no mercado. As outras fases são:
I. Treinar o modelo ajustando os atributos, parâmetros de treinamento e algoritmos até que o modelo produza os resultados desejados. A validação é realizada comparando-se as predições com os resultados reais.
II. Monitorar os resultados das predições para verificar se o modelo continua generalizando. Se houver uma diminuição significativa na capacidade de predição do modelo, este deve ser treinado novamente com novos dados ou até mesmo os algoritmos, atributos e parâmetros de treinamento devem ser ajustados.
III. Definir o objetivo do aprendizado de máquina, estruturar o modelo que será o responsável por realizar as predições e adequar os dados para os algoritmos selecionados.
IV. Verificar se o modelo generaliza. No caso de o modelo não generalizar, deve-se retornar para as fases anteriores ou até mesmo para a fase inicial. Se generalizar, o modelo já pode seguir para a produção.
A ordem sequencial correta das outras fases é:
| FASE 2 | FASE 3 | FASE 4 | FASE 5 |
Provas
Com relação aos conceitos de aprendizado de máquina, assinale V para a afirmativa verdadeira e F para a falsa.
I. Os três principais paradigmas de aprendizado de máquina são os de aprendizado supervisionado, não supervisionado e por inteligência profunda.
II. os algoritmos de classificação e clusterização estão correlacionados com paradigma de aprendizado supervisionado.
III. os algoritmos de support vector machines e randon forest são paradigmas do aprendizado de inteligência profunda.
As afirmativas são, respectivamente,
Provas
Analise o script python abaixo:
import pandas as pd
from sklearn.datasets import make_hastie_10_2
x, y = make_hastie_10_2(n_samples=6000, random_state=42)
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25,
random_state=42)
from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier( n_estimators=100,
oob_score=True, n_jobs=-1)
clf.fit(x_train, y_train)
y_pred_proba = clf.predict_proba(x_test)[:,1]
from sklearn.metrics import roc_curve
fpr, tpr, thr = roc_curve(y_test, y_pred_proba)
pd.DataFrame( {'FPR': fpr, 'TPR': tpr}
).set_index('FPR')['TPR'].plot(kind='line')
O gráfico plotado como resultado do processamento do script é
Provas
O Keras é uma API de aprendizado profundo escrita em Python e executada sobre a plataforma de aprendizado de máquina TensorFlow.
As principais estruturas de dados do Keras são
Provas
Caderno Container