Magna Concursos
3862193 Ano: 2024
Disciplina: TI - Desenvolvimento de Sistemas
Banca: FIOCRUZ
Orgão: FIOCRUZ
Você é um cientista de dados trabalhando em um projeto de pesquisa em saúde que envolve a análise de relatórios médicos utilizando técnicas de Processamento de Linguagem Natural (PLN). Parte do seu trabalho é explorar as relações semânticas entre diferentes condições de saúde utilizando um modelo pré-treinado de word embeddings em português, focado na área da saúde. Você decide investigar a relação entre diferentes doenças e tratamentos.

Seja o seguinte código Python, que utiliza a biblioteca gensim e um modelo hipotético de word embeddings denominado modelo_saude.bin especializado em termos médicos em português:

import numpy as np from gensim.models import KeyedVectors
def calcular_similaridade(vetor_a, vetor_b):    numerador = np.dot(vetor_a, vetor_b)    denominador = np.linalg.norm(vetor_a) *
np.linalg.norm(vetor_b)    similaridade = numerador / denominador    return similaridade
mo del = Ke yed Vectors. load_ word 2vec _ format(‘modelo_saude.bin’, binary=True) vetor_diabetes = model[‘diabetes’] vetor_hipertensao = model[‘hipertensão’] vetor_insulina = model[‘insulina’]
vetor_diabetes_ajustado = vetor_diabetes + vetor_insulina vetor_hipertensao_ajustado = vetor_hipertensao + vetor_insulina
similaridade = calcular_similaridade(vetor_ diabetes_ajustado, vetor_hipertensao_ajustado) print(f”Similaridade: {similaridade}”)

Utilizando o modelo hipotético model_saude.bin, o resultado mostrado pelo código foi de 0.7036085724830627. Baseado no cenário descrito, no código fornecido e no resultado mostrado, a opção que melhor descreve o que está sendo calculado e o significado do resultado é:
 

Provas

Questão presente nas seguintes provas

Tecnologista - Cientista de Dados em Saúde

40 Questões