Magna Concursos
3862199 Ano: 2024
Disciplina: TI - Gestão e Governança de TI
Banca: FIOCRUZ
Orgão: FIOCRUZ
Você é um cientista de dados incumbido de desenvolver uma aplicação de perguntas e respostas para facilitar a extração de informações de documentos PDF contendo artigos científicos na área da saúde. Para construir essa aplicação, as seguintes estratégias foram apresentadas.

I. Utilizar a técnica de embeddings de texto para converter documentos PDF em vetores e armazená-los em um vectorstore, como ChromaDb ou Pinecone, permitindo buscas semânticas rápidas e eficientes baseadas no conteúdo dos artigos.

II. Desenvolver um sistema de indexação baseado em metadados extraídos dos documentos PDF, como autor, data de publicação e palavras-chave, para facilitar a filtragem e a busca por documentos específicos.

III. Implementar uma abordagem de processamento de linguagem natural (PLN) que empregue a API do modelo de linguagem para gerar respostas precisas às perguntas, utilizando os vetores e metadados armazenados para recuperar informações relevantes dos documentos e inseri-las no contexto do prompt.

IV. Realizar o fine-tuning do modelo de linguagem através de um dataset que contenha o conhecimento do domínio que se quer adicionar ao modelo, utilizando frameworks como LoRA ou QLoRA para fazer o merge desse dataset adicional treinado.

V. Criar uma hierarquia de documentos baseada na classificação dos artigos científicos por tópicos e subtópicos, utilizando algoritmos de clustering para organizar automaticamente os documentos em categorias relevantes.


Das estratégias acima:
 

Provas

Questão presente nas seguintes provas

Tecnologista - Cientista de Dados em Saúde

40 Questões