Prova Completa: Tecnologista - TL-05 (ITA

4142175 Ano: 2025
Disciplina: TI - Desenvolvimento de Sistemas
Banca: ITA
Orgão: ITA

Provas:

Tecnologista - TL-05
Provas ×

Na programação paralela com aceleradores, como em CUDA, é preciso considerar os espaços de endereçamento acessíveis pelo código executando em CPU e pelo código executado em GPU.

// código 1:

int N = 1<<20;
float *x, *y, *d_x, *d_y;

x = (float*)malloc(N*sizeof(float));
y = (float*)malloc(N*sizeof(float));

cudaMalloc(&d_x, N*sizeof(float));
cudaMalloc(&d_y, N*sizeof(float));

// inicia elementos dos vetores x e y
cudaMemcpy(d_x, x, N*sizeof(float), cudaMemcpyHostToDevice);
cudaMemcpy(d_y, y, N*sizeof(float), cudaMemcpyHostToDevice);

// invoca kernel para manipulação de x e y
kern <<< ..., ... >>> (N, d_x, d_y);

cudaMemcpy(y, d_y, N*sizeof(float), cudaMemcpyDeviceToHost);

// código 2:

int N = 1<<20;
float *x, *y;

cudaMallocManaged(&x, N*sizeof(float));
cudaMallocManaged(&y, N*sizeof(float));

// inicia elementos dos vetores x e y
...

// invoca kernel para manipulação de x e y
kern <<< ..., ... >>> (N, x, y);

cudaDeviceSynchronize();

Observe os 2 trechos de código apresentados anteriormente e indique a alternativa INCORRETA (próxima página):

A

No código 1, vê-se a cópia de dados da memória RAM do computador para alguma área de memória da GPU.

B

No código 1, por tratarem-se de áreas de memória separadas, dados alterados na memória da GPU precisam ser copiados de volta para a RAM, caso sejam necessários após seus processamentos em GPU.

C

No código 1, observa-se a alocação de áreas de memória separadas nos espaços de endereçamento da(s) CPU(s) e da GPU, com atribuição de valores na área de GPU diretamente pelo código em CPU.

D

No código 2, vê-se que uma operação de sincronização pode ser necessária para garantir a consistência dos dados a serem manipulados em CPU após suas alterações em GPU, embora cópias explícitas não sejam necessárias.

E

No código 2, vê-se a alocação de memória de forma unificada, sendo que um mesmo endereço para área de memória usado no código em CPU pode também ser usado pelo código em GPU, sem cópias explícitas no programa.

Provas

Questão presente nas seguintes provas

4142174 Ano: 2025
Disciplina: TI - Desenvolvimento de Sistemas
Banca: ITA
Orgão: ITA

Provas:

Tecnologista - TL-05
Provas ×

Considere o trecho de código C a seguir, instrumentado e compilado com com recursos das extensões OpenMP, e assinale a alternativa INCORRETA:

double dotProd(double *a, int *b, long int N) {
long int i;
double dot = 0.0;

#pragma omp parallel for simd reduction(+:dot)
for(i = 0; i < N; i++)
dot += a[i] * b[i];

return dot;
}

A

A cláusula de redução gerará a criação de uma cópia privada da variável dot para cada thread da região paralela.

B

O cálculo do produto escalar interno (dot) será realizado dividindo-se as iterações do loop for entre múltiplas threads.

C

As iterações do loop for podem beneficiar-se de instruções SIMD do processador, realizando a mesma operação aritmética em mais de um elemento de cada vetor de uma vez.

D

O operador simd na diretiva parallel torna o código gerado sujeito a problemas de perda de desempenho, devido à manipulação de posições contíguas da memória pelas diferentes threads.

E

A variável dot não será compartilhada entre as threads da região paralela e, por isso, não é preciso usar mecanismos explícitos de exclusão mútua na atualização do valor antes do retorno da função.

Provas

Questão presente nas seguintes provas

4142173 Ano: 2025
Disciplina: TI - Desenvolvimento de Sistemas
Banca: ITA
Orgão: ITA

Provas:

Tecnologista - TL-05
Provas ×

Na programação com aceleradores, usando CUDA, por exemplo, é comum que se utilize um modelo SIMT, em que os núcleos de processamento do acelerador sejam usados para executar o mesmo código sobre partes distintas dos dados. Considerando o trecho de código a seguir, que é parte de uma soma de vetores, indique a alternativa CORRETA:

#define N (1<<20)
...

__global__
void add(int n, float *x, float *y) {
int index = blockIdx.x * blockDim.x + threadIdx.x;
int stride = blockDim.x * gridDim.x;

for (int i = index; i < n; i += stride)
y[i] = x[i] + y[i];
}
...
main() {

. . .

int blockSize = 256;
int numBlocks = (N + blockSize - 1) / blockSize;

add <<< numBlocks, blockSize >>> (N, x, y);
...
}

A

Os índices das threads, passados como parâmetros na invocação de um kernel, indicam qual elemento cada thread deve manipular.

B

A organização da grade de blocos de threads, realizada na invocação de um kernel, fixa a execução das threads aos blocos multiprocessadores (SMs) da GPU.

C

A organização das grades de blocos de threads para execução pode ser realizada em uma, duas ou três dimensões, que têm igual impacto no desempenho do programa.

D

Pelo cálculo dos índices das threads, é possível que existam threads que não devem realizar a manipulação dos dados, pois extrapolariam o número de elementos nas estruturas particionadas.

E

Cada thread será responsável pelo cálculo de 1 elemento do vetor resultante, associado ao número do bloco multiprocessador (Stream Multiprocessor - SM) em que essa thread é executada.

Provas

Questão presente nas seguintes provas

4142172 Ano: 2025
Disciplina: TI - Desenvolvimento de Sistemas
Banca: ITA
Orgão: ITA

Provas:

Tecnologista - TL-05
Provas ×

Considere o trecho de código C para multiplicação de 2 matrizes apresentado a seguir, instrumentado com diretivas OpenMP, e assinale a alternativa INCORRETA:

...
int i, j, k;
...
1 // #pragma omp parallel for private(j,k)
2 for (i=0; i<N; i++)
3 // #pragma omp parallel for private(k)
4 for (j=0; j<N; j++) {
5 soma = 0;
6 // #pragma omp parallel for reduction(+:soma)
7 for (k=0; k<N; k++)
8 soma += A[i][k] * B[k][j];
9 C[i][j] = soma;
10 }

A

A utilização da diretiva comentada na linha 1 geraria a criação de um time de threads que dividiria o cálculo das linhas da matriz C.

B

A utilização da diretiva comentada na linha 3 geraria a criação de um time de threads que dividiria o cálculo das colunas de cada linha da matriz C.

C

A utilização da diretiva comentada na linha 6 geraria a criação de um time de threads que realizaria somas parciais para o cálculo de cada elemento da matriz C.

D

O uso da cláusula “private(j,k)” na diretiva comentada na linha 1 seria desnecessário, pois a paralelização neste caso ocorreria sobre linhas independentes.

E

A cláusula “reduction(+:soma)” na diretiva comentada na linha 6 geraria a criação de uma cópia da variável “soma” para cada thread do time criado, inicializada com valor 0 e reduzida pela operação de soma ao final da região paralela.

Provas

Questão presente nas seguintes provas

4142171 Ano: 2025
Disciplina: TI - Desenvolvimento de Sistemas
Banca: ITA
Orgão: ITA

Provas:

Tecnologista - TL-05
Provas ×

A respeito das operações de comunicação coletiva, como MPI_Scatter e MPI_Gather, apresentadas a seguir, indique a alternativa INCORRETA:

int MPI_Scatter(const void *sendbuf, int sendcount, MPI_Datatype sendtype, void *recvbuf, int recvcount, MPI_Datatype recvtype, int root, MPI_Comm comm)

int MPI_Gather(const void *sendbuf, int sendcount, MPI_Datatype sendtype, void *recvbuf, int recvcount, MPI_Datatype recvtype, int root, MPI_Comm comm)

A

Nessas operações, o papel de cada processo da aplicação é determinado pelo rank dentro do grupo indicado.

B

Operações de comunicação coletiva em MPI envolvem todos os processos de um dado comunicador (MPI_Comm), especificado como parâmetro na chamada.

C

Cabe à biblioteca MPI elaborar mecanismos de controle dos processos participantes e de suas localizações nos nós (computadores) utilizados pela aplicação.

D

O número de processos existentes no grupo é tratado pelo programador no particionamento dos dados, indicando os limites dos fragmentos de mensagem em cada operação.

E

O número de mensagens necessárias para realizar as operações de transmissão de dados é dependente da tecnologia de rede utilizada, mas isso é tratado pela biblioteca, sem necessidade de ação específica do programador.

Provas

Questão presente nas seguintes provas

4142170 Ano: 2025
Disciplina: TI - Organização e Arquitetura dos Computadores
Banca: ITA
Orgão: ITA

Provas:

Tecnologista - TL-05
Provas ×

No contexto de um cluster gerenciado pelo SLURM (Simple Linux Utility for Resource Management), qual é a função do usuário slurm e por que ele é importante para a segurança e a administração do sistema?

A

O usuário slurm é utilizado para fazer login e submeter jobs diretamente ao sistema de filas.

B

O usuário slurm é utilizado exclusivamente para monitorar o uso de recursos e gerar relatórios de performance do cluster.

C

O usuário slurm é responsável por executar jobs dos usuários, garantindo que cada job tenha os privilégios aumentados acima do usuário para garantir sua execução.

D

O usuário slurm é um administrador do sistema com plenos privilégios para gerenciar todos os aspectos do cluster, incluindo a instalação de software e atualizações de segurança.

E

O usuário slurm é o proprietário dos processos do daemon SLURM, garantindo que o gerenciamento de recursos e a execução de jobs sejam realizados com privilégios reduzidos aumentando a segurança.

Provas

Questão presente nas seguintes provas

4142169 Ano: 2025
Disciplina: TI - Organização e Arquitetura dos Computadores
Banca: ITA
Orgão: ITA

Provas:

Tecnologista - TL-05
Provas ×

Considere um ambiente de supercomputação gerenciado pelo SLURM (Simple Linux Utility for Resource Management). Qual das seguintes opções melhor descreve a função da diretiva #SBATCH --ntasks-per-node em um script de job SLURM e como ela pode influenciar a alocação de recursos e o desempenho de uma aplicação paralela?

A

Configura o número de nós a serem utilizados por job, impactando a escala do paralelismo distribuído.

B

Define o número total de jobs que podem ser submetidos por nó, limitando a carga de trabalho para evitar sobrecarga.

C

Aloca o número de threads por nó para aplicações multithreaded, afetando diretamente a configuração de OpenMP.

D

Determina o número de partições disponíveis para o job, otimizando o acesso a diferentes tipos de recursos computacionais.

E

Especifica o número de tarefas (processos) a serem executadas por nó, o que pode ser usado para controlar o grau de paralelismo e a distribuição de carga em um nó.

Provas

Questão presente nas seguintes provas

4142168 Ano: 2025
Disciplina: TI - Desenvolvimento de Sistemas
Banca: ITA
Orgão: ITA

Provas:

Tecnologista - TL-05
Provas ×

Considere o uso de diretivas OpenMP em um loop paralelizado. Qual das seguintes diretivas é mais apropriada para garantir que uma seção crítica de código, que atualiza uma variável compartilhada, seja executada por apenas um thread de cada vez, sem comprometer o paralelismo do restante do loop?

Provas

Questão presente nas seguintes provas

4142167 Ano: 2025
Disciplina: TI - Organização e Arquitetura dos Computadores
Banca: ITA
Orgão: ITA

Provas:

Tecnologista - TL-05
Provas ×

Qual das seguintes afirmações melhor descreve o conceito de "warps" no contexto da execução de programas CUDA em GPUs?

A

Um warp é um conjunto que contém 32 threads, os quais são executados em paralelo em uma GPU CUDA.

B

Um warp é uma coleção de threads que são executadas sequencialmente para minimizar o uso de recursos da GPU.

C

Warp é um algoritmo de otimização automática de código CUDA que visa reduzir a complexidade do paralelismo em GPUs.

D

Warp é um tipo de memória especializada dentro da GPU que armazena temporariamente dados para kernels CUDA.

E

Warp é um mecanismo de comunicação inter-kernel utilizado para sincronizar diferentes kernels CUDA durante a execução.

Provas

Questão presente nas seguintes provas

4142166 Ano: 2025
Disciplina: TI - Organização e Arquitetura dos Computadores
Banca: ITA
Orgão: ITA

Provas:

Tecnologista - TL-05
Provas ×

Em arquiteturas modernas de HPC que combinam CPU multinúcleo e aceleradores GPU, o gargalo de desempenho muitas vezes ocorre na transferência de dados. Qual prática é fundamental para minimizar a latência nesse cenário?