Exame de Qualificação de Doutorado de Demetrio Gomes Mestre

postado em 18 de out de 2016 09:29 por Coordenação da Pós-graduação em Computação da UFCG   [ 18 de out de 2016 09:30 atualizado‎(s)‎ ]

Candidato(a): Demetrio Gomes Mestre

Título do Trabalho: Paralelização Eficiente de Métodos de Indexação Adaptativa e Incremental para Resolução de Entidades

Orientador(es): 

Carlos Eduardo Santos Pires

 

Data: 03/11/2016

Horário: 14:30:00

Local: Auditório do CEEI

 

Resumo: 

A Resolução de Entidades (RE), ou seja, a tarefa de identificar entidades que se referem a um mesmo objeto do mundo real, é uma tarefa importante e difícil para a integração e limpeza de fontes de dados. Uma das maiores dificuldades para a realização desta tarefa na era de Big Data, é o tempo de execução elevado gerado pela natureza quadrática da tarefa. Assim, para reduzir o tempo de execução, a tarefa de RE pode ser realizada em paralelo com o uso de modelos de programação tais como MapReduce e Spark. No entanto, a eficácia e a escalabilidade de abordagens baseadas em MapReduce e Spark para a execução de tarefas intensivas em dados depende fortemente da designação de dados feita da fase de map para a fase de reduce, para o caso de MapReduce, e da designação de dados entre as operações de transformação, para o caso de Spark. A robustez da estratégia de designação de dados é crucial para se alcançar alta eficiência, ou seja, otimização na manipulação de dados enviesados (conjuntos de dados grandes que podem causar gargalos de memória) e no balanceamento da distribuição da carga de trabalho entre os nós da infraestrutura distribuída. Assim, considerando que a investigação de abordagens que promovam a execução eficiente de métodos de RE modernos e bem conhecidos, tais como indexação adaptativa e RE incremental, no contexto da computação distribuída ainda não foi contemplada na literatura, este trabalho consiste em propor um conjunto de abordagens para compor uma ferramenta de RE capaz de executar abordagens de indexação adaptativas e incrementais eficientes utilizando os modelos programáticos MapReduce e Spark. O desempenho das abordagens propostas é analisado em relação ao estado da arte utilizando infraestruturas e cluster e fontes de dados reais. Os resultados, conduzidos até o momento, mostram que as abordagens propostas neste trabalho apresentam padrões que evidenciam o aumento significativo de desempenho da tarefa de RE distribuída promovendo, assim, uma redução no tempo de execução total preservando a qualidade da detecção de pares de entidades similares.

 

Banca Examinadora: 

(Membros Internos)

Andrey Elísio Monteiro Brito 

Cláudio de Souza Baptista

(Membros Externos)

Daniel Cardoso Moraes de Oliveira, Universidade Federal Fluminense, UFF, Brasil

Ana Carolina Brandao Salgado, Universidade Federal de Pernambuco, UFPE, Brasil

Comments