Defesa de Dissertação de Mestrado de Demetrio Gomes Mestre 10/12 às 9h

postado em 22 de nov de 2013 23:18 por Franklin de Souza Ramalho   [ 23 de nov de 2013 00:16 atualizado‎(s)‎ ]
Candidato: Demetrio Gomes Mestre
Título do trabalho: Uma Abordagem para Aprimoramento do Balanceamento de Carga do Método de Resolução de Entidades Standard Blocking baseado em MapReduce
Orientador(es): Carlos Eduardo Santos Pires

Data: 10/12/2013 0:00:00
Horário: 9h
Local: Aud. do CEEI

Banca examinadora:(mais detalhes abaixo) Bernadette Farias Lóscio (UFPE), (), Andrey Elisio Monteiro Brito (UFCG), (UFCG).

Resumo: A Resolução de Entidades (RE), i.e., a tarefa de identificar entidades que se referem ao mesmo objeto do mundo real, é uma tarefa importante e difícil para a integração e limpeza de fontes de dados. Uma das maiores dificuldades, para a realização desta tarefa, é tempo de execução elevado gerado pela execução do produto Cartesiano entre as entidades para realização das comparações. Assim, para reduzir o tempo de execução, a tarefa de RE pode ser realizada em paralelo com o uso do modelo de programação conhecido como MapReduce. Contudo, a eficácia e a escalabilidade das implementações baseadas em MapReduce para a execução de tarefas intensivas em dados depende fortemente da atribuição de dados feita da fase de map para fase de reduce. A robustez da estratégia desta atribuição de dados é crucial para se alcançar otimização na manipulação de dados enviesados e no balanceamento da distribuição da carga de trabalho entre os nós da infraestrutura distribuída. Neste trabalho, propomos BlockSlicer, uma abordagem baseada em MapReduce que suporta técnicas de blocagem para reduzir o espaço de busca por entidades. A abordagem utiliza um trabalho de MapReduce de pré-processamento para analisar a distribuição dos dados, promove um aprimoramento do balanceamento de carga através da aplicação de uma estratégia de fatiamento eficiente de blocos e aplica um algoritmo de otimização para atribuir as tarefas de match geradas. Avaliamos o desempenho da abordagem em relação ao estado da arte utilizando uma infraestrutura de nuvem e fontes de dados reais. Os resultados mostram que BlockSlicer aumenta significativamente o desempenho da tarefa de RE distribuída promovendo a redução do montante de dados gerados da fase de map e a diminuição do tempo de execução total.
Comments