Exame de Qualificação de Doutorado de Dimas Cassimiro do Nascimento Filho

postado em 5 de jul de 2016 09:10 por Coordenação da Pós-graduação em Computação da UFCG   [ 5 de jul de 2016 09:10 atualizado‎(s)‎ ]

Candidato(a): Dimas Cassimiro do Nascimento Filho

Título do Trabalho: Um Serviço para Monitoramento de Qualidade de Dados em Nuvem

Orientador(es): Carlos Eduardo Santos Pires

 

Data: 25/07/2016

Horário: 14:00:00

Local: Auditório do CEEI

 

Resumo: 

Os dados representam um ativo essencial para as atividades operacionais, gerenciais e estratégicas de uma organização. Na prática, a eficácia das atividades realizadas com base nos dados de uma organização pode ser consideravelmente influenciada pela qualidade dos dados utilizados. Na era de Big Data, na qual a escala dos dados provê inúmeros desafios para algoritmos clássicos, a tarefa de avaliar a qualidade dos dados pode se tornar custosa e apresentar tempos de execução elevados. Por este motivo, gerentes de negócio podem optar por terceirizar o processo de monitoramento de qualidade de bancos de dados para ser feito por um serviço específico, usualmente baseado em computação em nuvem. Neste contexto, este trabalho propõe um serviço para monitoramento de qualidade de dados em nuvem, o qual é baseado em uma arquitetura que emprega o paradigma de computação em nuvem e na utilização de algoritmos de provisionamento de recursos computacionais que utilizam heurísticas e técnicas de aprendizado de máquina. O trabalho também se propõe a lidar com inúmeros desafios envolvendo a disponibilização deste tipo de serviço, englobando desde a concepção de sua arquitetura e a definição de SLAs no contexto de qualidade de dados, até a proposição de diferentes abordagens para reduzir os custos de um serviço para monitoramento de qualidade de dados. Além disso, são propostas abordagens para a adoção de algoritmos incrementais de qualidade de dados no serviço proposto. Foram conduzidos três experimentos diferentes visando avaliar a eficácia dos algoritmos de provisionamento de recursos propostos e das heurísticas empregadas no contexto de algoritmos incrementais de qualidade de dados. Os resultados dos experimentos apresentam uma gama de opções englobando diferentes relações de custo e benefício, envolvendo principalmente: custo de infraestrutura do serviço e quantidade de violações de SLA ao longo do tempo. Por fim, a avaliação empírica das heurísticas propostas para o problema de deduplicação incremental de dados também apresentou uma série de padrões nos resultados, envolvendo principalmente relações de custo e benefício relacionadas ao tempo de execução das heurísticas e os resultados de eficácia produzidos.

 

Banca Examinadora: 

(Membros Internos)

Leandro Balby Marinho 

Cláudio Elízio Calazans Campelo

(Membros Externos)

José Maria da Silva Monteiro Filho, Universidade Federal do Ceará

Renata Galante, Universidade Federal do Rio Grande do Sul

Comments