Defesa de Tese de Doutorado N.º 32 - Vladimir Soares Catão, em 21/11, às 09hs

postado em 3 de nov de 2014 12:29 por Franklin de Souza Ramalho
Candidato: Vladimir Soares Catão
Título do trabalho: DBFIRe: Recuperação de Documentos Relacionados a Consultas a Banco de Dados
Orientador(es): Marcus Costa Sampaio e Ulrich Schiel

Data: 21/11/2014
Horário: 9hs
Local: Auditório do CEEI

Banca examinadora: Marcus Costa Sampaio e Ulrich Schiel (Orientadores), Edleno Silva de Moura (Universidade Federal do Amazonas), Ricardo da Silva Torres (Universidade Estadual de Campinas), Carlos Eduardo Santos Pires (UFCG), Leandro Balby Marinho (UFCG).

Resumo: Bancos de dados e documentos são comumente mantidos em separado nas organizações, controlados por Sistemas Gerenciadores de Bancos de Dados (SGBDs) e Sistemas de Recuperação de Informação (SRIs), respectivamente. Essa separação tem ligação com a natureza dos dados manipulados: estruturados, no primeiro caso; não estruturados, no segundo. Enquanto os SGBDs processam consultas exatas a bancos de dados, os SRIs recuperam documentos com base em buscas por palavras-chave, que são inerentemente imprecisas. Apesar disso, a integração desses sistemas pode resultar em grandes ganhos ao usuário, uma vez que, numa mesma organização, bancos de dados e documentos frequentemente se referem a entidades comuns. Uma das possibilidades de integração é a recuperação de documentos associados a uma dada consulta a banco de dados. Por exemplo, considerando a consulta "Quais os clientes com contratos acima de X reais?", como recuperar documentos que possam estar associados a ela, como os próprios contratos desses clientes, propostas de novas vendas em aberto, entre outros documentos? A solução proposta nesta tese baseia-se numa abordagem especial de expansão de busca para a recuperação de documentos: um conjunto inicial de palavras-chave é expandido com termos potencialmente úteis contidos no resultado de uma consulta a banco de dados; o conjunto de palavras-chave resultante é então enviado a um SRI para a recuperação dos documentos de interesse para a consulta. Propõe-se ainda uma nova forma de ordenação dos termos para expansão: partindo do pressuposto de que uma consulta a banco de dados representa com exatidão a necessidade de informação do usuário, a seleção dos termos é medida por sua difusão ao longo do resultado da consulta. Essa medida é usada não apenas para selecionar os melhores termos, mas também para estabelecer seus pesos relativos na expansão. Para validar o método proposto, foram realizados experimentos em dois domínios distintos: os resultados obtidos demonstraram melhorias significativas com relação a outros modelos de recuperação de documentos destacados na literatura.
Comments