Defesa de dissertação de José Gildo Araújo, 19/4 14h

postado em 24 de mai de 2013 08:18 por Nazareno Ferreira de Andrade
Candidato: José Gildo de Araújo Júnior
Título do trabalho: Indexação Semântica de Documentos Textuais Baseado Em Fontes Heterogêneas de Informação
Orientador(es): Ulrich Schiel Leandro Balby Marinho

Data: 19/04/2013
Horário: 14h
Local: CEEI

Banca examinadora: Maria Fernanda Moura (Embrapa Informática Agropecuária), Carlos Eduardo Santos Pires (UFCG).

Resumo: Atualmente, um dos principais desafios no campo da Recuperação de Informação (RI) é o desenvolvimento de sistemas que processem corretamente a ideia ou conceito por trás das consultas emitidas pelos usuários. Sistemas convencionais de RI, geralmente limitam suas funcionalidades à indexação e recuperação por palavras-chave, mecanismo que gera resultados incipientes quando termos indexados não são mencionados na consulta. Consultas tais como: “O rei da música brasileira” e “Roberto Carlos”, mesmo utilizando um distinto grupo de palavras, podem representar a mesma ideia ou conceito e, portanto, o sistema deveria retornar o mesmo conjunto resposta. Entretanto, para sistemas de RI que não consideram o aspecto semântico, ambas consultas retornarão, eventualmente, conjuntos respostas distintos. Propõe-se, neste trabalho, um novo paradigma de indexação semântica de conceitos, onde, neste novo enfoque, conceitos presentes em documentos textuais são enriquecidos semanticamente de maneira automática por meio de informações presentes em fontes heterogêneas de informação, unindo em um único ambiente, características de dicionários, enciclopédias e de sentido comum. Desta maneira, isolada-se a ideia ou conceitualização dos objetos de suas inúmeras formas de representação. A abordagem proposta foi comparada com o projeto UBY, um recurso léxico-semântico de grande escala que combina uma vasta gama de informações construídas tanto por peritos quanto coletivamente para o idioma Inglês e Alemão. De maneira que ambas foram submetidas a diversas coleções de documentos e foi comprovada a superioridade da abordagem proposta em termos de cobertura - mediu-se o número de conceitos presentes nas coleções de documentos identificados por ambas as abordagem -, conectividade - computou-se para cada elemento identificado o número de conexões estabelecidas com outros conceitos - e qualidade do enriquecimento semântico produzido - computou-se se as relações semânticas estabelecidas entre conceitos são consistentes.
Comments