Defesa de Tese de Doutorado N.º 35 - Kayusco de Farias Santos, em 10/03, às 09hs

postado em 3 de mar de 2015 13:20 por Franklin de Souza Ramalho
Candidato: Kayusco de Farias Santos
Título do trabalho: Investigação sobre Uso de Vocabulário de Código Fonte para Identificação de Especialistas
Orientador(es): Dalton Serey e Jorge Figueiredo

Data: 10/03/2015
Horário: 09h
Local: SPLab

Banca examinadora: Dalton Serey e Jorge Figueiredo (orientadores), Roberto Bittencourt (Universidade Estadual de Feira de Santana), Uirá Kulesza (UFRN), Leandro Balby (UFCG), Tiago Massoni (UFCG).

Resumo: Identificar os desenvolvedores que melhor dominam o código de entidades, os chamados especialistas, possibilita que manutenções no código, tenham maior probabilidade de sucesso e sejam realizadas com menor esforço. Estudos sobre as atuais abordagens de identificação de especialistas indicam que para melhor explicar o conhecimento sobre o código é preciso considerar outros fatores além dos capturados atualmente, e até propor combinação de abordagens. Durante a revisão literária e no decorrer de experimentos, constatamos que os nomes dados aos identificadores e textos de comentários, o que denominamos por vocabulário de software, carregam uma valorosa fonte de informação sobre os desenvolvedores e sobre o sistema em si. Nesta de Tese, para investigarmos o uso de vocabulário como insumo à modelagem de conhecimento nós desenvolvemos uma abordagem para identificar especialistas código fonte baseada na similaridade entre o vocabulário de desenvolvedores e o das entidades. Construímos um oráculo, base de referência, de especialistas por entidade para um projeto de software real, o ePol (Sistema de Informações da Polícia Federal Brasileira), que viabilizou tanto mensurar a precisão e a cobertura da abordagem, como compará-la com duas outras: por commit e por percentual de LOC modificadas. Os resultados apontam que apesar nossa abordagem identificar especialistas, sua acurácia é 0.25 quando até 4 meses de vocabulário acumulados pelos desenvolvedores são considerados. Mas, a medida que período de acúmulo aumenta sua acurácia se aproxima das duas outras abordagens, 0.32. A despeito desses resultados, acrescentamos ao modelo Degree-Of-Authorship - DOA a similaridade entre vocabulário de entidades e de desenvolvedores, o que chamamos de grau de eloquência (Degree-Of-Eloquence - DOE). Comparados os modelos, apesar de existir indícios de que DOE incrementa o R2, estatisticamente, ele não explica um aumento na capacidade de iden- tificar especialistas de código. Concluímos que apenas o uso de vocabulários não é suficiente para um significativo salto na acurácia de identificação automática de especialistas, mas que seu uso combinado aos modelos de conhecimento tradicionais merece novas imersões investigativas.
Comments