Proposta de Dissertação: 25/02/2011, 08:00.

postado em 23 de fev de 2011 12:03 por Hyggo Oliveira de Almeida   [ 23 de fev de 2011 12:07 atualizado‎(s)‎ ]
Aluno: Geraldo Abrantes Sarmento Neto. 
Título:  Estudo de Adequação de Plataforma Hadoop à Execução de Aplicações Data-Intensive.
Local: Auditório do LSD
Data: 25/02/2011.  
Horário: 08:00. 
Banca Examinadora: Lívia Campos (orientadora), Raquel Lopes (avaliador), Francisco Brasileiro (avaliador).

Resumo: 
O surgimento de infra-estruturas construídas a partir de agregados de computadores convencionais, a exemplo dos clusters e grades computacionais, impactaram na forma como a pesquisa científica é conduzida atualmente. Essa nova forma de fazer ciência, fortemente apoiada no desenvolvimento de infra-estruturas de comunicação, armazenamento e processamento que se coloca à disposição dos cientistas, tem sido chamada de e-ciência. Esses avanços também se refletiram na área dos middlewares, que associados a essas infra-estruturas, deram origem às plataformas para desenvolvimento e execução de aplicações de e-ciência paralelas. Uma dessas plataformas é o Hadoop, que implementa o modelo de programação MapReduce. Ele tem sido considerado uma referência no contexto de tecnologia para desenvolvimento de aplicações de e-ciência que processam ou geram grandes quantidades de dados, denominadas de aplicações data-intensive. No entanto, o uso eficiente do Hadoop é um grande desafio. Isso se refere à forma de avaliar quão adequada essa plataforma é para a execução de uma classe de aplicações, uma vez que tais aplicações requerem que a plataforma que lhes dá suporte à execução ofereça certas características e serviços. Vale salientar que os resultados desse tipo de avaliação dão subsídios à escolha por uma plataforma de execução ou outra. Em diversas áreas da computação, esse tipo de escolha é apoiada por resultados de benchmarks. Entretanto, ainda não existem benchmarks bem aceitos pela comunidade no contexto de plataformas de computação paralela em larga escala em geral, e particularmente, do Hadoop . O objetivo desse trabalho é avaliar a adequação do Hadoop enquanto plataforma de suporte à execução de aplicações paralelas data-intensive usando uma metodologia baseada em benchmarks. Esses benchmarks serão definidos considerando características específicas de aplicações data-intensive, além de contemplarem métricas diversificadas, que vão desde as tradicionais associadas ao desempenho (latência e vazão) até àquelas menos convencionais (consumo de energia), priorizando o contexto de avaliação da aplicação. Será elaborado, ainda, um guia de boas práticas que descreverá uma metologia para uso dos benchmarks gerados. Este guia servirá de suporte a desenvolvedores de aplicações data-intensive, como também usuários do Hadoop que desejem realizar avaliações posteriores sobre essa plataforma. Além disso, poderá fornecer embasamento para processos de avaliação de adequação de outros tipos de plataforma de computação paralela de larga escala.

Agradecemos a sua presença