Schema Generator – Uma Ferramenta para Geração de Esquemas Sintéticos de Bancos de Dados para Simulações P2P
Por Márcio de Carvalho Saraiva
(marcio@dsc.ufcg.edu.br)
“Não crie mais centenas de esquemas de banco de dados para realizar suas simulações! O Schema Generator gera esquemas para você!”

Quando um desenvolvedor de software vai implementar uma solução para gerenciar aplicações P2P, ele utiliza, normalmente, Sistemas P2P de Gerenciamento de Dados para realizar simulações.

Os Sistemas P2P de Gerenciamento de Dados (em inglês, Peer Data Management Systems – PDMS) são aplicações P2P avançadas nas quais cada peer representa uma fonte de dados autônoma que disponibiliza um esquema local, ou seja, cada peer poderia ser um banco de dados que compartilha parte de seu esquema com outros bancos de dados (que podem estar até geograficamente distantes), como, por exemplo, o banco de dados da UFCG compartilhando informações de seus professores com os bancos de dados de outras universidades.

Os simuladores necessitam associar um esquema de banco de dados a cada peer da rede overlay. Em geral, as simulações em uma rede overlay de um PDMS envolvem um número elevado de fontes de dados, e encontrar ou criar uma grande quantidade de esquemas pode ser uma tarefa tendenciosa e cansativa, tornando a realização de testes nesse ambiente uma tarefa complexa.

Para agravar a situação, os esquemas devem pertencer a um mesmo domínio e apresentar algum grau de sobreposição, de forma a permitir a geração de mapeamentos entre si, como, por exemplo, em um banco de dados, temos a tabela Professor e, em outro banco de dados, a tabela Docente. Dependendo do domínio escolhido, pode ser fácil encontrar um pequeno número de esquemas relacionados. Por exemplo, em uma rápida navegação no site Database Answers, é possível encontrar 13 esquemas de banco de dados relacionados ao domínio educação. No entanto, essa quantidade de esquemas é insuficiente para a realização de simulações.

Exemplo de um PDMS com quatro peers que compartilham parte de seus dados (peer schema) a partir de mapeamentos locais (local mappings) e mapeamentos entre peers (schema mappings).

A solução mais simples para o problema é a geração manual de esquemas de bancos de dados para cada peer utilizado. Porém, essa técnica é passível de erros e de difícil aplicação em grande escala, uma vez que PDMS utiliza centenas a milhares de peers.

Em vez disso, Márcio de Carvalho Saraiva (graduando em Ciência da Computação/UFCG e integrante do PET), Priscilla Kelly Machado Vieira (graduada em Ciência da Computação/UFCG) e o professor Carlos Eduardo do Grupo de Sistemas de Informação e Banco de Dados (SINBAD/UFCG), que atuam no Laboratório de Sistemas e Informação (LSI)/DSC/UFCG, propõem uma ferramenta para geração automática de múltiplos esquemas sintéticos de bancos de dados com propósito de simulação em PDMS, o Schema Generator.

A ferramenta foi desenvolvida com base em solução que consiste em: a partir de um esquema de banco de dados suficientemente grande e complexo, enumerar múltiplos esquemas sintéticos e, em seguida, aplicar modificações na estrutura dos esquemas gerados por meio de parâmetros passados pelo usuário. Os esquemas sintéticos são semanticamente similares entre si, dependendo do tipo de modificação selecionada. Foram desenvolvidas técnicas para adicionar e remover colunas de tabelas e para substituir nomes de tabelas e tipos de dados Algumas dessas técnicas acessam dicionário de sinônimos e de dados para executar as modificações; esse dicionário é representado por uma ontologia de domínio.

Visão geral do processo de geração e modificação de esquemas sintéticos.

Como fruto do projeto, a equipe participou, com publicação, da Escola Paraibana de Informática (EPI), realizada em João Pessoa – PB, teve um artigo aceito para publicação na 22nd International Conference on Database and Expert Systems Applications (DEXA'11), que será realizada em Toulouse, na França.

Se você ficou interessado pela pesquisa e gostaria de saber mais detalhes, entre em contado com Márcio, por meio do e-mail: marcio.saraiva@ccc.ufcg.edu.br , ou participe do IV Workshop de Pesquisas do Grupo PET Computação, que será realizado no período letivo 2011.2, no qual será apresentado o Schema Generator, dentre outras ferramentas.

Jornal PETNews - Edição: Caio Paes - Revisão: Janderson Jason e Joseana Fechine
Grupo PET Computação UFCG, 2011. All rights reserved.