Um framework para Suporte à Preparação e Comparação de Similaridade de Documentos XML (ERBD 2007).

This is an article published as part of my graduate research:

One way to publish information in the Web is to create XML data sources. In these data sources, information is contained in one or more XML documents with a particular structure and content format. In this paper, we introduce a framework to prepare and to support the comparison of XML documents from different data sources, aiming at a further integration of similar XML instances. It is composed by some processes with one or more stages. The main contribution of this framework is to facilitate the similarity score definition between heterogeneous XML instances, allowing an uniformization of XML data defined in different contexts by different authors.

Algoritmos de Pré-Processamento para Uniformizaçãode Instâncias XML Heterogêneas

The following document contains my graduate dissertation (in portuguese), which deals with the following problem:

 The increasing availability of data on the Web creates the need for more pratical and efficient systems for collecting and integrating these data, in order to provide queries over them. One of the most used formats to represent information in the Web is XML. XML, given its dynamic nature, allows complete and adequate representation of data from different domains. But, at the same time, such dynamic nature makes integration activities complex. This work focus on reducing such complexity, providing a set of preprocessing techniques to compatibilize the structures of XML instances. This compatibilization, which seeks to respect data semantics, tries to facilitate the comparison and further integration of these data by already existing approaches for XML data comparison and integration. Through case studies and experiments, we demonstrate how the suggested preprocessings provide better results for the existing related work.

Uma introdução à Web Semântica no domínio dos Sistemas de Informações Geográficas

A Web apresenta-se atualmente como uma das fontes de pesquisa mais utilizadas. Porém possui algumas limitações que impedem a realização de buscas mais precisas pelas informações desejadas. Visando corrigir este quadro, introduziu-se o conceito de Web Semântica. Porém, boa parte da Web ainda não incorporou os recursos necessários para que a Web Semântica se concretize. Similarmente, os sistemas de Informações Geográficas (SIG) na Web (WebGIS) apresentam a mesma limitação, acrescida das particularidades dos dados geográficos. Em razão das características similares com outras aplicações na Web (possuem uma grande gama de dados porém pouca significância para os mesmos), dos WebGIS podem beneficiar-se dos avanços da Web Semântica. É sobre este novo quadro dos WebGIS que trata este artigo.

Jena – Um Framework Web Semântico em Java

O Jena é um projeto que se originou dentro do núcleo de pesquisa em Web Semântica da HP. Seu objetivo é proporcionar um framework na linguagem Java que dê suporte à utilização da Web Semântica por qualquer aplicativo capaz de utilizá-lo. Este suporte inclui recursos para manipulação de RDF, RDFS, OWL e DAML+OIL.

É um projeto de código aberto (open source), gratuito e disponível na Web no endereço http://jena.sourceforge.net. No site está disponível uma ampla documentação, assim como também existe uma lista de discussão (cujo endereço está disponível no site) para aqueles que necessitarem maiores informações.

O objetivo deste estudo de caso é conhecer o Jena, suas características principais e como ele pode ser utilizado para o desenvolvimento de aplicações que usem ontologias representadas na linguagem OWL.

Similaridade entre documentos semi-estruturados (ERBD 2006)

Neste artigo faz-se uma breve revisão da literatura sobre um tema atual de pesquisa em banco de dados: similaridade entre documentos semi-estruturados. Primeiramente, introduz-se conceitos básicos e algoritmos relacionados ao tema, sugerindo uma taxonomia para os trabalhos existentes. Alguns trabalhos relacionados são revisados, destacando-se sua abordagem geral e particularidades. Conclui-se com uma comparação entre os trabalhos, analisando suas contribuições e limitações, além de sugerir alguns tópicos para pesquisa futura.