Neste artigo faz-se uma breve revisão da literatura sobre um tema atual de pesquisa em banco de dados: similaridade entre documentos semi-estruturados. Primeiramente, introduz-se conceitos básicos e algoritmos relacionados ao tema, sugerindo uma taxonomia para os trabalhos existentes. Alguns trabalhos relacionados são revisados, destacando-se sua abordagem geral e particularidades. Conclui-se com uma comparação entre os trabalhos, analisando suas contribuições e limitações, além de sugerir alguns tópicos para pesquisa futura.