Web Mining

Este artigo, feito por mim e colegas do curso de Mestrado em Ciência da Computação, não tem a finalidade de prover ninguém com informações avançadas sobre Web Mining e sim, mostrar algumas vantagens, escopo e resultados que podem ser obtidos, além de claro, motivar sua pesquisa sobre o assunto.

kitoneto

Por Quintino Izidio dos Santos Neto em 08/09/2006

Hits: 31.976 Categoria: Banco de Dados Subcategoria: Miscelânea

Parte 3: As categorias de Web Mining

Web Mining normalmente é subdividido em três categorias principais, que constituem as áreas de interesse onde minerar informação:

Web Content Mining ou Mineração do Conteúdo de Documentos na Web.
Mineração do conteúdo da página Web.
Mineração nos resultados da pesquisa na Web
Web Log Mining (Web Usage Mining) ou Mineração do Uso da Web.
Rastreamento nos padrões gerais de acesso.
Rastreamento de uso customizado.
Web Structure Mining ou Mineração da Estrutura de Documentos na Web.

Mineração do conteúdo da Web

Mineração de conteúdo da Web é o processo de extração do máximo de informações do conteúdo de um documento Web. Conteúdo dos dados corresponde a fatos que uma página Web foi designada para informar aos usuários. Isto pode consistir de textos, imagens, áudio, vídeo ou registros estruturados, tais como, listas ou tabelas. Text mining e suas aplicações para conteúdo da Web foram extensamente pesquisadas. Algumas pesquisas foram direcionadas para Text Mining, que é a retirada de conhecimento ocultos em textos da Web, descoberta de tópicos (topic discovery), extração de modelos associados (extracting association patterns), agrupamento de documentos da Web (custering of web documents) e classificação de páginas da Web (classification of Web Pages).

Existem dois pontos de vista principais quando se fala de Mineração do Conteúdo da Web: o ponto de vista da "Recuperação de Informação" (RI) e o ponto de vista de "Banco de Dados" (BD).

O objetivo, sob o ponto de vista de RI, é auxiliar o usuário no processo de busca ou filtragem de informação. É o que realiza os principais mecanismos de busca na Internet ao procurar atender da melhor maneira possível as solicitações feitas por usuários através de palavras-chave.

O objetivo, sob o ponto de vista de BD, é modelar os dados da Web e integrá-los de tal modo que consultas mais sofisticadas do que simplesmente consultas baseadas em palavras-chave possam ser feitas. Isto pode ser realizado descobrindo-se os esquemas dos documentos na Web, construindo-se Web Warehouses ou uma base de conhecimento de documentos. A pesquisa nesta área lida, sobretudo, com dados semi-estruturados (XML). Dados semi-estruturados se referem a dados que possuem alguma estrutura, mas não esquemas rígidos como é o caso dos bancos de dados.

Quando se trata em obter conhecimento de uma imagem, nesse campo de processamento de imagem e visão computacional, aplicação da técnica de mineração de conteúdo não é muito rápida.

Na mineração de dados na Web, os dados podem ser coletados:

Do lado do servidor;
No lado do cliente;
No proxy dos servidores;
Banco de dados das organizações.

Cada tipo de dado difere não só pela localização, mas também nos tipos de dados. Existem vários tipos de dados que podem ser usados na mineração na Web:

Categorias de dados:

Conteúdo: Constituem-se nos dados reais das páginas Web, isto é, a página projetada para atender ao usuário. Esta geralmente constitui-se de textos e gráficos.
Estrutura: Dados os quais descrevem a organização dos conteúdos. A estrutura interna das páginas inclui o conjunto de tags HTML ou XML. A principal estrutura de informação entre páginas se constitui nos hiperlinks que conectam uma página a outra.
Uso: Dados que descrevem os padrões de uso de páginas Web, como o endereço IP, páginas acessadas e a data e hora de acesso.
Perfil do usuário: Constitui-se em dados que fornecem informações sobre usuários de um site Web.

Quanto às fontes que originam estes dados:

Coleção no lado do servidor: O arquivo de log de um servidor Web constitui-se em uma fonte importantíssima de informações para a realização de mineração do uso da Web. Isto pode ser explicado pelo fato destes arquivos apresentarem registros da navegação dos visitantes do site. Entretanto, os dados do uso do site armazenados por arquivos de log podem não ser inteiramente confiáveis, por exemplo, as views de páginas (número de vezes que a página foi requisitada, e não recarregada ou atualizada) não são gravadas no arquivo de log do servidor.
Coleção no lado do cliente: As informações também podem ser coletadas do lado do cliente, esta coleta de informações pode ser implementada usando programas remotos como os implementados com a linguagem baseada em objetos - javascript ou com os applets da linguagem orientada a objetos - Java. As implementações de applets podem ser uma ótima solução para coleta de informações do lado do cliente, mas o overhead causado, principalmente, na sua execução inicial pode causar uma inibição em seu uso como uma solução. O uso do javascript aparentemente é uma melhor solução pelo fato de sua interpretação exigir menor tempo, mas as implementações com javascript não podem capturar todos os cliques que o usuário realiza.
No proxy dos servidores: O proxy Web atua em um nível intermediário entre o Browser do cliente e do servidor Web. O proxy pode ser utilizado para diminuir o tempo de carga das páginas Web. A atividade final do proxy é garantir que as páginas mais requisitadas estejam disponíveis para facilitar no momento de cópia, proporcionando que a realização desta atividade seja feita de forma mais rápida. Através deste tipo de informação é possível identificar as páginas mais requisitadas por um grupo de usuários anônimos.

Mineração da Estrutura de Documentos na Web

A Mineração da Estrutura de Documentos na Web tenta descobrir o modelo subjacente à estrutura de links da Web. O modelo é baseado na topologia dos hiperlinks. Este modelo pode ser utilizado para classificar páginas Web e é útil para gerar informações tais como a similaridade ou relacionamentos entre diferentes sites Web. Esta categoria de mineração na Web pode ser utilizada para se descobrir, por exemplo, os sites de autoridade (authority sites), isto é, sites cujos links aparecem freqüentemente em outros sites.

É bom ressaltar que a distinção entre estas três categorias não é totalmente clara, isto é, uma das categorias (por exemplo, Mineração do Conteúdo) pode utilizar links (objeto principal da Mineração de Estrutura) e mesmo perfis de usuário (um dos objetos centrais da Mineração do Uso).

Minerando do Uso da Web

A Mineração do uso da Web tenta descobrir regularidades nos caminhos percorridos pelos usuários quando estão navegando pela Web. Enquanto a Mineração do Conteúdo e a mineração da Estrutura utilizam os dados reais presentes nos documentos da Internet, a Mineração do Uso utiliza dados secundários derivados da interação do usuário com a Web. Tais dados secundários incluem registros de log de servidores de acesso a Web (daí o nome alternativo "Web Log Mining"), registros de log de servidores proxy, perfis de usuários, transações do usuário, consultas do usuário, dados de arquivos "Bookmarks" (Favoritos), etc.

#1 Comentário enviado por thelinux em 08/09/2006 - 19:57h

Nota 10 por estarem compartilhando informacoes.

#2 Comentário enviado por thelinux em 08/09/2006 - 19:58h

E facil da nota baixa e nao se identifica. Nota 10 para o trabalho de voces.

#3 Comentário enviado por removido em 09/09/2006 - 23:41h

Poxa thelinux, um pouco mais de calma. O kra expressou o que ele achou. A vantagem do software livre é justamente a liberdade de expressão. Tenho certeza que o autor não está preocupado com a nota aqui. O importante é compartilhar, se gostarem ou não, não importa.

Nada é tão bom ao ponto de todos gostarem e nem tão ruim ao ponto de ninguém gostar.

Quanto ao artigo, está ótimo. Mesmo não sendo voltado ao linux, foi muito interessante. Este é o primeiro artigo do autor. que já começou muito bem então espero que continue ativamente na comunidade.

[]'s

#4 Comentário enviado por thelinux em 11/09/2006 - 08:18h

Esta é minha opinião. A liberdade realmente é importante e realmente fico chateado quando pessoas dão nota sem se identificar nem justificar. Geralmente estas pessoas não contribuem em nada para o Linux.

fdettoni - sou um cara muito tranquilo.

Mas é isso.

#5 Comentário enviado por fmpfmp em 11/09/2006 - 10:14h

#6 Comentário enviado por carlocesar em 12/09/2006 - 09:34h

Parabéns pela iniciativa de compartilhar este tipo de assunto, que por sinal está muito bem explicado!

carlocesar

#7 Comentário enviado por jalexandre em 12/09/2006 - 11:16h

Massa esse artigo. Muito interessante esse tal de Web Mining :)
Parabéns.

#8 Comentário enviado por haduken em 21/05/2009 - 23:51h

excelente artigo sobre web mining, aborda de maneira muito prática o assunto! parabéns!

Web Mining

Parte 3: As categorias de Web Mining

Mineração do conteúdo da Web

Mineração da Estrutura de Documentos na Web

Minerando do Uso da Web

Páginas do artigo

Outros artigos deste autor

Leitura recomendada

Comentários

Contribuir com comentário