Web Mining normalmente é subdividido em três categorias principais, que constituem as áreas de interesse onde minerar informação:
- Web Content Mining ou Mineração do Conteúdo de Documentos na Web.
Mineração do conteúdo da página Web.
Mineração nos resultados da pesquisa na Web
- Web Log Mining (Web Usage Mining) ou Mineração do Uso da Web.
Rastreamento nos padrões gerais de acesso.
Rastreamento de uso customizado.
- Web Structure Mining ou Mineração da Estrutura de Documentos na Web.
Mineração do conteúdo da Web
Mineração de conteúdo da Web é o processo de extração do máximo de informações do conteúdo de um documento Web. Conteúdo dos dados corresponde a fatos que uma página Web foi designada para informar aos usuários. Isto pode consistir de textos, imagens, áudio, vídeo ou registros estruturados, tais como, listas ou tabelas. Text mining e suas aplicações para conteúdo da Web foram extensamente pesquisadas. Algumas pesquisas foram direcionadas para Text Mining, que é a retirada de conhecimento ocultos em textos da Web, descoberta de tópicos (topic discovery), extração de modelos associados (extracting association patterns), agrupamento de documentos da Web (custering of web documents) e classificação de páginas da Web (classification of Web Pages).
Existem dois pontos de vista principais quando se fala de Mineração do Conteúdo da Web: o ponto de vista da "Recuperação de Informação" (RI) e o ponto de vista de "Banco de Dados" (BD).
O objetivo, sob o ponto de vista de RI, é auxiliar o usuário no processo de busca ou filtragem de informação. É o que realiza os principais mecanismos de busca na Internet ao procurar atender da melhor maneira possível as solicitações feitas por usuários através de palavras-chave.
O objetivo, sob o ponto de vista de BD, é modelar os dados da Web e integrá-los de tal modo que consultas mais sofisticadas do que simplesmente consultas baseadas em palavras-chave possam ser feitas. Isto pode ser realizado descobrindo-se os esquemas dos documentos na Web, construindo-se Web Warehouses ou uma base de conhecimento de documentos. A pesquisa nesta área lida, sobretudo, com dados semi-estruturados (XML). Dados semi-estruturados se referem a dados que possuem alguma estrutura, mas não esquemas rígidos como é o caso dos bancos de dados.
Quando se trata em obter conhecimento de uma imagem, nesse campo de processamento de imagem e visão computacional, aplicação da técnica de mineração de conteúdo não é muito rápida.
Na mineração de dados na Web, os dados podem ser coletados:
- Do lado do servidor;
- No lado do cliente;
- No proxy dos servidores;
- Banco de dados das organizações.
Cada tipo de dado difere não só pela localização, mas também nos tipos de dados. Existem vários tipos de dados que podem ser usados na mineração na Web:
Categorias de dados:
- Conteúdo: Constituem-se nos dados reais das páginas Web, isto é, a página projetada para atender ao usuário. Esta geralmente constitui-se de textos e gráficos.
- Estrutura: Dados os quais descrevem a organização dos conteúdos. A estrutura interna das páginas inclui o conjunto de tags HTML ou XML. A principal estrutura de informação entre páginas se constitui nos hiperlinks que conectam uma página a outra.
- Uso: Dados que descrevem os padrões de uso de páginas Web, como o endereço IP, páginas acessadas e a data e hora de acesso.
- Perfil do usuário: Constitui-se em dados que fornecem informações sobre usuários de um site Web.
Quanto às fontes que originam estes dados:
- Coleção no lado do servidor: O arquivo de log de um servidor Web constitui-se em uma fonte importantíssima de informações para a realização de mineração do uso da Web. Isto pode ser explicado pelo fato destes arquivos apresentarem registros da navegação dos visitantes do site. Entretanto, os dados do uso do site armazenados por arquivos de log podem não ser inteiramente confiáveis, por exemplo, as views de páginas (número de vezes que a página foi requisitada, e não recarregada ou atualizada) não são gravadas no arquivo de log do servidor.
- Coleção no lado do cliente: As informações também podem ser coletadas do lado do cliente, esta coleta de informações pode ser implementada usando programas remotos como os implementados com a linguagem baseada em objetos - javascript ou com os applets da linguagem orientada a objetos - Java. As implementações de applets podem ser uma ótima solução para coleta de informações do lado do cliente, mas o overhead causado, principalmente, na sua execução inicial pode causar uma inibição em seu uso como uma solução. O uso do javascript aparentemente é uma melhor solução pelo fato de sua interpretação exigir menor tempo, mas as implementações com javascript não podem capturar todos os cliques que o usuário realiza.
- No proxy dos servidores: O proxy Web atua em um nível intermediário entre o Browser do cliente e do servidor Web. O proxy pode ser utilizado para diminuir o tempo de carga das páginas Web. A atividade final do proxy é garantir que as páginas mais requisitadas estejam disponíveis para facilitar no momento de cópia, proporcionando que a realização desta atividade seja feita de forma mais rápida. Através deste tipo de informação é possível identificar as páginas mais requisitadas por um grupo de usuários anônimos.
Mineração da Estrutura de Documentos na Web
A Mineração da Estrutura de Documentos na Web tenta descobrir o modelo subjacente à estrutura de links da Web. O modelo é baseado na topologia dos hiperlinks. Este modelo pode ser utilizado para classificar páginas Web e é útil para gerar informações tais como a similaridade ou relacionamentos entre diferentes sites Web. Esta categoria de mineração na Web pode ser utilizada para se descobrir, por exemplo, os sites de autoridade (authority sites), isto é, sites cujos links aparecem freqüentemente em outros sites.
É bom ressaltar que a distinção entre estas três categorias não é totalmente clara, isto é, uma das categorias (por exemplo, Mineração do Conteúdo) pode utilizar links (objeto principal da Mineração de Estrutura) e mesmo perfis de usuário (um dos objetos centrais da Mineração do Uso).
Minerando do Uso da Web
A Mineração do uso da Web tenta descobrir regularidades nos caminhos percorridos pelos usuários quando estão navegando pela Web. Enquanto a Mineração do Conteúdo e a mineração da Estrutura utilizam os dados reais presentes nos documentos da Internet, a Mineração do Uso utiliza dados secundários derivados da interação do usuário com a Web. Tais dados secundários incluem registros de log de servidores de acesso a Web (daí o nome alternativo "Web Log Mining"), registros de log de servidores proxy, perfis de usuários, transações do usuário, consultas do usuário, dados de arquivos "Bookmarks" (Favoritos), etc.