WebScrapping através de screenshot devido a bloqueios de Shadow DOM

1. WebScrapping através de screenshot devido a bloqueios de Shadow DOM

Lwkas
(usa XUbuntu)

Enviado em 06/01/2025 - 20:16h

Senhores, estou fazendo algumas raspagens na web com Python + Selenium. Em um dos sites acabei esbarrando em bloqueios de execução de scripts (Shadow DOM) me impedindo de usar seletores comuns de css ou qualquer outra alternativa para interagir com o HTML da página. Dessa forma, a solução que cheguei foi: Com o selenium renderizar a página na sua extensão completa e tirar uma screenshot, a partir dessa screenshot estou usando pytesseract (library python) para converter a imagem em string. Essa string é enviada a uma API do gpt para me retornar em json as informações da página.

Esse fluxo funcionou,porém tem um problema que não consigo resolver: Quando a imagem é convertida para string perde-se os posicionamentos das informações na página, o que desorganiza conteudos como tabelas que é justamente o que preciso da página.

Qual caminho posso seguir para raspar essa tabela da página?

0 0

Quote

2. Re: WebScrapping através de screenshot devido a bloqueios de Shadow DOM

SamL
(usa XUbuntu)

Enviado em 06/01/2025 - 20:23h

Veja aqui:
https://stackoverflow.com/questions/55761810/how-to-automate-shadow-dom-elements-using-selenium
Talvez resolva pra ti.

0 0

Quote

3. Re: WebScrapping através de screenshot devido a bloqueios de Shadow DOM

leandropscardua
(usa Ubuntu)

Enviado em 07/01/2025 - 08:06h

Tem uma biblioteca python p extrair tabela de imagens usando ia
https://github.com/xavctn/img2table?tab=readme-ov-file
Mas vc deve procurar no google "extract table image" para vir sugestões relevantes pq essas ferramentas não costumam funcionar em 100% dos casos.

0 0

Quote