Primeira Experiência de Trabalho (Freelance): Uma Solução para a Loja de Livros: Sebo Baleia

Problema: Precisava de alguns dados cadastrados de um site numa planília de Excel para organizar o acervo físico

Baixei 4 páginas do Acervo Virtual para a Empresa pelo site da Estante Virtual que havia 713 Itens;

Verifiquei um padrão com as tags td (table data) com as classes Html relacionadas a Títulos (acervo-titulo) e os Preços (acervo-preco text-center). Daí eu poderia:
Extrair títulos e os preços (títulos.txt e preços.txt);
Gerei números com um contador dependendo de cada linha no Excel;
E reunir os dados numa panília do Excel já ordenados em ordem 0-9 e alfabetica.

    pip install beautifulsoup4
    pip install chardet
    pip install pandas

    python extratorDeDadosWeb.py

Código para o Exemplo: extratorDeDadosWeb.py
Exemplo de Site: Drogaria São Paulo 👈
Irei pegar os títulos e preços dessa página acima irei extrair e colocar numa planília do excel com medicamentos genéricos (Preços dia 13/12/24)

Clone esse repositório na sua máquina local e instale o Python e as bibliotecas
Pegue seu arquivo Html/Xml e coloque nessa pasta clonada
Verfique na sua página os padrões de títulos e preços (Inspecione para ver em que classe estão armenadas e sua tag)
Altere essas linhas de código para extrair corretamente:

6° linha: Altere de acordo com seu site

22° linha: Altere de acordo com a classe de títulos

26° linha: Altere de acordo com a classe de preços

40° linha: Altere de acordo com o nome que você quiser para sua planília