SA
sal0minh0/extratorDeDadosWeb
Projeto Freelance para Ajudar uma Livraria
Primeira Experiência de Trabalho (Freelance): Uma Solução para a Loja de Livros: Sebo Baleia
Problema: Precisava de alguns dados cadastrados de um site numa planília de Excel para organizar o acervo físico
O que eu fiz nesse Job:
- Extrai dados de uma página Html;
Baixei 4 páginas do
Acervo Virtualpara a Empresa pelo site da Estante Virtual que havia713 Itens;
-
Verifiquei um padrão com as tags
td(table data) com as classes Html relacionadas aTítulos(acervo-titulo) e osPreços(acervo-preco text-center). Daí eu poderia: -
Extrair títulos e os preços (títulos.txt e preços.txt);
-
Gerei números com um contador dependendo de cada linha no Excel;
-
E reunir os dados numa panília do Excel já ordenados em ordem 0-9 e alfabetica.
Novidade: Melhorias no Programa
- Agora ao invés de gerar os dados em arquivos de texto
- O programa gerará os dados diretamente num arquivo Excel
Ferramentas usadas
- Python 🐍
- BeautifulSoup4 🍲
- Chardet 🔓
- Pandas 📄
Verifique que você tenha Python, BeautifulSoup, o Chardet e o Pandas instalado:
pip install beautifulsoup4
pip install chardet
pip install pandasComo rodar?
- Abra um terminal e rode e comando:
python extratorDeDadosWeb.pyExemplo com uma empresa aleatória
- Código para o Exemplo: extratorDeDadosWeb.py
- Exemplo de Site: Drogaria São Paulo 👈
- Irei pegar os títulos e preços dessa página acima irei extrair e colocar numa planília do excel com medicamentos genéricos (Preços dia 13/12/24)
Tutorial para usar com sua página Web
- Clone esse repositório na sua máquina local e instale o Python e as bibliotecas
- Pegue seu arquivo Html/Xml e coloque nessa pasta clonada
- Verfique na sua página os padrões de títulos e preços (Inspecione para ver em que classe estão armenadas e sua tag)
- Altere essas linhas de código para extrair corretamente:




