-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathweb-data-extractor.py
More file actions
42 lines (31 loc) · 1.37 KB
/
web-data-extractor.py
File metadata and controls
42 lines (31 loc) · 1.37 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
import requests
from bs4 import BeautifulSoup
import re
import argparse
def extract_data_from_url(url, regex):
# Realiza a requisição HTTP para obter o conteúdo da página
response = requests.get(url)
response.raise_for_status() # Levanta uma exceção se a requisição falhar
# Parseia o conteúdo HTML com BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')
# Converte o conteúdo da página para uma string
page_content = str(soup)
# Compila a expressão regular
pattern = re.compile(regex)
# Encontra todas as ocorrências que correspondem à expressão regular
matches = pattern.findall(page_content)
return matches
def main():
# Configura os argumentos da linha de comando
parser = argparse.ArgumentParser(description="Extrai dados de uma página web usando BeautifulSoup e expressões regulares")
parser.add_argument('url', help='URL da página web')
parser.add_argument('regex', help='Expressão regular para extrair dados')
# Analisa os argumentos da linha de comando
args = parser.parse_args()
# Extrai dados da URL usando a expressão regular fornecida
extracted_data = extract_data_from_url(args.url, args.regex)
# Exibe os dados extraídos
for match in extracted_data:
print(match)
if __name__ == '__main__':
main()