lib-webdatascrapify/web-data-extractor.py at main · lue93/lib-webdatascrapify · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
import requests
from bs4 import BeautifulSoup
import re
import argparse

def extract_data_from_url(url, regex):
    # Realiza a requisição HTTP para obter o conteúdo da página
    response = requests.get(url)
    response.raise_for_status()  # Levanta uma exceção se a requisição falhar

    # Parseia o conteúdo HTML com BeautifulSoup
    soup = BeautifulSoup(response.text, 'html.parser')

    # Converte o conteúdo da página para uma string
    page_content = str(soup)

    # Compila a expressão regular
    pattern = re.compile(regex)

    # Encontra todas as ocorrências que correspondem à expressão regular
    matches = pattern.findall(page_content)

    return matches

def main():
    # Configura os argumentos da linha de comando
    parser = argparse.ArgumentParser(description="Extrai dados de uma página web usando BeautifulSoup e expressões regulares")
    parser.add_argument('url', help='URL da página web')
    parser.add_argument('regex', help='Expressão regular para extrair dados')

    # Analisa os argumentos da linha de comando
    args = parser.parse_args()

    # Extrai dados da URL usando a expressão regular fornecida
    extracted_data = extract_data_from_url(args.url, args.regex)

    # Exibe os dados extraídos
    for match in extracted_data:
        print(match)

if __name__ == '__main__':
    main()