Scrapear html con regex en Python

Si queremos hacer un scraper de una página web y sacar algunos de los datos de ella aquí encontraras algunos ejemplos utilizando la libreria re de python.

h1s = re.findall(r'<h1.*?>(.+?)<',html)
h2s = re.findall(r'<h2.*?>(.+?)<',html)
h3s = re.findall(r'<h3.*?>(.+?)<',html)
h4s = re.findall(r'<h4.*?>(.+?)<',html)


titulo = re.findall(r'<title>(.+?)</title>',html)
meta_titulo = re.findall(r'<meta name="title" content="(.+?)"',html)
meta_descripcion = re.findall(r'<meta name="description" content="(.+?)"',html)
meta_keywords = re.findall(r'<meta name="keywords" content="(.+?)"',html)

 

1 Star2 Stars3 Stars4 Stars5 Stars (1 votes, average: 5,00 out of 5)
Cargando…

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *