python中的lxml和xpath：在可能缺少emai的列表中从html文档中获取h3和email对

1条回答

网友

1楼 · 发布于 2024-04-16 21:58:45

如果您没有被lxml困住，可以尝试BeautifulSoup。我发现它更容易使用。我查看了这个页面，但是无法很好地解析它，因为它在html头之前有一个xml头，比如：

<?xml version="1.0" encoding="iso-8859-1"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" lang="ES" xml:lang="ES" >
...

我不得不删除第一行（xml头）来测试它。上面说，这里有一个BeautifulSoup的例子：

^{pr2}$

它搜索所有具有class属性且值为resultados的<div>元素，从其子元素中提取所有字符串，并忽略大小写删除在匹配email:之前找到的所有字符串。如果返回列表是空的，只需打印Not found，否则电子邮件将是列表中的第二个元素，所以提取它。在

运行方式如下：

python3 script.py

结果是：

MANUELA RIVERO - oscarvp30@hotmail.com
SALON DE BELLEZA LIDIA - Not found
TRUKO & HAIR DESIGN - Not found
PACO PERFUMERIAS - pacoperfumerias@gmail.com
ESTHER CENDAGORTAGALARZA ESTILISTA - peluqueriaesthercendagortagalarza@hotmail.es
ADARIS - adaris@hotmail.es
N&K NAILS - info@nknails.com
PELUQUERIA NELA - wrunela@hotmail.es
PELUQUERIA NELA - wrunela@hotmail.es
PELUQUERIA HUMBERTO STAR - humbertostar@yahoo.es
COLLADOS PELUQUEROS - contacta@colladospeluqueros.com
ZEN NATURE ESTéTICA - contacta@colladospeluqueros.com
LA CASA DE MAR - Not found
DELGADO PERRUQUERS - Not found
(...output cut to save space...)

相关问题更多 >

编程相关推荐

热门问题

热门文章

python中的lxml和xpath：在可能缺少emai的列表中从html文档中获取h3和email对

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >