Python中文
首页
教程
问答
标签
搜索
登录
注册
使用regex从段落中获取地址
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>有点疼。我正在使用Python进行一些抓取,试图从几行标记错误的HTML中获取地址。以下是格式示例:</p> <pre><code>256-555-5555<br/> 1234 Fake Ave S<br/> Gotham (Lower Ward)<br/> </code></pre> <p>我只想检索<code>1234 Fake Ave S, Gotham</code>。有什么想法吗?我整晚都在做regex,现在我的脑子乱七八糟。。。在</p> <p>编辑: 更详细地说明数据将如何到达的可能场景。有时第一条线会在那里,有时不会。我看到的所有地址都有Ave,Way,St,尽管我不想把它作为选择的一个因素,因为我不确定它们会一直这样。第二行和第三行是alPhone(或可能的电子邮件或网站):</p> <p>我的想法是</p> <ol> <li>选择第二行到最后一行的所有内容(因此,如果有三行,则选择第二行;如果没有电话号码,则选择第一行(如果只有两行)。在</li> <li>选择最后一行中不在括号中的所有内容。在</li> <li>合并第二行到最后一行和最后一行,在这两行之间加一个“,”。在</li> </ol> <p>我用Scrapy来获取HTML代码。地址都在同一个div中,我想使用regex将数据进一步分解成适当的部分。我不知道该怎么做。在</p> <p>编辑2:</p> <p>根据Ofir的评论,我应该提到我已经用表达式来隔离电话号码和括号部分。在</p> <p>电话(或可能的电子邮件或网站):</p> ^{pr2}$ <p>括号:</p> <pre><code>\((.*?)\) </code></pre> <p>我不知道如何使用这些来构造除了这些语句之外的所有内容。在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>在这种情况下,你不想集中精力做什么</p> <ul> <li>html标记(<code><br></code>)</li> <li>电话号码</li> <li>括号内的所有内容</li> </ul> <p>其中的每一个都可以用简单的正则表达式轻松匹配,从而很容易构造一个匹配其余的表达式(大概是地址)</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何提高Djang的410误差
2 回答
如何提高doc2vec模型中两个文档(句子)的余弦相似度?
3 回答
如何提高Docker的日志限制?|[输出已剪裁,达到日志限制100KiB/s]
8 回答
如何提高DQN的性能?
7 回答
如何提高EasyOCR的准确性/预测?
4 回答
如何提高Euler#39项目解决方案的效率?
10 回答
如何提高F1成绩进行分类
8 回答
如何提高FaceNet的准确性
10 回答
如何提高fft处理的精度?
4 回答
如何提高Fibonacci实现对大n的精度?
6 回答
如何提高Flask与psycopg2的连接时间
7 回答
如何提高FosterCauer变换的scipy.signal.invres()的数值稳定性?
5 回答
如何提高gae查询的性能?
4 回答
如何提高GANs用于时间序列预测/异常检测的结果
1 回答
如何提高gevent和tornado组合的性能?
10 回答
如何提高googleappengin请求日志的吞吐量
10 回答
如何提高googlevision文本识别的准确性
4 回答
如何提高groupby/apply效率
3 回答
如何提高Gunicorn中的请求率
1 回答
如何提高G中的文件编码转换
3 回答