我正在使用scrapy构建一个数据提取,并希望规范化从HTML文档中提取的原始字符串。下面是一个字符串示例:
Sapphire RX460 OC 2/4GB
注意两组由两个空格组成的空白,它们位于字符串文字前面,介于OC
和2
之间。在
Python提供了How do I trim whitespace with Python?中描述的trim,但是它不能处理OC
和{
我尝试在使用scrapy Selector提取数据时使用XPath中的^{
有没有一种使用Python规范化空白的优雅方法?如果不是一行行,有没有一种方法可以把上面的行分解成更容易阅读的内容而不产生缩进错误,例如
product_title = product.css('h3')
.xpath('normalize-space((text()))')
.extract_first()
您可以使用下面的函数和正则表达式来扫描连续空格,并用1个空格替换它们
然后改进清洁功能,不管你喜欢它
与其使用regex,更有效的解决方案是使用join/split选项,请注意:
您可以使用:
其中
s
是您的字符串。在相关问题 更多 >
编程相关推荐