python xpath空间未被删除

<tr> <td> <a href="#" onclick="WhoisOrderDomain('bank'); return false;"> SHOP </a> </td> <td>COUNTRY</td> <td class="text-right">1 038,00 USD</td> <td class="text-right">899,00 USD</td> <td class="text-right">899,00 USD</td> <td class="text-center"> <a class="btn btn-sm btn-info" href="#" onclick="WhoisOrderDomain('bank'); return false;"><i class="fa fa-shopping-cart"></i> Order</a> </td> </tr>

2条回答

网友

1楼 · 编辑于 2024-05-15 06:03:06

您需要做的是正确地规范化值：

>>> from decimal import Decimal
>>> Decimal('1 038,00 USD'.rstrip('USD').replace(' ','').replace(',','.'))
Decimal('1038.00')

始终使用Decimal表示货币值。这避免了数字不准确的问题，瘟疫浮动，可以花费你美分。你知道吗

要处理列表，请过滤掉那些不是货币值的字符串（在本例中是那些不以USD结尾的字符串）（可能还有另一种更适合XML输入的方法），然后转换其余的字符串：

input_values = ['.ac.tz', 'Tanzania', '135,00 USD', '135,00 USD', '0,00 USD', ' Order']
monetary_values = [Decimal(v.rstrip('USD').replace(' ','').replace(',','.')) 
                   for v in input_values if v.endswith('USD')]

结果：

>>> monetary_values
[Decimal('135.00'), Decimal('135.00'), Decimal('0.00')]

或者您可以尝试转换每个项目并忽略引发异常的项目：

import decimal
from decimal import Decimal

input_values = ['.ac.tz', 'Tanzania', '135,00 USD', '135,00 USD', '0,00 USD', ' Order']

monetary_values = [] 
for v in input_values:
    try:
        monetary_values.append(Decimal(v.rstrip('USD').replace(' ','').replace(',','.')))
    except decimal.InvalidOperation:
        pass

这也导致：

>>> monetary_values
[Decimal('135.00'), Decimal('135.00'), Decimal('0.00')]

网友

2楼 · 编辑于 2024-05-15 06:03:06

[td.xpath('normalize-space()')for td in tree.xpath('//tr/td')]

输出：

['SHOP', 'COUNTRY', '1 038,00 USD', '899,00 USD', '899,00 USD', 'Order']

[normalize-space()]是一个除去空字符串的过滤器。如果需要获取标记下的字符串，请使用normalize-space(tag)

使用strip或replace去除USD

[td.xpath('normalize-space()').strip(' USD') for td in tree.xpath('//tr/td')]

输出：

['HOP', 'COUNTRY', '1 038,00', '899,00', '899,00', 'Order']

编辑：

tree.xpath('//tr/td//text()')

输出：

['\n    ',                           # empty, discard
 ' SHOP\n                        ',
 '\n  ',                             # empty, discard
 'COUNTRY',
 '1 038,00 USD',
 '899,00 USD',
 '899,00 USD',
 '\n',                               # empty, discard
 ' Order',
 '\n                      ']         # empty, discard

如果[normalize-space()]影响字符串，则输出' Order'将不包含开头的空格。你知道吗

[]只会像布尔值一样过滤假值，不会改变值。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章