Xpath提取多个节点之间的所有文本？

<div class="rte ingredients"> Farina sbiancata arricchita (farina sbiancata di grano, ferro ridotto, vitamine B3-B1-B2-B9), zucchero, agenti lievitanti E500ii-E541i-E341i, destrosio, latte scremato disidratato, olio di soia parzialmente idrogenato, sale, glutine di grano, colorante E170, estratto secco di sciroppo di granoturco, caseinati di sodio (latte), emulsionante E471, regolatore di acidità E270. Può contenere tracce di uova. Contiene OGM. Valori nutrizionali (per 100g): energia 348Kcal, lipidi 3.3g (di cui grassi saturi 0g), carboidrati 69.6g (di cui zuccheri 13g), proteine 10.9g, sale 2.6g. </div>

2条回答

网友

1楼 · 编辑于 2024-04-19 15:35:55

纯XML/XPath解决方案是将XPath更改为直接选择目标div的string value：

string(/path/to/div)

这样，您的XPath应该可以移植到任何兼容的XPath库中（并且您可以将记住非标准的、特殊的访问函数（如text_content()）的需求降到最低。在

网友

2楼 · 编辑于 2024-04-19 15:35:55

您似乎正在使用lxml库。如果是这样，下面的方法应该获取完整的内容。在print语句中使用.text_content()，而不是.text。在

content='''
<div class="rte ingredients">
    <p>Farina sbiancata arricchita (farina sbiancata di 
    <strong>grano</strong>, 
    ferro ridotto, vitamine B3-B1-B2-B9), zucchero, 
    agenti lievitanti E500ii-E541i-E341i, destrosio, 
    <strong>latte</strong> 
    scremato disidratato, olio di 
    <strong>soia</strong> parzialmente 
    idrogenato, sale, 
    <strong>glutine</strong> di <strong>grano</strong>, 
    colorante E170, estratto secco di sciroppo di granoturco, caseinati di 
    sodio (<strong>latte</strong>), emulsionante E471, regolatore di acidità 
    E270. Può contenere tracce di <strong>uova</strong>. Contiene OGM.</p>

    <p>Valori nutrizionali (per 100g): energia 348Kcal, lipidi 3.3g (di cui 
    grassi saturi 0g), carboidrati 69.6g (di cui zuccheri 13g), proteine 
    10.9g, sale 2.6g.</p>
</div>
'''
from lxml.html import fromstring
root = fromstring(content)
for items in root.xpath("//div[contains(@class,'ingredients')]/p"):
    print(items.text_content())  #take a closer look at this .text_content() instead of .text.

相关问题更多 >

编程相关推荐

热门问题

热门文章