用Python自定义HTML代码段

2024-05-23 21:58:56 发布

您现在位置:Python中文网/ 问答频道 /正文

如果我有一个如下所示的HTML代码段,那么如何在python中获得如下所示的所需输出。你知道吗

示例HTML代码段:

<td width="10" class="data1"><a class="datalink" href="m01_detail.asp?key=002396653&amp;itemNumber=0">&gt;</a></td>

          <td class="data1"><a class="datalink" href="m01_detail.asp?key=002396653&amp;itemNumber=0">002396653</a></td>

          <td class="data1">IMPORT EXPRESS RECYCLE</td>

          <td class="data1">961879066</td>

        <td class="data1">11/23/2016</td>  

          <td class="data1"></td>        <!--SARA-->

          <td class="data1" align="center">CN</td>

          <td class="data1" align="center">PVG</td>

输出:

中国大陆961879066

到目前为止我的代码是:

    def reading():
    with open("C:\\Users\\John\\Desktop\\test.txt") as f:
        for lines in f.readlines():
            line = lines.replace("\t","").strip()
            print (line)

    f.close()

    reading()

谢谢你


Tags: keyhtml代码段classtdampasphref
1条回答
网友
1楼 · 发布于 2024-05-23 21:58:56

您可以尝试以下代码以获得所需的输出:

import lxml.html

html = lxml.html.fromstring("""<td width="10" class="data1"><a class="datalink" href="m01_detail.asp?key=002396653&amp;itemNumber=0">&gt;</a></td>
<td class="data1"><a class="datalink" href="m01_detail.asp?key=002396653&amp;itemNumber=0">002396653</a></td>
<td class="data1">IMPORT EXPRESS RECYCLE</td>
<td class="data1">961879066</td>
<td class="data1">11/23/2016</td>
<td class="data1"></td>        <! SARA >
<td class="data1" align="center">CN</td>
<td class="data1" align="center">PVG</td>""")

output = html.xpath('concat(//td[4], "|", //td[7])')
print(output)  # '961879066|CN'

将原始HTML代码传递给html变量

相关问题 更多 >