我想拆分html文件(它是巴利-捷克语词典),并用Python将数据提取到数组或词典中:
术语(粉红色)
<p class="calibre_"><span class="bold"> TERM1 </span>
定义(黄色)
...TERM1 </span>(→<span class="italic"> TEXT</span>).</p>
<p class="calibre_"><span class="bold">TERM2....
定义文本有时很棘手,它可能包含多个段落和新行。因此,我找到了从术语的结束标记到新术语的开始标记提取文本的最安全的方法。你知道吗
数据预览:
原始HTML数据:https://pastebin.com/FypTPnLc
我无法成功提取数据。我试过了文本.拆分方法和regex,但我找不到解决这个问题的方法。我想问一下,从这个html中提取数据的最佳方法是什么?你知道吗
这会将数据提取到列表中,其中列表中的每个项都是
[term, definition]
:输出:
相关问题 更多 >
编程相关推荐