我能够从网站上刮下一些文字,但在尝试将文字转换成某种数据帧时遇到了困难(更喜欢与熊猫一起使用)
来自print(text)
webscrape的输出为我提供了所有文本:
Example text paragraph. Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.
Section 1 - "Summary"
1 - sdgge
2 - hjsdhdc
3 - sahdfda
4 - sahfdfds
Example text paragraph. Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.
Section 2 - "Introduction"
1 - abcdef
2 - jhfdgsa
3 - sadgffe
4 - sdjddasd
我的下一步是尝试将数据转换为具有以下内容的表:
Section 1 | Summary | 1 - sdgge | 2 - hjsdhdc | 3 - sahdfda| 4 - sahfdfds|
Section 2 | Introduction | 1 - abcdef| 2 - jhfdgsa | 3 - sadgffe| 4 - sdjddasd|
文本中的章节最多为10-15节
这些部分随机分布在其他段落中,因此是否可以搜索“Section 1”,然后返回下面的4行,依此类推
非常感谢
编辑
我将通过使用正则表达式逻辑迭代每一行来实现这一点:
相关问题 更多 >
编程相关推荐