我正在研究一种简单的方法,将一本用HTML格式的电子书的每一句话包装在span标记中
我正在使用一个经过训练的机器学习模型来对句末标点符号(“.!?”)进行分类并获得真实的句子边界(例如:在美国,“S”不被视为句子)
问题是,为了提供正确的模型数据,我需要首先从我的HTML电子书中提取文本(使用BeautifulSoup的get_text('\n')
)
现在,我能够将get_text('\n')
的输出包装在span标记中。但我不能保存它,因为我丢失了原始HTML电子书中使用的所有其他标记
示例HTML电子书示例:
<html><head><meta http-equiv="Content-Type" content="text/html;charset=utf-8" /><link href="style.css" rel="stylesheet" type="text/css" /><title> Name. Of the book. </title></head> ...
</div>
在get_text
之后
Name. Of the book.
运行我的算法后:
<span>Name. Of the book.</span>
如何获得此输出:
<html><head><meta http-equiv="Content-Type" content="text/html;charset=utf-8" /><link href="style.css" rel="stylesheet" type="text/css" /><title> <span>Name. Of the book.</span> </title></head> ...
</div>
提前感谢您的帮助
您可以使用
wrap()
方法(doc)将文本包装成<span>
标记-它将更新整个HTML结构例如:
打印(注意
<title>
标记内的<span>
):好吧,我有一个非常天真但非常有效的方法。您可以先获取整个html代码,然后将其存储在字符串中,然后对其使用
Regular Expression
来提取span
标记的文本。这是我现在唯一能想到的方法。希望这有帮助:)
相关问题 更多 >
编程相关推荐