Python中文
首页
教程
问答
标签
搜索
登录
注册
更改HTML文本并保存回HTML
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我正在研究一种简单的方法,将一本用HTML格式的电子书的每一句话包装在span标记中</p> <p>我正在使用一个经过训练的机器学习模型来对句末标点符号(“.!?”)进行分类并获得真实的句子边界(例如:在美国,“S”不被视为句子)</p> <p>问题是,为了提供正确的模型数据,我需要首先从我的HTML电子书中提取文本(使用BeautifulSoup的<code>get_text('\n')</code>)</p> <p>现在,我能够将<code>get_text('\n')</code>的输出包装在span标记中。但我不能保存它,因为我丢失了原始HTML电子书中使用的所有其他标记</p> <p>示例HTML电子书示例:</p> <pre><code><html><head><meta http-equiv="Content-Type" content="text/html;charset=utf-8" /><link href="style.css" rel="stylesheet" type="text/css" /><title> Name. Of the book. </title></head> ... </div> </code></pre> <p>在<code>get_text</code>之后</p> <pre><code>Name. Of the book. </code></pre> <p>运行我的算法后:</p> <pre><code><span>Name. Of the book.</span> </code></pre> <p>如何获得此输出:</p> <pre><code><html><head><meta http-equiv="Content-Type" content="text/html;charset=utf-8" /><link href="style.css" rel="stylesheet" type="text/css" /><title> <span>Name. Of the book.</span> </title></head> ... </div> </code></pre> <p>提前感谢您的帮助</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>好吧,我有一个非常天真但非常有效的方法。您可以先获取整个html代码,然后将其存储在字符串中,然后对其使用<code>Regular Expression</code>来提取<code>span</code>标记的文本。<br/><br/> 这是我现在唯一能想到的方法。希望这有帮助:)</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
plt.savefig不会覆盖现有文件
8 回答
plt.savefig不保存图像
6 回答
plt.savefig在jupyter笔记本中不起作用
6 回答
plt.savefig在从另一个fi调用时停止工作
8 回答
plt.savefig在调用plt.show之前保存空数字
4 回答
plt.save不创建png文件
10 回答
plt.scatter overlay分类数据帧列
7 回答
Plt.Scatter:如何添加title、xlabel和ylab
8 回答
plt.scatter()绘图与Matplotlib中的plt.plot()绘图类似
3 回答
plt.scatter错误'NoneType'对象在成功运行后没有属性'sqrt'
10 回答
plt.set_title()中的标题字符串有误
4 回答
plt.show()
3 回答
plt.show()不在Jupyter笔记本上渲染任何内容
1 回答
plt.show()不打印plt.plot only plt.scatter
7 回答
plt.show()不显示三维散射图像
2 回答
plt.show()不显示任何内容
1 回答
plt.show()不显示数据,而是保留它供下一个图表使用(spyder)
9 回答
plt.show()使终端挂起
3 回答
plt.show()无法使用此代码
2 回答
plt.show()没有打开新的图形风
10 回答