内容编码

2024-04-19 23:18:43 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在写一个程序,它从有新闻文章的网页上收集数据(标题、作者、文章)。我使用可读性Python库。我的问题是文章的内容(哪个程序)(如果文章是用西里尔文写的,如果文章是用拉丁文写的就可以了)有这样的格式: {'atricle': u'<div><div class="b-text clearfix">\n<p class="b- topic__announce">'&#x421';'&#x43E';'&#x440';'&#x43E';'&#x43A'; '&#x43E';'&#x434';'&#x438';'&#x43D'; '&#x43F';'&#x440';'&#x43E';'&#x446';'&#x435';'&#x43D';'&#x442'; '&#x440';'&#x43E';'&#x441';'&#x441';'&#x438';'&#x44F';'&#x43D';'&#x43'....不带“'” 如何让它可读?你知道吗


Tags: 数据程序div网页标题文章作者新闻