将HTML实体转换为Python表情符号

2024-05-16 23:53:27 发布

您现在位置:Python中文网/ 问答频道 /正文

假设我有以下HTML表情符号实体:'&;x1f604;'

注意,4和之间实际上没有空格;它只是在那里,所以它不会显示为笑脸

表情符号的Python形式是:u“\U0001f604”

如何将所有HTML表情符号实体转换为Python形式?


到目前为止我尝试过的事情:

  • 编码为utf-8
  • 使用HTML解析器取消文本转义,然后转换
  • 使用regex(无法获得对所有HTML表情符号实体都有效的方法——不像用\U000替换&;x那样简单,因为它只适用于某些实体)

Tags: 文本实体解析器编码html事情形式utf