如何解决GitHub问题主体抓取非法字符的问题?

2024-06-05 23:33:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用GitHubAPI来抓取GitHub问题。但由于不同国家的语言或其他特殊字符,我的代码总是因为非法字符而停止工作。我尝试了两种解决方案,但这两种方案仍然会报告错误。这是我的代码:

repo_dicts = response_dict['items']
Body = repo_dict['body']

解决方案1:

Body = ILLEGAL_CHARACTERS_RE.sub(r'', Body)

它将报告:TypeError:预期的字符串或字节,如object

解决方案2:

Body = str(repo_dict['body']).encode('utf-8')

它将报告:引发非法字符错误openpyxl.utils.exceptions.IllegalCharacterError

当我爬网到这个问题时,我得到了一个错误,但我不知道非法字符在哪里? https://github.com/angular/angular.js/issues/3651https://github.com/jekyll/jekyll/issues/1376 以下问题可能会找到非法字符


Tags: 代码httpsgithubcom报告错误repobody
1条回答
网友
1楼 · 发布于 2024-06-05 23:33:59

我使用以下代码忽略此错误,它正在工作:

Body = repo_dict['body']
try:
    Body = ILLEGAL_CHARACTERS_RE.sub(r'', Body)
except:
    print("ILLEGAL_CHARACTERS..")
    Body = "ILLEGAL_CHARACTERS"

相关问题 更多 >