如何解决GitHub问题主体抓取非法字符的问题?

2024-04-27 16:10:07 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用GitHubAPI来抓取GitHub问题。但由于不同国家的语言或其他特殊字符,我的代码总是因为非法字符而停止工作。我尝试了两种解决方案,但这两种方案仍然会报告错误。这是我的代码:

repo_dicts = response_dict['items']
Body = repo_dict['body']

解决方案1:

Body = ILLEGAL_CHARACTERS_RE.sub(r'', Body)

它将报告:TypeError:预期的字符串或字节,如object

解决方案2:

Body = str(repo_dict['body']).encode('utf-8')

它将报告:引发非法字符错误openpyxl.utils.exceptions.IllegalCharacterError

当我爬网到这个问题时,我得到了一个错误,但我不知道非法字符在哪里? https://github.com/angular/angular.js/issues/3651https://github.com/jekyll/jekyll/issues/1376 以下问题可能会找到非法字符


Tags: 代码httpsgithubcom报告错误repobody