写入csv文件时无法清除难以辨认的内容

Traceback (most recent call last): File "C:\Users\WCS\AppData\Local\Programs\Python\Python36-32\all_reviews_grabber.py", line 27, in <module> writer.writerow([nom,ville,region]) File "C:\Users\WCS\AppData\Local\Programs\Python\Python36-32\lib\encodings\cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: 'charmap' codec can't encode character '\ufb02' in position 16: character maps to <undefined>

import csv import requests from bs4 import BeautifulSoup baseUrl = "https://fr-vigneron.gilbertgaillard.com/importer" postUrl = "https://fr-vigneron.gilbertgaillard.com/importer/ajax" with requests.Session() as s: req = s.get(baseUrl) sauce = BeautifulSoup(req.text,"lxml") token = sauce.select_one("input[name='_token']")['value'] payload = { 'data': 'country=0&type=0&input_search=', '_token': token } res = s.post(postUrl,data=payload) with open ("outputContent.csv","w",newline="",encoding="utf-8") as f: writer = csv.writer(f) writer.writerow(['nom','ville','region']) for item in res.json(): nom = item['prospect_nom'] ville = item['prospect_ville'] region = item['prospect_region'] print(nom,ville,region) writer.writerow([nom,ville,region])

3条回答

网友

1楼 · 编辑于 2024-05-21 05:13:37

看看这个-http://www.pgbovine.net/unicode-python-errors.htm

检查解释器中的默认编码：
导入系统
你知道吗系统标准编码
Python的旧版本也可能导致此错误。

网友

2楼 · 编辑于 2024-05-21 05:13:37

使用pandas进行解析和编写会缓解这个问题吗？你知道吗

import pandas as pd
import requests
from bs4 import BeautifulSoup

baseUrl = "https://fr-vigneron.gilbertgaillard.com/importer"
postUrl = "https://fr-vigneron.gilbertgaillard.com/importer/ajax"

with requests.Session() as s:
    req = s.get(baseUrl)
    sauce = BeautifulSoup(req.text,"lxml")
    token = sauce.select_one("input[name='_token']")['value']

    payload = {
        'data': 'country=0&type=0&input_search=',
        '_token': token
        }

    res = s.post(postUrl,data=payload)
    jsonObj = res.json()

    results = pd.DataFrame()
    for item in jsonObj:
        nom = item['prospect_nom']
        ville = item['prospect_ville']
        region = item['prospect_region']
        #print(id_,nom,ville,region)
        temp_df = pd.DataFrame([[nom,ville,region]], columns = ['nom','ville','region'])
        results = results.append(temp_df)

results = results.reset_index(drop=True)
results.to_csv("outputContent.csv", idex=False)

网友

3楼 · 编辑于 2024-05-21 05:13:37

只要删除print语句，代码就可以正常工作。你知道吗

您看到的损坏数据是因为您正在解码来自cp1252的文件数据，而不是在查看UTF-8时。你知道吗

>>> s = 'Xinjiangwéiwúerzìzhìqu'
>>> encoded = s.encode('utf-8')
>>> encoded.decode('cp1252')
'XinjiangwÃ©iwÃºerzÃ¬zhÃ¬qu'

如果您是通过在Python中打开csv文件来查看数据，请确保在打开它时指定UTF-8编码：

open('outputContent.csv', 'r', encoding='utf-8'...

如果使用Excel等应用程序打开文件，请确保在打开文件时指定编码为UTF-8。你知道吗

如果您没有指定编码，那么默认的cp1252编码将用于解码文件中的数据，您将看到垃圾数据。你知道吗

^*print将自动使用默认编码，因此如果它尝试对无法编码为cp1252的字符进行编码，则会出现异常。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章