导出csv文件转换时出现奇怪字符

Question

我遇到了一个自己解决不了的问题，涉及到从Google搜索趋势下载的csv格式的数据文件。

我懒得手动重新格式化I4S给我的文件，这意味着我需要提取出实际的趋势数据部分，并重新排列列，以便我能在学校的建模程序中使用。

所以我写了一个小脚本，应该可以帮我完成这项工作：读取一个文件，做一些处理，然后给我一个格式正确的新文件。

这个脚本的功能是读取文件内容，提取趋势部分，按行分割，再把每一行分开，然后重新排列列，可能还会重新格式化它们。

当我查看一个未处理的I4S csv文件时，它看起来很正常，行与行之间有CR LF字符（可能这是因为我在用Windows）。

但是，当我用脚本读取内容并写入新文件时，CR和LF之间出现了奇怪的亚洲字符。我尝试用一个手动写的类似文件运行脚本，甚至还试过一个来自Google趋势的csv文件，结果都很好。

我使用的是Python，下面是我用来做这个示例的脚本（代码片段）：

            # Read from an input file 
            file = open(file,"r") 
            contents = file.read() 
            file.close() 
            cfile = open("m.log","w+") 
            cfile.write(contents) 
            cfile.close()

有没有人知道为什么会出现这些字符？？？谢谢你的帮助！

我给你一个例子：

I4S csv文件的前几行：

Web Search Interest: foobar
Worldwide; 2004 - present

Interest over time
Week foobar
2004-01-04 - 2004-01-10 44
2004-01-11 - 2004-01-17 44
2004-01-18 - 2004-01-24 37
2004-01-25 - 2004-01-31 40
2004-02-01 - 2004-02-07 49
2004-02-08 - 2004-02-14 51
2004-02-15 - 2004-02-21 45
2004-02-22 - 2004-02-28 61
2004-02-29 - 2004-03-06 51
2004-03-07 - 2004-03-13 48
2004-03-14 - 2004-03-20 50
2004-03-21 - 2004-03-27 56
2004-03-28 - 2004-04-03 59

读取和写入内容后的输出文件：

Web Search Interest: foobar
਍圀漀爀氀搀眀椀搀攀㬀 ㈀　　㐀 ⴀ 瀀爀攀猀攀渀琀ഀഀ

਍䤀渀琀攀爀攀猀琀 漀瘀攀爀 琀椀洀攀ഀഀ
Week foobar
਍㈀　　㐀ⴀ　㄀ⴀ　㐀 ⴀ ㈀　　㐀ⴀ　㄀ⴀ㄀　ऀ㐀㐀ഀഀ
2004-01-11 - 2004-01-17 44
਍㈀　　㐀ⴀ　㄀ⴀ㄀㠀 ⴀ ㈀　　㐀ⴀ　㄀ⴀ㈀㐀ऀ㌀㜀ഀഀ
2004-01-25 - 2004-01-31 40
਍㈀　　㐀ⴀ　㈀ⴀ　㄀ ⴀ ㈀　　㐀ⴀ　㈀ⴀ　㜀ऀ㐀㤀ഀഀ
2004-02-08 - 2004-02-14 51
਍㈀　　㐀ⴀ　㈀ⴀ㄀㔀 ⴀ ㈀　　㐀ⴀ　㈀ⴀ㈀㄀ऀ㐀㔀ഀഀ
2004-02-22 - 2004-02-28 61
਍㈀　　㐀ⴀ　㈀ⴀ㈀㤀 ⴀ ㈀　　㐀ⴀ　㌀ⴀ　㘀ऀ㔀㄀ഀഀ
2004-03-07 - 2004-03-13 48
਍㈀　　㐀ⴀ　㌀ⴀ㄀㐀 ⴀ ㈀　　㐀ⴀ　㌀ⴀ㈀　ऀ㔀　ഀഀ
2004-03-21 - 2004-03-27 56
਍㈀　　㐀ⴀ　㌀ⴀ㈀㠀 ⴀ ㈀　　㐀ⴀ　㐀ⴀ　㌀ऀ㔀㤀ഀഀ
2004-04-04 - 2004-04-10 69
਍㈀　　㐀ⴀ　㐀ⴀ㄀㄀ ⴀ ㈀　　㐀ⴀ　㐀ⴀ㄀㜀ऀ㘀㔀ഀഀ
2004-04-18 - 2004-04-24 51
਍㈀　　㐀ⴀ　㐀ⴀ㈀㔀 ⴀ ㈀　　㐀ⴀ　㔀ⴀ　㄀ऀ㔀㄀ഀഀ
2004-05-02 - 2004-05-08 56
਍㈀　　㐀ⴀ　㔀ⴀ　㤀 ⴀ ㈀　　㐀ⴀ　㔀ⴀ㄀㔀ऀ㔀㈀ഀഀ
2004-05-16 - 2004-05-22 54
਍㈀　　㐀ⴀ　㔀ⴀ㈀㌀ ⴀ ㈀　　㐀ⴀ　㔀ⴀ㈀㤀ऀ㔀㔀ഀഀ
2004-05-30 - 2004-06-05 74
਍㈀　　㐀ⴀ　㘀ⴀ　㘀 ⴀ ㈀　　㐀ⴀ　㘀ⴀ㄀㈀ऀ㔀㜀ഀഀ
2004-06-13 - 2004-06-19 50
਍㈀　　㐀ⴀ　㘀ⴀ㈀　 ⴀ ㈀　　㐀ⴀ　㘀ⴀ㈀㘀ऀ㔀㐀ഀഀ
2004-06-27 - 2004-07-03 58
਍㈀　　㐀ⴀ　㜀ⴀ　㐀 ⴀ ㈀　　㐀ⴀ　㜀ⴀ㄀　ऀ㔀㤀ഀഀ
2004-07-11 - 2004-07-17 59
਍㈀　　㐀ⴀ　㜀ⴀ㄀㠀 ⴀ ㈀　　㐀ⴀ　㜀ⴀ㈀㐀ऀ㘀㈀ഀഀ

数据处理数据提取行分割编码问题 csv文件文件格式化列重排列 google趋势

导出csv文件转换时出现奇怪字符

I4S csv文件的前几行：

读取和写入内容后的输出文件：

3 个回答

撰写回答