我正在做一些关于剑桥分析的研究,我想从一些新闻机构得到尽可能多的新闻文章。你知道吗
我可以把它们刮下来,现在在一个文件夹里有一堆JSON文件。
其中一些只有这个[]
写在里面,而另一些有我需要的数据。你知道吗
使用pandas,我使用了以下内容并获得了文件中的每个webTitle。你知道吗
df = pd.read_json(json_file)
df['webTitle']
问题是,每当有一个空文件时,它甚至不允许我将df['webTitle']
赋值给一个变量。你知道吗
有没有办法让我检查它是否是空的,是否只是转到下一个文件?
我想把它制作成一个电子表格,其中包含一些keys
和列,values
作为每一篇新闻文章的行。你知道吗
我的文件是按天组织的,我使用了guardian API来获取数据。你知道吗
我还没有写太多,但为了以防万一,下面是代码:
import pandas as pd
import os
def makePathToFile(path):
pathtoJson = []
for root,sub,filename in os.walk(path):
for i in filename:
pathToJson.append(os.path.join(path, i))
return pathToJson
def readJsonAndWriteCSV (pathToJson):
for json_file in pathToJson:
df = pd.read_json(json_file)
谢谢!你知道吗
您可以为所需的新闻关键字设置google Alert,然后使用https://pypi.org/project/galerts/在python中刮取结果
相关问题 更多 >
编程相关推荐