以解析tweeter格式查找用户的json

def safe_parse(raw_json): try: json_object = json.loads(raw_json) if 'created_at' in json_object: return json_object else: return except ValueError as error: return def get_usr_txt (line): tmp = safe_parse(line) if(tmp != None): return ((tmp.get('user').get('id_str'),tmp.get('text'))) else: return

1条回答

网友

1楼 · 发布于 2024-05-23 08:06:36

Some lines in the input file might not be tweets, but messages that the Twitter server sent to the developer (such as limit notices). I need to ignore these messages.

事实并非如此。如果发生下列情况之一：

raw_json不是有效的JSON文档
created_at不在已分析的对象中。你知道吗

返回默认值，即None。如果要忽略这些，可以在两个操作之间添加filter步骤：

rdd.map(safe_parse).filter(lambda x: x).map(get_usr_txt)

您还可以使用flatMap技巧来避免filter并简化代码（从this answer借用zero323）：

def safe_parse(raw_json):
    try:
        json_object = json.loads(raw_json)
    except ValueError as error:
        return []
    else:
        if 'created_at' in json_object:
            yield json_object

rdd.flatMap(safe_parse).map(get_usr_txt)

相关问题更多 >

编程相关推荐

热门问题

热门文章

以解析tweeter格式查找用户的json

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >