PySpark作业永远挂起（在实时分析期间）

DS = KafkaUtils.createDirectStream(ssc, ...) dstream = DS.map(...) dstream.foreachRDD(lambda time, rdd: rdd.foreachPartition(lamda parti: doWork(time, parti) ) ) def doWork(time, parti): for part in parti: mention = part['mention'] # extract string from json words = nltk.wordpunct_tokenize(mention) kw = part['keyword'] #... log.info("I") if len(set(dictKeywords[kw]).intersection([w.lower() for w in words])) <= 0: retobj['keeper']=0 # don't keep it elif detect(editedMention) != 'en': retobj['keeper']=0 # don't keep it cleantxt = ppr.clean(mention) log.info("J") # ...

1条回答

网友

1楼 · 发布于 2024-06-16 11:58:01

@user8371915非常感谢您的帮助。我相信我已经发现了问题并正在进行最后的测试。在

我使用的Tweet预处理器模块（source:https://github.com/s/preprocessor）有一个非常讨厌的bug。看看这个代码：

import preprocessor as ppr
mention = "Try this Bitcoin Price app https://itunes.apple.com/in/app/bitcoin-price-calculator/id1315298877?mt=8[app](https://itunes.apple.com/in/app/bitcoin-price-calculator/id1315298877?mt=8)"
print(mention)
cleantxt = ppr.clean(mention)
print(cleantxt)

上面的代码将永远停留在“clean”方法中。但这只会发生在一个非常具体的tweet（如上面的一个）。所以在遇到这样一条微博之前，需要几个小时。在

我删除了与预处理器模块相关的所有内容，并重新设计了我的代码。我相信我不会再有这个问题了。在

相关问题更多 >

编程相关推荐

热门问题

热门文章