我想改造一下这个测向仪
pd.DataFrame({"l1": [["fr en","en"]],
"l2": [["fr en","in","it"]],
"l3": [["he","es","fi"]],
"l4": [["es"]]}).T
>> l1 [fr en, en]
...
l4 [es]
本DTM:
^{pr2}$我效率低下的方法是chain
所有可能的值,然后像这样计数向量化
langs = set(chain(*df["lang"]))
pd.DataFrame(data=df["lang"].apply(lambda x: [1 if lang in x else 0 for lang in langs]).tolist(), columns=langs)
PS:我不想" ".join()
列表,因为它可能表示信息的丢失,正如您在^{
我认为需要^{} :
或者,如果数据中不存在此分隔符,则可以使用带有join by
^{pr2}$|
的slowier解决方案:相关问题 更多 >
编程相关推荐