如何删除项目数量少于一定数量或有Pandas叮咬的行？问题的回答

如何删除项目数量少于一定数量或有Pandas叮咬的行？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我找了很多东西，但找不到解决这个特殊案件的办法。要删除的行数少于3行的字符串。我的问题将在下一步得到更明确的解决。在 我正在准备一个LDA主题建模，用pandas中的一个大型瑞典数据库，并将测试用例限制为1000行。我只关注一个特定的专栏，到目前为止，我的方法如下： <pre><code>con = sqlite3.connect('/Users/mo/EXP/NAV/afm.db') sql = """ select * from stillinger limit 1000 """ dfs = pd.read_sql(sql, con) plb = """ select PLATSBESKRIVNING from stillinger limit 1000 """ dfp = pd.read_sql(plb, con);dfp </code></pre> 然后我定义了一个正则表达式，其中第一个参数删除所有元字符，同时保留瑞典语和挪威语特定的字母。第二个参数删除单词&lt；3： ^{pr2}$ 创建熊猫系列： <pre><code>s0 = p0['PLATSBESKRIVNING'] </code></pre> 那么： <pre><code>ts = s0.str.lower().str.split();ts 0 [medrek, rekrytering, söker, uppdrag, manpower... 1 [familj, barn, tjejer, kille, söker, pair, vil... 2 [uppgift, blir, tillsammans, medarbetare, leda... 3 [behov, operasjonssykepleiere, langtidsoppdrag... 4 [detta, perfekta, jobbet, arbetstiderna, varda... 5 [familj, paris, barn, söker, älskar, barn, vil... 6 [alla, inom, cafe, restaurang, förekommande, a... 7 [diskare, till, cafe, dubbel, sökes, arbetet, ... 8 [diskare, till, thelins, konditori, sökes, arb... </code></pre> 从数据库中删除停止字： <pre><code>r = s0.str.split().apply(lambda x: [item for item in x if item not in mswl]);r 0 [uppdrag, bemanningsföretag, erbjuds, tillägg,... 1 [föräldrarna, citycentre, stort, tomt, mamman,... 2 [utveckla, övergripande, strategiska, frågor, ... 3 [erfaring, sykepleier, legitimasjon] 4 [arbetstiderna, vardagar, härliga, människor, ... 5 [paris, utav, badrum, båda, yngsta, endast, fö... 6 [förekommande, emot, utbildning] 7 [] 8 [thelins] 9 [paris, baby, månader, våning, delar, badrum, ... </code></pre> 创建新的数据帧并删除空括号： <pre><code>dr = pd.DataFrame(r) dr0 = dr[dr.astype(str)['PLATSBESKRIVNING'] != '[]'].reset_index(drop=True); dr0 PLATSBESKRIVNING 0 [uppdrag, bemanningsföretag, erbjuds, tillägg,... 1 [föräldrarna, citycentre, stort, tomt, mamman,... 2 [utveckla, övergripande, strategiska, frågor, ... 3 [erfaring, sykepleier, legitimasjon] 4 [arbetstiderna, vardagar, härliga, människor, ... 5 [paris, utav, badrum, båda, yngsta, endast, fö... 6 [förekommande, emot, utbildning] 7 [thelins] 8 [paris, baby, månader, våning, delar, badrum, ... </code></pre> 维护字符串： <pre><code>dr1 = dr0['PLATSBESKRIVNING'].apply(str); len(dr1),type(dr1), dr1 0 ['uppdrag', 'bemanningsföretag', 'erbjuds', 't... 1 ['föräldrarna', 'citycentre', 'stort', 'tomt',... 2 ['utveckla', 'övergripande', 'strategiska', 'f... 3 ['erfaring', 'sykepleier', 'legitimasjon'] 4 ['arbetstiderna', 'vardagar', 'härliga', 'männ... 5 ['paris', 'utav', 'badrum', 'båda', 'yngsta', ... 6 ['förekommande', 'emot', 'utbildning'] 7 ['thelins'] 8 ['paris', 'baby', 'månader', 'våning', 'delar'... </code></pre> 我现在的问题是要删除列表中包含少于3个字符串的任何行，例如第3、6和7行。预期结果如下： <pre><code>0 ['uppdrag', 'bemanningsföretag', 'erbjuds', 't... 1 ['föräldrarna', 'citycentre', 'stort', 'tomt',... 2 ['utveckla', 'övergripande', 'strategiska', 'f... 3 ['arbetstiderna', 'vardagar', 'härliga', 'männ... 4 ['paris', 'utav', 'badrum', 'båda', 'yngsta', ... 5 ['paris', 'baby', 'månader', 'våning', 'delar'... . . </code></pre> 我怎样才能得到这个？我也在想，这是否可以用一种更简洁的方式来完成？我的方法似乎又笨又笨重。在 我还想删除LDA主题建模的索引和列名，这样我就可以把它写入一个没有索引头和数字的文本文件。我试过： <pre><code>dr1.to_csv('LDA1.txt',header=None,index=False) </code></pre> 但这会用引号“['word1'，'word2'，'t。。]“到文件中的每个字符串列表。在 如有任何建议，将不胜感激。在 谨致问候 Mo公司

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

如何删除项目数量少于一定数量或有Pandas叮咬的行？

1 个回答

相关Python问题