删除具有空格的Unicode值

2024-04-24 07:46:22 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个文件,其中包含一行一行对齐的Unicode字符串。你知道吗

ജുഗുപ്‌സയോ നീരസമോ പരിഹാസമോ ദ്യോതിപ്പിക്കുന്ന മുഖഭാവം
വളവ്‌
വക്രത
തിരിവ്‌
കോട്ടം
നന്നേ ചെറുപ്രായത്തില്‍ അസാമന്യ ജീവിത വിജയം നേടുന്നയാള്‍
ഇന്റര്‍നെറ്റിലെ പ്രധാനപ്പെട്ട സേവനം
സ്‌ക്രീനില്‍ കാണുന്ന അതേ രൂപത്തിലും ഭാവത്തിലും പ്രിന്ററില്‍ നിന്ന്‌ ലഭിക്കുന്ന കോപ്പി
തെറ്റ്‌ എന്നു കാണിക്കുന്ന അടയാളം
യുണിക്‌സിനെ ആധാരമാക്കിയുള്ള പ്രവര്‍ത്തന കേന്ദ്രങ്ങളില്‍ ഉപയോഗപ്പെടുത്തുന്ന ഒരു നെറ്റവര്‍ക്ക്‌ വിന്‍ഡോ സ്ഥാപന അന്തരീക്ഷം
പ്രിന്ററിലൂടെ കടലാസ്‌ നീങ്ങിപ്പോകുന്ന ദിശക്ക്‌ ലംബമായുള്ള ദിശ
കമ്പ്യൂട്ടറിലെ ഒരു ഡിസ്‌കിലുള്ള വിവരങ്ങള്‍ മറ്റൊരു ഡിസ്‌കിലേക്ക്‌ കോപ്പിചെയ്‌തു വെക്കാന്‍ ഡോസ്‌ എന്ന ഓപ്പറേറ്റിംഗ്‌ സിസ്റ്റത്തിലുള്ള സംവിധാനം
ക്രിസ്‌തുമസ്‌
പ്രായപൂര്‍ത്തിയായവര്‍ക്കുള്ള ചലച്ചിത്രം
ചില പ്രത്യേക കിരണങ്ങളുടെ സഹായത്താല്‍ എടുക്കുന്ന ചിത്രങ്ങള്‍
എക്‌സറേ
അദൃശ്യാലക്തിക കിരണം
മരണം വരെയും സൗന്ദര്യം ഒരേപോലെ നിലനിര്‍ത്താന്‍ കഴിഞ്ഞവര്‍
കലഹപ്രിയ
ശണ്‌ഠക്കാരി

如何从文件中删除句子?你知道吗

我要去接你

  ക്രിസ്‌തുമസ്‌
 കലഹപ്രിയ
    ശണ്‌ഠക്കാരി
വളവ്‌
    വക്രത
    തിരിവ്‌
    കോട്ടം

把这些句子都去掉

പ്രിന്ററിലൂടെ കടലാസ്‌ നീങ്ങിപ്പോകുന്ന ദിശക്ക്‌ ലംബമായുള്ള ദിശ
    കമ്പ്യൂട്ടറിലെ ഒരു ഡിസ്‌കിലുള്ള വിവരങ്ങള്‍ മറ്റൊരു ഡിസ്‌കിലേക്ക്‌ കോപ്പിചെയ്‌തു വെക്കാന്‍ ഡോസ്‌ എന്ന ഓപ്പറേറ്റിംഗ്‌ സിസ്റ്റത്തിലുള്ള സംവിധാനം

它们之间用空格隔开。你知道吗

我使用的是python2.7

m = open('olam-enml.txt','w')

UTF8

当我尝试这个密码的时候

string = "നന്നേ ചെറുപ്രായത്തില്‍ അസാമന്യ ജീവിത വിജയം നേടുന്നയാള്‍"

if u' ' not in string .strip():
    print string

我犯了这个错误

Traceback (most recent call last):
  File "/home/akallararajappan/Music/Mycodeexp/d.py", line 3, in <module>
    if u' ' not in string .strip():
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe0 in position 0: ordinal not in range(128)

Tags: 文件字符串intxtstringifunicodenot
1条回答
网友
1楼 · 发布于 2024-04-24 07:46:22

您可以从行的开始和结束处去掉空格,如果字符串中仍有空格,则会有一个句子:

if u' ' not in line.strip():
    # line is a *not* a sentence

改为用^{}打开文件;要只写非句子的行,可以使用简单的生成器表达式:

import io

with io.open('olam-enml.txt', 'r', encoding='utf8') as infh:
    with io.open('olam-enml-words.txt', 'w', encoding='utf8') as outfh:
        outfh.writelines(line for line in infh if u' ' not in line.strip())

相关问题 更多 >