使用isListEmm在文件中生成阿拉伯语文本词干时出错

2024-06-17 13:01:37 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在试图阻止文本文件的内容(文本.txt)在阿拉伯语中使用nltk.stem.isri公司. 这个文本.txt文件包含以下阿拉伯文文本:

另一方面,也有人利用此项业务,而另一方面则是仅凭一项仅凭一人的情况,而另一方面则是仅凭一项仅凭一人的情况,另一方面,仅凭一人就有一人,另一方面,另一方面,另一方面,另一方面,另一方面,另一方面,另一方面,另一方面,另一方面,另一方面,另一方面,另一方面,另一方面,另一方面,另一方面,另一方面,仅凭一人的一方面,另一方面,一方面,仅凭一人,另一方面,另一方面,另一方面,另一方面,另一方面,另一方面,另一方面,另一方面,另一方面,另一方面方面,另一方面方面,另一方面,另一方面,另一方面,另一方面,另一方面则是利用،Ÿو1608;هههه\159;\159;Ÿ;;1611; \\\157;\\\\\捷捷捷的15捷\\\\\157;\\يييييع157;157;157;1571;1571;أ1571;أأ\怎样通过أ㬵的\怎样的怎样的\\\\\157;\157;\إنžانإيجابياً أكثر، وهي العلاقة العاطفية التي تجمع بين الرجل والمرأة أو بين الأشخاص المختلفين في حياته، وما تجره من مشاعر الاهتمام والمودة واللطف. الحب أيضاً حالةٌ من الانجذاب والإعجاب بين الأشخاص، ويقال بأنه نوعٌ من الكيمياء المتبادلة، إذ يعبر عن نوعٍ من التفاعل بين الناس، وفي الحب يفرز الجسم هرمون الأوكسيتوسين وهو الهرمون الذي يدعى بهرمون المحبين والمحبة الذي يفرزه الجسم فور اللقاء بين الأحبة، وفيما يلي من سطورٍ سنتحدث عن بعض المعلومات العامة حول الحب بشيءٍ من التفصيل والتوضيح. 在

我通过引用前面的问题使用了以下代码:Python Stemming words in a File

# -*- coding: UTF-8 -*-

from nltk.stem.isri import ISRIStemmer
def stemming_text_1():
    with open('test.txt', 'r') as f:
        for line in f:
            print line
            singles = []

            stemmer = ISRIStemmer()
            for plural in line.split():
                singles.append(stemmer.stem(plural))
            print ' '.join(singles)

stemming_text_1()

它打印文件的内容,并出现以下错误:

^{pr2}$

Tags: textin文本txt利用内容forline
1条回答
网友
1楼 · 发布于 2024-06-17 13:01:37

在将文件传递到词干分析器之前,请尝试将文件中的代码行解码为unicode。我假设您的输入文件被编码为UTF8(看起来可能是在查看错误),但是,您可以根据需要更改编码:

for line in f:
    line = line.decode('utf8')    # use the correct encoding here
    ...

{或者,您可以指定传入的Python,并使用^对传入流进行解码:

^{pr2}$

相关问题 更多 >