从txt文件导入小说/非小说

2024-05-15 03:32:20 发布

您现在位置:Python中文网/ 问答频道 /正文

我研究文学,并试图研究如何将一系列小说从.txt或其他格式导入python中,以使用不同的词频、相似性等。我希望尝试建立一些定量的方法来定义不仅仅是主题的类型

我特别想看看这些小说中是否有特定的字串、概念和位置。类似于:(http://web.uvic.ca/~mvp1922/modmac/)。然后我想把重点放在一部小说上,用过去的数据作比较,并分别分析人物的动作和与其他人物的互动

我很抱歉,如果这是一个模糊的,不清楚的,或只是一个愚蠢的问题。我才刚开始


Tags: 方法txthttp概念类型主题定义格式
1条回答
网友
1楼 · 发布于 2024-05-15 03:32:20

欢迎来到StackOverflow

这是一个非常非常大的话题。如果您刚刚开始,我推荐this book,它将引导您使用Python的nltk库了解NLP的一些基础知识(如果你已经有过Python方面的经验,而不是NLP方面的经验,那么这本书的某些部分将是有点初级的。)我在教授大学级别的课程时使用过这本书,对它有很好的体验

一旦你掌握了基本知识,听起来你基本上就遇到了文本分类(或者可能是聚类)的问题。关于这个主题有很多很好的教程,包括许多使用Python库的教程,比如scikit-learn。为了更有效地进行google搜索,您还需要研究“单词包”(忽略句子结构的分析,很可能是您将开始的方法)和“命名实体识别”(如果您想识别字符、位置等)

对于将来的问题,最好的方法是发布你正在努力解决的代码的具体例子-this是一个很好的资源来说明如何做到这一点。许多用户会避开open-ended questions,但会跳出一个明确的,具体的问题来解决所有的难题

学习愉快

相关问题 更多 >

    热门问题