又一个fasttext python绑定

yafasttext的Python项目详细描述


fastText是一个高效学习的库 词汇表征和句子分类。

要求

fastText构建在现代mac os和linux上 分配。因为它使用C++ 11个特性,所以需要编译器 良好的C++ 11支持。其中包括:

  • (GCC-4.8或更新版本)或(Clang-3.3或更新版本)

您需要

生成快速文本

获取最新版本fastText is to use pip的最简单方法。

$ pip install fasttext

如果你想使用最新的不稳定版本,你需要建立 从源代码使用setup.py。

现在您可以使用

import fastText

示例

一般认为读者已经对 快速文本。为此,请考虑 README 尤其是the tutorials on our website

我们建议您查看examples within the doc folder

与任何包一样,您可以使用 帮助功能。

例如

+>>> import fastText
+>>> help(fastText.FastText)

Help on module fastText.FastText in fastText:

NAME
    fastText.FastText

DESCRIPTION
    # Copyright (c) 2017-present, Facebook, Inc.
    # All rights reserved.
    #
    # This source code is licensed under the BSD-style license found in the
    # LICENSE file in the root directory of this source tree. An additional grant
    # of patent rights can be found in the PATENTS file in the same directory.

FUNCTIONS
    load_model(path)
        Load a model given a filepath and return a model object.

    tokenize(text)
        Given a string of text, tokenize it and return a list of tokens
[...]

重要提示:预处理数据/编码约定

一般来说,正确地预处理数据是很重要的。在 特别是我们在root folder中的示例脚本。

FastText采用UTF-8编码文本。所有文本必须是unicode for Python2 以及str for Python3。 传递的文本将是encoded as UTF-8 by pybind11 在传递到FASTTEXC++库之前。这意味着 在构建模型时使用utf-8编码文本。在类unix系统上 无法使用iconv转换文本。

FastText将根据以下内容进行标记(将文本分割成多个片段) ASCII字符(字节)。特别是,它不知道utf-8 空白。我们建议用户转换utf-8空白/字 以适当的方式划分为下列符号之一。

  • 空间
  • 选项卡
  • 垂直选项卡
  • 回车
  • formfeed
  • 空字符

换行符用于分隔文本行。特别地, 如果换行符是 遇到。唯一的例外是如果令牌数超过 最大行大小常量,如Dictionary header中所定义。 这意味着如果文本不是用换行符分隔的,比如 在fil9 dataset,它将是 使用最大行大小的令牌分成块,eos令牌是 没有附加。

令牌的长度是utf-8个字符的数量,通过考虑 要识别的leading two bits of a bytesubsequent bytes of a multi-byte sequence。 在选择最小值和 子字的最大长度。此外,eos令牌(如 Dictionary header) 被认为是一个字符,不会被分解成子单词。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java ImageIO。写入()低质量图像   使用安卓的设备屏幕大小的java拖放图像   java Adler32重复速度非常快   java在使用Burp Suite Community Edition时遇到此错误   java是否可以在交换机中使用已存在的字符串?   java:把反斜杠看作正常字符的方法   java如何创建Criteria Builder查询来连接三个具有一对一和多对一实体关系的表?   Java Spark:如何在数据集上进行flatMap,并为后续的groupBy提供新的模式?   JavaTestNG运行每个方法,并忽略TestNG中包含的方法。xml   无法使用Java运行linux命令   java我可以用什么来代替AudioPlayer。游戏者停止();?   关于如何使用pop3使用javamail从gmail帐户删除电子邮件的java查询   java Firebase Android数据库查询(读取数据)