一个用rnns进行文本分析的小库。

passage的Python项目详细描述


一个用rnns进行文本分析的小库。

警告:非常紧急,正在进行中。

安装

通过Github(正在开发的版本)

git clone http://github.com/IndicoDataSolutions/passage.git
python setup.py develop

或通过PIP

sudo pip install passage

示例

使用段落对文本进行二进制分类,此示例:

  • 标记一些训练文本,将其转换为一个格式段落可以 使用。
  • 将模型的结构定义为层列表。
  • 使用该结构和要优化的成本创建模型。
  • 在训练文本上训练一次迭代的模型。
  • 使用模型和标记器预测新文本。
  • 保存并加载模型。
from passage.preprocessing import Tokenizer
from passage.layers import Embedding, GatedRecurrent, Dense
from passage.models import RNN
from passage.utils import save, load

tokenizer = Tokenizer()
train_tokens = tokenizer.fit_transform(train_text)

layers = [
    Embedding(size=128, n_features=tokenizer.n_features),
    GatedRecurrent(size=128),
    Dense(size=1, activation='sigmoid')
]

model = RNN(layers=layers, cost='BinaryCrossEntropy')
model.fit(train_tokens, train_labels)

model.predict(tokenizer.transform(test_text))
save(model, 'save_test.pkl')
model = load('save_test.pkl')

其中:

  • train_text是字符串列表[“hello world”,“foo bar”]
  • 列车标签是标签列表[0,1]
  • test_text是另一个字符串列表

数据集

如果没有大量的数据集,RNN很难获得更好的结果 比传统的稀疏线性模型。下面是一些数据集 大小合适,对实验有用。希望这个名单 将随着时间的推移而增长,请随时为 通过问题或拉取请求包含。

**注意**这些数据集不是由indico创建的,不是 是否在此处包含任何形式的背书

博客数据集:http://www.cs.biu.ac.il/~koppel/blogs/blogs.zip(年龄 性别数据)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Android首选项相同getPreference()值的不同数据   字符串如何在Java中连接两个列表中的单词   安卓 Java Socket编程:检测客户端和服务器是否连接   使用JTextField的java无法将值转换为int   在java中,如何在不通过超级构造函数设置的情况下将消息设置为自定义异常类   用于标识属性值的java正则表达式模式   Android中的java不可见谷歌地图   java正确取消启动ExecutorService的JavaFX任务   在非活动java类中使用安卓的融合位置提供程序,并在主活动类中获取经度和纬度   spring为什么我的大摇大摆不能用springboot在java中工作?   java JSF(2.2)ViewScope在Weblogic 12.2.1.2和JDK 8上使用Spring 4.3.7(在Mac OS和Docker Oracle Linux环境上)   java如何用一个按钮提高计时器速度   java如何检查字符是否是元音?   注册表引用了不存在的Java运行时环境安装或运行时已损坏错误   来自ResultSet java的mysql getDateTime   maven LanguageTool Java API是否具有“无用”依赖关系?   twitter api身份验证的java Trycatch问题   java在Apache Struts 1.1中是否可以显式白名单?   安卓致命异常:主java。lang.RuntimeException:被问及未知片段