python的web挖掘模块。

pattern3的Python项目详细描述


模式图片::https://travis-ci.org/pattern3/pattern.svg?branch=master
:target:https://travis ci.org/pattern3/pattern

pattern是python的web挖掘模块。它有以下工具:

-数据挖掘:web服务(google、twitter、wikipedia)、web爬虫程序、
html dom解析器
-自然语言处理:部分语音标记、n-gram搜索、
情感分析、wordnet
-机器学习:向量空间模型、聚类、分类Action
(knn,SVM,Perceptron)
-网络分析:图形中心性和可视化。


它有很好的文档记录,捆绑了50多个示例和350多个单元测试。
源代码是根据BSD授权的,可从http://www.clips.ua.ac.be/pages/pattern获得。

图::http://www.clips.ua.ac.be/media/pattern戋schema.gif
:alt:模式示例工作流


pattern示例工作流
version
----


<2.6


license



**bsd**,有关详细信息,请参阅"license.txt"。



模式是为python 2.5+编写的(还不支持python 3)。
模块没有外部依赖项,除非在
pattern.vector模块中使用lsa,该模块需要numpy(默认安装在mac
os x上)。要安装pattern以使其在所有脚本中都可用,请解压缩下载并从命令行执行以下操作:

…代码::bash

cd pattern-2.6
python setup.py install


代码::bash

pip install pattern

ripts:\*``C:\ python26\lib\site packages`
(Windows)、\*``/library/python/2.6/site packages/``(Mac OS X)、\*
`/usr/lib/python2.6/site packages/``(Unix)。-将
模块的位置添加到脚本中的"sys.path"中,然后导入:

。代码::python

module='/users/tom/desktop/pattern'
import sys;如果module不在sys.path:sys.path.append(module)
from pattern.en import parsetree

example
----

包含标签"win"或"fail"的将被收集。例如:"今天给一位可爱的小老太太20美元的小费就赢了"。然后解析单词
词性标记的一部分,只保留形容词。每条tweet
都被转换成一个向量,一个形容词→计数项的字典,
标记为"win"或"fail"。分类器使用向量来学习
哪些tweet更像"win"或更像"fail"。

代码::python

from pattern.web import twitter
from pattern.en import tag
from pattern.vector import knn,count


twitter,knn=twitter(),knn()

for i in range(1,3):
for twitter中的tweet.search('win or fail',start=i,count=100):
s=tweet.text.lower()
p=''win'in s和'win'或'fail'
v=标记
v=[单词对单词,pos in v if pos='jj']\jj=形容词
v=计数(v){sweet':1}
if v:
knn.train(v,type=p)


print knn.classify('甘薯汉堡')
print knn.classify('愚蠢的自动更正')

python的模式。*机器学习研究杂志,13*,2031–2035。


贡献
----


源代码托管在Github AN上d欢迎捐款或捐赠,请参阅"开发者文档"http://www.clips.ua.ac.be/pages/pattern contribute>;`使用以下数据集、算法和python
包:

-**美丽汤**、leonard richardson
-**布里尔标签**、eric brill
-**布里尔标签**、jeroen geertzen
-**布里尔标签**、gerold schneider&;martin volk
-**布里尔标签f或西班牙语**,在维基语料库上接受培训(Samuel Reese&;br/>Gemma Boleda等人)
-**法语的Brill Tagger**,在Lefff上接受培训(Beno_t Sagot&Lionel
Clément等人)
-**意大利语的Brill Tagger**,从Wiktionary中开采的Brill Tagger
-**英语多元化**,Damian Conway
-**西班牙语动词词形变化**,fred jehle
-**法语动词词形变化**,bob salita
-**图形javascript框架**,aslak hellesoy&dave hoover
-**libsvm**,chih chung chang&chih jen lin
-**liblinear**,rong en fan et al.
-**网络中心性**,aric hagberg、dan schult&pieter swart、yusuke shinyama、python docx、mike maccana、pywordnet、oliver steele、simplejson、bob ippolito、peter norvig、universal feed parser、mark pilgrim、christiAne Fellbaum等人:


致谢
————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————丹尼尔·弗里斯n
-杰罗恩·格尔岑
-托马斯·克罗姆贝兹
-肯·威廉姆斯
-彼得里斯·艾琳斯
-拉杰什·奈尔
-f.德·斯密特
-拉迪姆·埃赫·埃克
-汤姆·洛雷多
-约翰·德博维斯
-托马斯·西莱奥
-格洛德·施奈德
-马丁·沃克
-塞缪尔·约瑟夫
-舒布汉舒·米什拉
-罗伯特·埃尔韦尔
-弗雷德·杰勒
-安托万·马齐耶雷斯+fabelier.org
-雷米·德佐滕+closealert.nl
-肯尼思·科赫
-詹斯·格里沃拉
-法比奥·马尔菲亚
-史蒂文·洛里亚
-科林·莫尔特+tevizz.com
-彼得·布尔
-莫里齐奥·桑巴蒂
-丹·富
-萨尔瓦特奥雷迪·迪奥

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
连接Java Rest服务   为每个不工作的循环更改数组值   java如何在删除某个元素后重新绘制GUI?   java混淆了共享maven模块?   Java在2d数组中计算重复数   未从TomCat上的Jar文件加载java类   JavaFX SceneBuilder中的java每月概览   java对于参数类型double,Point2D,运算符*未定义。双重的   java错误:类AcceptedFriendAction中的构造函数AcceptedFriendAction无法应用于给定类型;   eclipse java如何限制文本字段?   java无法执行目标组织。阿帕奇。专家插件:mavencompilerplugin:3.8.1:编译   macos Java无法启动jar文件   spring java代理向上游应用程序传递请求   java如何解决:错误:任务“:app:kaptDebugKotlin”的执行失败?   java在构造函数中完成类的主要工作时有什么问题吗?