python的web挖掘模块。
pattern3的Python项目详细描述
模式图片::https://travis-ci.org/pattern3/pattern.svg?branch=master
:target:https://travis ci.org/pattern3/pattern
pattern是python的web挖掘模块。它有以下工具:
-数据挖掘:web服务(google、twitter、wikipedia)、web爬虫程序、
html dom解析器
-自然语言处理:部分语音标记、n-gram搜索、
情感分析、wordnet
-机器学习:向量空间模型、聚类、分类Action
(knn,SVM,Perceptron)
-网络分析:图形中心性和可视化。
它有很好的文档记录,捆绑了50多个示例和350多个单元测试。
源代码是根据BSD授权的,可从http://www.clips.ua.ac.be/pages/pattern获得。
图::http://www.clips.ua.ac.be/media/pattern戋schema.gif
:alt:模式示例工作流
pattern示例工作流
version
----
<2.6
license
**bsd**,有关详细信息,请参阅"license.txt"。
模式是为python 2.5+编写的(还不支持python 3)。
模块没有外部依赖项,除非在
pattern.vector模块中使用lsa,该模块需要numpy(默认安装在mac
os x上)。要安装pattern以使其在所有脚本中都可用,请解压缩下载并从命令行执行以下操作:
…代码::bash
cd pattern-2.6
python setup.py install
代码::bash
pip install pattern
ripts:\*``C:\ python26\lib\site packages`
(Windows)、\*``/library/python/2.6/site packages/``(Mac OS X)、\*
`/usr/lib/python2.6/site packages/``(Unix)。-将
模块的位置添加到脚本中的"sys.path"中,然后导入:
。代码::python
module='/users/tom/desktop/pattern'
import sys;如果module不在sys.path:sys.path.append(module)
from pattern.en import parsetree
example
----
包含标签"win"或"fail"的将被收集。例如:"今天给一位可爱的小老太太20美元的小费就赢了"。然后解析单词
词性标记的一部分,只保留形容词。每条tweet
都被转换成一个向量,一个形容词→计数项的字典,
标记为"win"或"fail"。分类器使用向量来学习
哪些tweet更像"win"或更像"fail"。
代码::python
from pattern.web import twitter
from pattern.en import tag
from pattern.vector import knn,count
twitter,knn=twitter(),knn()
for i in range(1,3):
for twitter中的tweet.search('win or fail',start=i,count=100):
s=tweet.text.lower()
p=''win'in s和'win'或'fail'
v=标记
v=[单词对单词,pos in v if pos='jj']\jj=形容词
v=计数(v){sweet':1}
if v:
knn.train(v,type=p)
print knn.classify('甘薯汉堡')
print knn.classify('愚蠢的自动更正')
python的模式。*机器学习研究杂志,13*,2031–2035。
贡献
----
源代码托管在Github AN上d欢迎捐款或捐赠,请参阅"开发者文档"http://www.clips.ua.ac.be/pages/pattern contribute>;`使用以下数据集、算法和python
包:
-**美丽汤**、leonard richardson
-**布里尔标签**、eric brill
-**布里尔标签**、jeroen geertzen
-**布里尔标签**、gerold schneider&;martin volk
-**布里尔标签f或西班牙语**,在维基语料库上接受培训(Samuel Reese&;br/>Gemma Boleda等人)
-**法语的Brill Tagger**,在Lefff上接受培训(Beno_t Sagot&Lionel
Clément等人)
-**意大利语的Brill Tagger**,从Wiktionary中开采的Brill Tagger
-**英语多元化**,Damian Conway
-**西班牙语动词词形变化**,fred jehle
-**法语动词词形变化**,bob salita
-**图形javascript框架**,aslak hellesoy&dave hoover
-**libsvm**,chih chung chang&chih jen lin
-**liblinear**,rong en fan et al.
-**网络中心性**,aric hagberg、dan schult&pieter swart、yusuke shinyama、python docx、mike maccana、pywordnet、oliver steele、simplejson、bob ippolito、peter norvig、universal feed parser、mark pilgrim、christiAne Fellbaum等人:
致谢
————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————丹尼尔·弗里斯n
-杰罗恩·格尔岑
-托马斯·克罗姆贝兹
-肯·威廉姆斯
-彼得里斯·艾琳斯
-拉杰什·奈尔
-f.德·斯密特
-拉迪姆·埃赫·埃克
-汤姆·洛雷多
-约翰·德博维斯
-托马斯·西莱奥
-格洛德·施奈德
-马丁·沃克
-塞缪尔·约瑟夫
-舒布汉舒·米什拉
-罗伯特·埃尔韦尔
-弗雷德·杰勒
-安托万·马齐耶雷斯+fabelier.org
-雷米·德佐滕+closealert.nl
-肯尼思·科赫
-詹斯·格里沃拉
-法比奥·马尔菲亚
-史蒂文·洛里亚
-科林·莫尔特+tevizz.com
-彼得·布尔
-莫里齐奥·桑巴蒂
-丹·富
-萨尔瓦特奥雷迪·迪奥
:target:https://travis ci.org/pattern3/pattern
pattern是python的web挖掘模块。它有以下工具:
-数据挖掘:web服务(google、twitter、wikipedia)、web爬虫程序、
html dom解析器
-自然语言处理:部分语音标记、n-gram搜索、
情感分析、wordnet
-机器学习:向量空间模型、聚类、分类Action
(knn,SVM,Perceptron)
-网络分析:图形中心性和可视化。
它有很好的文档记录,捆绑了50多个示例和350多个单元测试。
源代码是根据BSD授权的,可从http://www.clips.ua.ac.be/pages/pattern获得。
图::http://www.clips.ua.ac.be/media/pattern戋schema.gif
:alt:模式示例工作流
pattern示例工作流
version
----
<2.6
license
**bsd**,有关详细信息,请参阅"license.txt"。
模式是为python 2.5+编写的(还不支持python 3)。
模块没有外部依赖项,除非在
pattern.vector模块中使用lsa,该模块需要numpy(默认安装在mac
os x上)。要安装pattern以使其在所有脚本中都可用,请解压缩下载并从命令行执行以下操作:
…代码::bash
cd pattern-2.6
python setup.py install
代码::bash
pip install pattern
ripts:\*``C:\ python26\lib\site packages`
(Windows)、\*``/library/python/2.6/site packages/``(Mac OS X)、\*
`/usr/lib/python2.6/site packages/``(Unix)。-将
模块的位置添加到脚本中的"sys.path"中,然后导入:
。代码::python
module='/users/tom/desktop/pattern'
import sys;如果module不在sys.path:sys.path.append(module)
from pattern.en import parsetree
example
----
包含标签"win"或"fail"的将被收集。例如:"今天给一位可爱的小老太太20美元的小费就赢了"。然后解析单词
词性标记的一部分,只保留形容词。每条tweet
都被转换成一个向量,一个形容词→计数项的字典,
标记为"win"或"fail"。分类器使用向量来学习
哪些tweet更像"win"或更像"fail"。
代码::python
from pattern.web import twitter
from pattern.en import tag
from pattern.vector import knn,count
twitter,knn=twitter(),knn()
for i in range(1,3):
for twitter中的tweet.search('win or fail',start=i,count=100):
s=tweet.text.lower()
p=''win'in s和'win'或'fail'
v=标记
v=[单词对单词,pos in v if pos='jj']\jj=形容词
v=计数(v){sweet':1}
if v:
knn.train(v,type=p)
print knn.classify('甘薯汉堡')
print knn.classify('愚蠢的自动更正')
python的模式。*机器学习研究杂志,13*,2031–2035。
贡献
----
源代码托管在Github AN上d欢迎捐款或捐赠,请参阅"开发者文档"http://www.clips.ua.ac.be/pages/pattern contribute>;`使用以下数据集、算法和python
包:
-**美丽汤**、leonard richardson
-**布里尔标签**、eric brill
-**布里尔标签**、jeroen geertzen
-**布里尔标签**、gerold schneider&;martin volk
-**布里尔标签f或西班牙语**,在维基语料库上接受培训(Samuel Reese&;br/>Gemma Boleda等人)
-**法语的Brill Tagger**,在Lefff上接受培训(Beno_t Sagot&Lionel
Clément等人)
-**意大利语的Brill Tagger**,从Wiktionary中开采的Brill Tagger
-**英语多元化**,Damian Conway
-**西班牙语动词词形变化**,fred jehle
-**法语动词词形变化**,bob salita
-**图形javascript框架**,aslak hellesoy&dave hoover
-**libsvm**,chih chung chang&chih jen lin
-**liblinear**,rong en fan et al.
-**网络中心性**,aric hagberg、dan schult&pieter swart、yusuke shinyama、python docx、mike maccana、pywordnet、oliver steele、simplejson、bob ippolito、peter norvig、universal feed parser、mark pilgrim、christiAne Fellbaum等人:
致谢
————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————丹尼尔·弗里斯n
-杰罗恩·格尔岑
-托马斯·克罗姆贝兹
-肯·威廉姆斯
-彼得里斯·艾琳斯
-拉杰什·奈尔
-f.德·斯密特
-拉迪姆·埃赫·埃克
-汤姆·洛雷多
-约翰·德博维斯
-托马斯·西莱奥
-格洛德·施奈德
-马丁·沃克
-塞缪尔·约瑟夫
-舒布汉舒·米什拉
-罗伯特·埃尔韦尔
-弗雷德·杰勒
-安托万·马齐耶雷斯+fabelier.org
-雷米·德佐滕+closealert.nl
-肯尼思·科赫
-詹斯·格里沃拉
-法比奥·马尔菲亚
-史蒂文·洛里亚
-科林·莫尔特+tevizz.com
-彼得·布尔
-莫里齐奥·桑巴蒂
-丹·富
-萨尔瓦特奥雷迪·迪奥