Python serpextract-meiqia包_程序模块 - PyPI

从搜索引擎结果页（SERP）中轻松提取关键字。

serpextract-meiqia的Python项目详细描述

https://travis-ci.org/Meiqia/serpextract.png?branch=master

serpextract提供了从搜索引擎结果页（serp）中轻松提取关键字的功能。

这个模块在很大程度上是由Piwik团队的艰苦工作实现的。具体地说，我们广泛地使用他们的list of search engines。

安装

PYPI上的最新版本：

$ pip install serpextract

或最新开发版本（不推荐）：

$ pip install -e git://github.com/Parsely/serpextract.git#egg=serpextract

用法

命令行

命令行用法，返回由逗号并用引号括起来：

$ serpextract "http://www.google.ca/url?sa=t&rct=j&q=ars%20technica"
"Google","ars technica"

您还可以打印出当前在中可用的所有SearchEngineParser的列表本地缓存通过：

$ serpextract -l

Python

fromserpextractimportget_parser,extract,is_serp,get_all_query_paramsnon_serp_url='http://arstechnica.com/'serp_url=('http://www.google.ca/url?sa=t&rct=j&q=ars%20technica&source=web&cd=1&ved=0CCsQFjAA''&url=http%3A%2F%2Farstechnica.com%2F&ei=pf7RUYvhO4LdyAHf9oGAAw&usg=AFQjCNHA7qjcMXh''j-UX9EqSy26wZNlL9LQ&bvm=bv.48572450,d.aWc')get_all_query_params()# ['key', 'text', 'search_for', 'searchTerm', 'qrs', 'keyword', ...]is_serp(serp_url)# Trueis_serp(non_serp_url)# Falseget_parser(serp_url)# SearchEngineParser(engine_name='Google', keyword_extractor=['q'], link_macro='search?q={k}', charsets=['utf-8'])get_parser(non_serp_url)# Noneextract(serp_url)# ExtractResult(engine_name='Google', keyword=u'ars technica', parser=SearchEngineParser(...))extract(non_serp_url)# None

naive检测

piwik和serpextract使用的搜索引擎解析器的列表远非如此详尽的。如果希望serpextract尝试猜测给定的引用url是否是serp，您可以指定use_naive_method=True到serpextract.is_serp或serpextract.extract。默认情况下，naive方法被禁用。

naive搜索引擎检测尝试在^{tt8}中找到r'\.?search\.'的实例$ 一个网址。如果找到，serpextract将尝试在按顺序查找以下参数的URL:

_naive_params = ('q', 'query', 'k', 'keyword', 'term',)

如果找到其中一个，则提取关键字并将ExtractResult构造为：

ExtractResult(domain, keyword, None)  # No parser, but engine name and keyword

# Not a recognized search engine by serpextractserp_url='http://search.piccshare.com/search.php?cat=web&channel=main&hl=en&q=test'is_serp(serp_url)# Falseextract(serp_url)# Noneis_serp(serp_url,use_naive_method=True)# Trueextract(serp_url,use_naive_method=True)# ExtractResult(engine_name=u'piccshare', keyword=u'test', parser=None)

自定义分析器

如果您有一个自定义搜索引擎，您希望跟踪当前没有的受piwik/serpextract支持，您可以创建自己的 serpextract.SearchEngineParser并将其显式传递给 serpextract.is_serp或serpextract.extract或添加到分析器的内部列表。

# Create a parser for PiccSharefromserpextractimportSearchEngineParser,is_serp,extractmy_parser=SearchEngineParser(u'PiccShare',# Engine nameu'q',# Keyword extractoru'/search.php?q={k}',# Link macrou'utf-8')# Charsetserp_url='http://search.piccshare.com/search.php?cat=web&channel=main&hl=en&q=test'is_serp(serp_url)# Falseextract(serp_url)# Noneis_serp(serp_url,parser=my_parser)# Trueextract(serp_url,parser=my_parser)# ExtractResult(engine_name=u'PiccShare', keyword=u'test', parser=SearchEngineParser(engine_name=u'PiccShare', keyword_extractor=[u'q'], link_macro=u'/search.php?q={k}', charsets=[u'utf-8']))

您还可以将自定义解析器永久添加到 serpextract维护，这样就不必再显式地传递解析器对象到serpextract.is_serp或serpextract.extract。

fromserpextractimportSearchEngineParser,add_custom_parser,is_serp,extractmy_parser=SearchEngineParser(u'PiccShare',# Engine nameu'q',# Keyword extractoru'/search.php?q={k}',# Link macrou'utf-8')# Charsetadd_custom_parser(u'search.piccshare.com',my_parser)serp_url='http://search.piccshare.com/search.php?cat=web&channel=main&hl=en&q=test'is_serp(serp_url)# Trueextract(serp_url)# ExtractResult(engine_name=u'PiccShare', keyword=u'test', parser=SearchEngineParser(engine_name=u'PiccShare', keyword_extractor=[u'q'], link_macro=u'/search.php?q={k}', charsets=[u'utf-8']))

测试

对于流行的搜索引擎，有一些基本的测试，但还需要更多的测试：

$ pip install -r requirements.txt
$ nosetests

缓存

在内部，此模块缓存OrderedDict表示 Piwik’s list of search engines 存储在serpextract/search_engines.pickle中。这不是要经常改变，所以模块附带缓存版本。

欢迎加入QQ群-->： 979659372

serpextract-meiqia 2019.1.15.0

serpextract-meiqia的Python项目详细描述

安装

用法

命令行

Python

测试

缓存

推荐PyPI第三方库

ehour

Cupboard

gaetestbed

sanepg

CloeePy-RabbitMQ

karas

django-nomad-country-blogs

example-pkg-llz-arithmetic

configureme

odoo10-addon-purchase-line-product-image

juju-scalewa

lshknn

tensorflow-estimator

setuptools-changelog

stringutils

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

serpextract-meiqia 2019.1.15.0

serpextract-meiqia的Python项目详细描述

安装

用法

命令行

Python

测试

缓存

推荐PyPI第三方库

ehour

Cupboard

gaetestbed

sanepg

CloeePy-RabbitMQ

karas

django-nomad-country-blogs

example-pkg-llz-arithmetic

configureme

odoo10-addon-purchase-line-product-image

juju-scalewa

lshknn

tensorflow-estimator

setuptools-changelog

stringutils

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签