下载wiki链接语料库的python包

pywikilinks的Python项目详细描述


pywikilinks
----


下载一个链接到wikipedia的语料库,其中包含锚标记
和周围的上下文。

![在指向Wikipedia文章的上下文中显示来自Web周围的多个超文本链接](readme_images/wiki link figure.jpg)


此包允许您下载和解码Wiki链接语料库。它包含必要的python 3代码,用于解码数据集中序列化的保存的apache thrift并读取它们。注意所提到的实体存在到维基百科的链接(但是
还有freebase id),以及指向该实体链接的“before”和
“after”上下文以及“middle”下的锚文本


``bash
context:context(middle=b'graphic designers',right=b'通常不参与html和css编码。前端开发人员使用html、css和javascript进行代码设计。术语\xc3\xa2\xe2\x82\xac\xc5\x93web designer\xc3\xa2\xe2\x82\xac\xef\xbf\xbd表示不同的\xc3\x82\xc2\xa0\xc3\x82\xc2\xa0',left=b'photoshop或焰火,并将html和css留给其他人。或者你可以选择自己编写代码。设计和实现之间的一行')
文章:b'http://en.wikipedia.org/wiki/graphic\u designer'

context:context(middle=b'javascript',right=b'。术语\xc3\xa2\xe2\x82\xac\xc5\x93web designer\xc3\xa2\xe2\x82\xac\xef\xbf\xbd对不同的人来说意味着不同的东西,但通常它意味着同时承担图形设计器角色和至少“left=b”编码。设计和实现之间的界限图形设计器通常不参与HTML和CSS编码。前端开发人员用html、css和')
文章:b'http://en.wikipedia.org/wiki/javascript'

context:context(middle=b'graphic design',right=b'和编程是两种截然不同的技能,相对来说很少有人有天生的两种能力。设计主要是一个右脑,创造性的活动,'',左=B'的方法,你取决于你的兴趣和才能,你的合作伙伴,以及你希望建立的网站类型。设计器/编码器拆分的优点')
文章:b'http://en.wikipedia.org/wiki/graphic\u design'
````

>您可能已经注意到,这些数据还包含许多非ascii字符,在上面的文本中显示为字节。大多数情况下,它们要么是Unicode引号,要么是需要规范化的特殊标点符号。


```

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java JNLP无法在浏览器中正确启动(与dtjava.js一起部署)   在执行下一个方法之前,java将等待线程执行结束   java如何将另一个LayoutManager应用于JComboBox?(多栏JComboBox尝试)   使用jPBC在java中实现双线性配对   java在使用@RequestMapping注释时获取请求的值(URL)   java如何控制流量   java如何获取IFC对象的绝对坐标?   java目标服务器无法使用htmlunit和tor响应异常   java需要帮助创建一个循环结构来运行我的程序   java有可能拥有一个Android APK并在应用程序中更改构建变体吗?   在Sphinx4中运行Ant的java   Java:从ArrayList获取子列表的有效方法   java如何使在循环内部创建的数组在循环外部工作?   apache poi通过java中的XSSF表从单元格读取日期值   安卓 java自己的SeqLock实现,避免spinlock会更好吗?   java的并发底层方法。util。同时发生的预定未来   java比较方法违反了它的一般约定,如何使它具有可传递性?   使用JAVA定向指定类的DB导出子类   一个方法中的java更改特定imageView