将NER训练数据转换为Spacy训练数据格式

1条回答

网友

1楼 · 发布于 2024-06-09 10:54:10

对于简单的XML类型注释，可以使用BeautifulSoup。下面是一个略为简单的标记示例：

from bs4 import BeautifulSoup

raw = "I went to <PLACE>Tokyo 3</PLACE> last year."
soup = BeautifulSoup(raw, features="html.parser")

out = ""
tags = []
idx = 0
for el in soup:
    text = el
    if hasattr(el, "text"):
        # it's a tag, save it
        text = el.text
        start = idx
        end = idx + len(el.text)
        tags.append( (el.name, start, end) )

    out += text
    idx += len(text)

print(out)
for tag in tags:
    print(tag[0], out[tag[1]:tag[2]], sep="\t")

一旦获得了这个示例代码给出的字符跨度，获取spaCy格式数据就很简单了

编程相关推荐

java客户端与服务器和JPA事务的对话
java Any DLL导入会抛出一个不满意的链接错误，尽管DLL似乎已加载
java如何获得只有他的电子邮件Firebase Realtime才知道的用户结构
PlayFramework2.0Java游戏！启动问题
java创建倒计时计时器
在java中按id排序Akka流
带有嵌入式Jetty静态资源的java Spring MVC
java如何避免Jackson获取标记为FetchType的字段。懒惰的
java Netbeans Ascii unicode字符不工作base64编码解码
JAVAME：对Java向量进行排序

相关问题更多 >

编程相关推荐

热门问题

热门文章

将NER训练数据转换为Spacy训练数据格式

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >