此软件包为各种韩国语料库提供了轻松下载和轻松搜索功能。

Korpora的Python项目详细描述


Korpora: Korean Corpora Archives

Korpora只提供容易下载、使用其他人以研究目的共享的语言。

感谢共享《p》马团的人们,每个马团的说明和Lisense都记述在了马团类。 每一句话下载数据时,说明和许可会输出到画面中。 想要详细了解该马团的人请参考输出的description。 如果将该马团用作研究/商用目的,请参考以下的许可证。

This package provides easy-download and easy-usage for various Korean corpora.

Install

From source

git clone https://github.com/ko-nlp/Korpora
python setup.py install

Using pip

pip install Korpora

Corpus List

  • Korpora软件包提供的马团目录如下。
corpus_namedescriptionlink
korean_chatbot_data챗봇 트레이닝용 문답 페어https://github.com/songys/Chatbot_data
kcbertKcBERT 모델 학습용 댓글 데이터https://github.com/Beomi/KcBERT
korean_hate_speech한국어 혐오 데이터셋https://github.com/kocohub/korean-hate-speech
korean_petitions청와대 국민 청원https://github.com/lovit/petitions_archive
kornliKorean NLIhttps://github.com/kakaobrain/KorNLUDatasets
korstsKorean STShttps://github.com/kakaobrain/KorNLUDatasets
namuwikitext나무위키 텍스트https://github.com/lovit/namuwikitext
naver_changwon_ner네이버 x 창원대 개체명 인식 데이터셋https://github.com/naver/nlp-challenge/tree/master/missions/ner
nsmcNAVER Sentiment Movie Corpushttps://github.com/e9t/nsmc
question_pair한국어 질문쌍 데이터셋https://github.com/songys/Question_pair
    确认Korpora软件包提供的马团目录的Fi Sun例子如下。
fromKorporaimportKorporaKorpora.corpus_list()
{'kcbert': 'beomi@github 님이 만드신 KcBERT 학습데이터',
 'korean_chatbot_data': 'songys@github 님이 만드신 챗봇 문답 데이터',
 'korean_hate_speech': '{inmoonlight,warnikchow,beomi}@github 님이 만드신 혐오댓글데이터',
 'korean_petitions': 'lovit@github 님이 만드신 2017.08 ~ 2019.03 청와대 청원데이터',
 'kornli': 'KakaoBrain 에서 제공하는 Natural Language Inference (NLI) 데이터',
 'korsts': 'KakaoBrain 에서 제공하는 Semantic Textual Similarity (STS) 데이터',
 'namuwikitext': 'lovit@github 님이 만드신 wikitext 형식의 나무위키 데이터',
 'naver_changwon_ner': '네이버 + 창원대 NER shared task data',
 'nsmc': 'e9t@github 님이 만드신 Naver sentiment movie corpus v1.0',
 'question_pair': 'songys@github 님이 만드신 질문쌍(Paired Question v.2)'}
    如果想参考《li》下载+FiySund的例子,请参考Usage项目的各数据说明,如果只想下载的话,请参考以下例子。
fromKorporaimportKorporaKorpora.fetch(corpus_name,force_download=True)
    如果您想安装所有提供
  • 的coppers,请在{}中输入“all”。如果您想重新安装安装已安装的coppers,可以使用{}。
Korpora.fetch('all')Korpora.fetch('all',force_download=True)

Usage

微信平台训练用问答软件

fromKorporaimportKorpora,KoreanChatbotKorpuschatbot_corpus=KoreanChatbotKorpus()# orchatbot_corpus=Korpora.load('korean_chatbot_data')chatbot_corpus.train[0]# LabeledSentencePair(text='12시 땡!', pair='하루가 또 가네요.', label=0)chatbot_corpus.train[0].text# 12시 땡!chatbot_corpus.train[0].pair# 하루가 또 가네요.chatbot_corpus.train[0].label# 0
  • data structure
속성명내용
text질문
pair답변
label일상다반사 0, 이별(부정) 1, 사랑(긍정) 2

KcBERT dataset

fromKorporaimportKorpora,KcBERTKorpuskcbert_corpus=KcBERTKorpus()# orkcbert_corpus=Korpora.load("kcbert")kcbert_corpus.train[0]# 우리에게 북한은 꼭 없애야 할 적일뿐

Korean Hate Speech

fromKorporaimportKorpora,KoreanHateSpeechKorpuskorean_hate_speech=KoreanHateSpeechKorpus()# orkorean_hate_speech=Korpora.load('korean_hate_speech')korean_hate_speech.train[0]# KoreanHateSpeechLabeledExample(text='(현재 호텔주인 심정) 아18...', title='"밤새 조문 행렬...', gender_bias='False', bias='others', hate='hate')korean_hate_speech.train[0].text# (현재 호텔주인 심정) 아18...(현재 호텔주인 심정) 아18...korean_hate_speech.train[0].title# "밤새 조문 행렬...korean_hate_speech.train[0].gender_bias# Falsekorean_hate_speech.train[0].bias# otherskorean_hate_speech.train[0].hate# hatekorean_hate_speech.dev[0]# KoreanHateSpeechLabeledExample(text='송중기 시대극은 믿고본다...', title='"\'아스달 연대기\'...', gender_bias='False', bias='none', hate='none')korean_hate_speech.test[0]# SentencePair(text='ㅋㅋㅋㅋ 그래도 조아해주는 팬들 많아서 좋겠다 ㅠㅠ 니들은 온유가 안만져줌 ㅠㅠ', pair='"샤이니 온유, 클럽 강제추행 \'무혐의\' 처분 받았다"')korean_hate_speech.unlabeled[0]# SentencePair(text='"[단독] 지드래곤♥이주연, 제주도 데이트...', pair='"[단독] 지드래곤♥이주연, 제주도 데이트...')
  • data structure
속성명내용
text뉴스 댓글
title/pair뉴스 제목
gender_bias성적 차별 여부(True/False)
bias차별 종류(종교 인종 나이 외모 등)
hate특정 계층 혐오 여부(hate/none)
《h3》青瓦台国民请愿(2017.08 ~ 2019.03)《eh3》
fromKorporaimportKorpora,KoreanPetitionsKorpuspetitions=KoreanPetitionsKorpus()# orpetitions=Korpora.load('korean_petitions')petitions.train[0]# KoreanPetition(text="안녕하세요. 현재 사대, ...", category='육아/교육', num_agree=88, begin='2017-08-25', end='2017-09-24', title='학교는 ...')petitions.train[0].text# 안녕하세요. 현재 사대, ...petitions.train[0].category# 육아/교육petitions.train[0].num_agree# 88petitions.train[0].begin# 2017-08-25petitions.train[0].end# 2017-09-24petitions.train[0].title# 학교는 ...
  • data structure
속성명내용
text청원 내용
category청원 범주
num_agree청원 동의 수
begin청원 시작일
end청원 종료일
title청원 제목

KorNLI

fromKorporaimportKorpora,KorNLIKorpuskornli=KorNLIKorpus()# orkornli=Korpora.load('kornli')kornli.multinli_train[0]# LabeledSentencePair(text='개념적으로 크림 스키밍은 제품과 지리라는 두 가지 기본 차원을 가지고 있다.', pair='제품과 지리학은 크림 스키밍을 작동시키는 것이다.', label='neutral')kornli.multinli_train[0].text# 개념적으로 크림 스키밍은 제품과 지리라는 두 가지 기본 차원을 가지고 있다.kornli.multinli_train[0].pair# 제품과 지리학은 크림 스키밍을 작동시키는 것이다.kornli.multinli_train[0].label# neutralkornli.snli_train[0]# LabeledSentencePair(text='말을 탄 사람이 고장난 비행기 위로 뛰어오른다.', pair='한 사람이 경쟁을 위해 말을 훈련시키고 있다.', label='neutral')kornli.xnli_dev[0]# LabeledSentencePair(text='그리고 그가 말했다, "엄마, 저 왔어요."', pair='그는 학교 버스가 그를 내려주자마자 엄마에게 전화를 걸었다.', label='neutral')kornli.xnli_test[0]# LabeledSentencePair(text='글쎄, 나는 그것에 관해 생각조차 하지 않았지만...', pair='나는 그와 다시 이야기하지 않았다.', label='contradiction')
  • data structure
속성명내용
text문장
pairtext와 쌍이 되는 문장
labeltext, pair 사이의 관계

KorSTS

fromKorporaimportKorpora,KorSTSKorpuskorsts=KorSTSKorpus()# orkorsts=Korpora.load('korsts')korsts.train[0]# KorSTSExample(text='비행기가 이륙하고 있다.', pair='비행기가 이륙하고 있다.', label=5.0, genre='main-captions', filename='MSRvid', year='2012test')korsts.train[0].text# 비행기가 이륙하고 있다.korsts.train[0].pair# 비행기가 이륙하고 있다.korsts.train[0].label# 5.0korsts.dev[0]# KorSTSExample(text='안전모를 가진 한 남자가 춤을 추고 있다.', pair='안전모를 쓴 한 남자가 춤을 추고 있다.', label=5.0, genre='main-captions', filename='MSRvid', year='2012test')korsts.test[0]# KorSTSExample(text='한 소녀가 머리를 스타일링하고 있다.', pair='한 소녀가 머리를 빗고 있다.', label=2.5, genre='main-captions', filename='MSRvid', year='2012test')
  • data structure
속성명내용
text문장
pairtext와 쌍이 되는 문장
labeltext, pair 사이의 관계
기타데이터 관련 추가 정보

树上的密钥文本

  • author: lovit@github
  • repository: https://github.com/lovit/namuwikitext
  • size:
    • train: 38,278,040 lines (500,104 docs, 5.3G)
    • dev: 197,723 lines (2,525 docs, 28M)
    • test: 193,614 lines (2,525 docs, 29M)
  • example
fromKorporaimportKorpora,NamuwikiTextKorpusnamuwiki=NamuwikiTextKorpus()# ornamuwiki=Korpora.load('namuwikitext')namuwiki.train[0]# SentencePair(text='상위 문서: 아스날 FC\n2009-10 시즌 2011-12 시즌\n2010 -11 시즌...', pair=' = 아스날 FC/2010-11 시즌 =')namuwiki.train[0].text# 상위 문서: 아스날 FC\n2009-10 시즌 2011-12 시즌\n2010 -11 시즌...namuwiki.train[0].pair# = 아스날 FC/2010-11 시즌 =namuwiki.dev[0]# SentencePair(text='상위 항목: 축구 관련 인물, 외국인 선수/역대 프로축구\n...', pair=' = 소말리아(축구선수) =')namuwiki.test[0]# SentencePair(text='', pair=' = 덴덴타운 =')
  • data structure
속성명내용
text섹션 본문
pair섹션 타이틀
《h3》NAVER,昌原一起的NLP Challing(NER)《eh3》
fromKorporaimportKorpora,NaverChangwonNERKorpusner=NaverChangwonNERKorpus()# orner=Korpora.load('naver_changwon_ner')ner.train[0]# WordTag(text='비토리오 양일 만에 영사관 감호 용퇴, 항룡 압력설 의심만 가율 ', words=['비토리오', '양일', '만에', '영사관', '감호', '용퇴,', '항룡', '압력설', '의심만', '가율'], tags=['PER_B', 'DAT_B', '-', 'ORG_B', 'CVL_B', '-', '-', '-', '-', '-'])ner.train[0].text# 비토리오 양일 만에 영사관 감호 용퇴, 항룡 압력설 의심만 가율 ner.train[0].words# ['비토리오', '양일', '만에', '영사관', '감호', '용퇴,', '항룡', '압력설', '의심만', '가율']ner.train[0].tags# ['PER_B', 'DAT_B', '-', 'ORG_B', 'CVL_B', '-', '-', '-', '-', '-']
  • data structure
속성명내용
textwords를 공백으로 이어 붙인 string
words단어 시퀀스
tagswords에 대응하는 개체명 태그 시퀀스

Naver sentiment movie corpus v1.0

fromKorporaimportKorpora,NSMCKorpusnsmc=NSMCKorpus()# ornsmc=Korpora.load('nsmc')nsmc.train[0]# LabeledSentence(text='아 더빙.. 진짜 짜증나네요 목소리', label=0)nsmc.train[0].text# 아 더빙.. 진짜 짜증나네요 목소리nsmc.train[0].label# 0nsmc.test[0]# LabeledSentence(text='굳 ㅋ', label=1)
  • data structure
속성명내용
text영화 리뷰 댓글
label영화에 대한 평가 (긍정 1, 부정 0)

韩语提问对(Paired Question v.2)

fromKorporaimportKorpora,QuestionPairKorpusquestion_pair=QuestionPairKorpus()# orquestion_pair=Korpora.load('question_pair')question_pair.train[0]# LabeledSentencePair(text='1000일 만난 여자친구와 이별', pair='10년 연예의끝', label='1')question_pair.train[0].text# 1000일 만난 여자친구와 이별question_pair.train[0].pair# 10년 연예의끝question_pair.train[0].label# 1question_pair.test[0]# LabeledSentencePair(text='21살의 사랑에 대해', pair='사랑을 노력한다는게 말이 되나요?', label='1')
  • data structure
속성명내용
text문장
pairtext와 쌍을 이루는 문장
labeltext와 pair가 같은 질문이면 0, 다른 질문이면 1

Package License

  • Korpora Lisense是Creative Commons License(CCL)4.0的CC-BY。这个许可证仅限于Korpora软件包及其附属物。
  • 用户有以下权利。
    • 共享:可自由复制、分发、展示、演出及公共发送(包括格式变更)等。
    • 变更:Remix,变形,可制作第二次作品。以盈利为目的也可以使用。
  • 用户有以下义务。遵守以下义务,以上权利有效。
    • 作者表示:应该显示使用Korpora的信息。
    • 禁止追加限制:用户不能在利用Korpora的著作中附加比{a16}更严格的许可。
  • 特别需要注意的是,与Korpora软件包的许可证不同,根据数据不同,许可证将另行适用。在使用自己要使用的数据的许可证是什么内容之前一定要确认!

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java将Map<String,String>传递给需要Map<String,Object>   java在循环中使用字符串而不是StringBuilder是否会造成内存损失?   jnlp如何更新java控制台JRE?   java更改、修改和重新打包CXFAPI源文件   JavaFXJava应用程序在Fedora上运行一段时间后关闭   使用来自不同类的方法的java   java如何通过ant脚本在linux中使用subst?   java在使用camunda modeler进行base64编码/解码时出错   获取java。netbeans、weblogic和fastswap设置为true时的lang.NoSuchMethodError   java如何提高FinalizerThread在GC中收集对象的优先级   java检测具有相同根的单词   netbeans crud应用程序中的java错误