Korpora: Korean Corpora Archives
Korpora只提供容易下载、使用其他人以研究目的共享的语言。
感谢共享《p》马团的人们,每个马团的说明和Lisense都记述在了马团类。
每一句话下载数据时,说明和许可会输出到画面中。
想要详细了解该马团的人请参考输出的description。
如果将该马团用作研究/商用目的,请参考以下的许可证。
This package provides easy-download and easy-usage for various Korean corpora.
Install
From source
git clone https://github.com/ko-nlp/Korpora
python setup.py install
Using pip
pip install Korpora
Corpus List
确认Korpora软件包提供的马团目录的Fi Sun例子如下。
fromKorporaimportKorporaKorpora.corpus_list()
{'kcbert': 'beomi@github 님이 만드신 KcBERT 학습데이터',
'korean_chatbot_data': 'songys@github 님이 만드신 챗봇 문답 데이터',
'korean_hate_speech': '{inmoonlight,warnikchow,beomi}@github 님이 만드신 혐오댓글데이터',
'korean_petitions': 'lovit@github 님이 만드신 2017.08 ~ 2019.03 청와대 청원데이터',
'kornli': 'KakaoBrain 에서 제공하는 Natural Language Inference (NLI) 데이터',
'korsts': 'KakaoBrain 에서 제공하는 Semantic Textual Similarity (STS) 데이터',
'namuwikitext': 'lovit@github 님이 만드신 wikitext 형식의 나무위키 데이터',
'naver_changwon_ner': '네이버 + 창원대 NER shared task data',
'nsmc': 'e9t@github 님이 만드신 Naver sentiment movie corpus v1.0',
'question_pair': 'songys@github 님이 만드신 질문쌍(Paired Question v.2)'}
如果想参考《li》下载+FiySund的例子,请参考Usage项目的各数据说明,如果只想下载的话,请参考以下例子。
fromKorporaimportKorporaKorpora.fetch(corpus_name,force_download=True)
如果您想安装所有提供- 的coppers,请在{}中输入“all”。如果您想重新安装安装已安装的coppers,可以使用{}。
Korpora.fetch('all')Korpora.fetch('all',force_download=True)
Usage
微信平台训练用问答软件
fromKorporaimportKorpora,KoreanChatbotKorpuschatbot_corpus=KoreanChatbotKorpus()# orchatbot_corpus=Korpora.load('korean_chatbot_data')chatbot_corpus.train[0]# LabeledSentencePair(text='12시 땡!', pair='하루가 또 가네요.', label=0)chatbot_corpus.train[0].text# 12시 땡!chatbot_corpus.train[0].pair# 하루가 또 가네요.chatbot_corpus.train[0].label# 0
속성명 | 내용 |
---|
text | 질문 |
pair | 답변 |
label | 일상다반사 0, 이별(부정) 1, 사랑(긍정) 2 |
KcBERT dataset
fromKorporaimportKorpora,KcBERTKorpuskcbert_corpus=KcBERTKorpus()# orkcbert_corpus=Korpora.load("kcbert")kcbert_corpus.train[0]# 우리에게 북한은 꼭 없애야 할 적일뿐
Korean Hate Speech
fromKorporaimportKorpora,KoreanHateSpeechKorpuskorean_hate_speech=KoreanHateSpeechKorpus()# orkorean_hate_speech=Korpora.load('korean_hate_speech')korean_hate_speech.train[0]# KoreanHateSpeechLabeledExample(text='(현재 호텔주인 심정) 아18...', title='"밤새 조문 행렬...', gender_bias='False', bias='others', hate='hate')korean_hate_speech.train[0].text# (현재 호텔주인 심정) 아18...(현재 호텔주인 심정) 아18...korean_hate_speech.train[0].title# "밤새 조문 행렬...korean_hate_speech.train[0].gender_bias# Falsekorean_hate_speech.train[0].bias# otherskorean_hate_speech.train[0].hate# hatekorean_hate_speech.dev[0]# KoreanHateSpeechLabeledExample(text='송중기 시대극은 믿고본다...', title='"\'아스달 연대기\'...', gender_bias='False', bias='none', hate='none')korean_hate_speech.test[0]# SentencePair(text='ㅋㅋㅋㅋ 그래도 조아해주는 팬들 많아서 좋겠다 ㅠㅠ 니들은 온유가 안만져줌 ㅠㅠ', pair='"샤이니 온유, 클럽 강제추행 \'무혐의\' 처분 받았다"')korean_hate_speech.unlabeled[0]# SentencePair(text='"[단독] 지드래곤♥이주연, 제주도 데이트...', pair='"[단독] 지드래곤♥이주연, 제주도 데이트...')
속성명 | 내용 |
---|
text | 뉴스 댓글 |
title/pair | 뉴스 제목 |
gender_bias | 성적 차별 여부(True/False) |
bias | 차별 종류(종교 인종 나이 외모 등) |
hate | 특정 계층 혐오 여부(hate/none) |
《h3》青瓦台国民请愿(2017.08 ~ 2019.03)《eh3》
fromKorporaimportKorpora,KoreanPetitionsKorpuspetitions=KoreanPetitionsKorpus()# orpetitions=Korpora.load('korean_petitions')petitions.train[0]# KoreanPetition(text="안녕하세요. 현재 사대, ...", category='육아/교육', num_agree=88, begin='2017-08-25', end='2017-09-24', title='학교는 ...')petitions.train[0].text# 안녕하세요. 현재 사대, ...petitions.train[0].category# 육아/교육petitions.train[0].num_agree# 88petitions.train[0].begin# 2017-08-25petitions.train[0].end# 2017-09-24petitions.train[0].title# 학교는 ...
속성명 | 내용 |
---|
text | 청원 내용 |
category | 청원 범주 |
num_agree | 청원 동의 수 |
begin | 청원 시작일 |
end | 청원 종료일 |
title | 청원 제목 |
KorNLI
- author: KakaoBrain
- repository: https://github.com/kakaobrain/KorNLUDatasets
- references: Ham, J., Choe, Y. J., Park, K., Choi, I., & Soh, H. (2020). KorNLI and KorSTS: New Benchmark Datasets for Korean Natural Language Understanding. arXiv preprint arXiv:2004.03289.
- size:
- multinli_train: 392,702 examples
- snli_train: 550,152 examples
- xnli_dev: 2,490 examples
- xnli_test: 5,010 examples
- example
fromKorporaimportKorpora,KorNLIKorpuskornli=KorNLIKorpus()# orkornli=Korpora.load('kornli')kornli.multinli_train[0]# LabeledSentencePair(text='개념적으로 크림 스키밍은 제품과 지리라는 두 가지 기본 차원을 가지고 있다.', pair='제품과 지리학은 크림 스키밍을 작동시키는 것이다.', label='neutral')kornli.multinli_train[0].text# 개념적으로 크림 스키밍은 제품과 지리라는 두 가지 기본 차원을 가지고 있다.kornli.multinli_train[0].pair# 제품과 지리학은 크림 스키밍을 작동시키는 것이다.kornli.multinli_train[0].label# neutralkornli.snli_train[0]# LabeledSentencePair(text='말을 탄 사람이 고장난 비행기 위로 뛰어오른다.', pair='한 사람이 경쟁을 위해 말을 훈련시키고 있다.', label='neutral')kornli.xnli_dev[0]# LabeledSentencePair(text='그리고 그가 말했다, "엄마, 저 왔어요."', pair='그는 학교 버스가 그를 내려주자마자 엄마에게 전화를 걸었다.', label='neutral')kornli.xnli_test[0]# LabeledSentencePair(text='글쎄, 나는 그것에 관해 생각조차 하지 않았지만...', pair='나는 그와 다시 이야기하지 않았다.', label='contradiction')
속성명 | 내용 |
---|
text | 문장 |
pair | text와 쌍이 되는 문장 |
label | text, pair 사이의 관계 |
KorSTS
- author: KakaoBrain
- repository: https://github.com/kakaobrain/KorNLUDatasets
- references: Ham, J., Choe, Y. J., Park, K., Choi, I., & Soh, H. (2020). KorNLI and KorSTS: New Benchmark Datasets for Korean Natural Language Understanding. arXiv preprint arXiv:2004.03289.
- size:
- train: 5,749 examples
- dev: 1,500 examples
- test: 1,379 examples
- example
fromKorporaimportKorpora,KorSTSKorpuskorsts=KorSTSKorpus()# orkorsts=Korpora.load('korsts')korsts.train[0]# KorSTSExample(text='비행기가 이륙하고 있다.', pair='비행기가 이륙하고 있다.', label=5.0, genre='main-captions', filename='MSRvid', year='2012test')korsts.train[0].text# 비행기가 이륙하고 있다.korsts.train[0].pair# 비행기가 이륙하고 있다.korsts.train[0].label# 5.0korsts.dev[0]# KorSTSExample(text='안전모를 가진 한 남자가 춤을 추고 있다.', pair='안전모를 쓴 한 남자가 춤을 추고 있다.', label=5.0, genre='main-captions', filename='MSRvid', year='2012test')korsts.test[0]# KorSTSExample(text='한 소녀가 머리를 스타일링하고 있다.', pair='한 소녀가 머리를 빗고 있다.', label=2.5, genre='main-captions', filename='MSRvid', year='2012test')
속성명 | 내용 |
---|
text | 문장 |
pair | text와 쌍이 되는 문장 |
label | text, pair 사이의 관계 |
기타 | 데이터 관련 추가 정보 |
树上的密钥文本
- author: lovit@github
- repository: https://github.com/lovit/namuwikitext
- size:
- train: 38,278,040 lines (500,104 docs, 5.3G)
- dev: 197,723 lines (2,525 docs, 28M)
- test: 193,614 lines (2,525 docs, 29M)
- example
fromKorporaimportKorpora,NamuwikiTextKorpusnamuwiki=NamuwikiTextKorpus()# ornamuwiki=Korpora.load('namuwikitext')namuwiki.train[0]# SentencePair(text='상위 문서: 아스날 FC\n2009-10 시즌 2011-12 시즌\n2010 -11 시즌...', pair=' = 아스날 FC/2010-11 시즌 =')namuwiki.train[0].text# 상위 문서: 아스날 FC\n2009-10 시즌 2011-12 시즌\n2010 -11 시즌...namuwiki.train[0].pair# = 아스날 FC/2010-11 시즌 =namuwiki.dev[0]# SentencePair(text='상위 항목: 축구 관련 인물, 외국인 선수/역대 프로축구\n...', pair=' = 소말리아(축구선수) =')namuwiki.test[0]# SentencePair(text='', pair=' = 덴덴타운 =')
《h3》NAVER,昌原一起的NLP Challing(NER)《eh3》
fromKorporaimportKorpora,NaverChangwonNERKorpusner=NaverChangwonNERKorpus()# orner=Korpora.load('naver_changwon_ner')ner.train[0]# WordTag(text='비토리오 양일 만에 영사관 감호 용퇴, 항룡 압력설 의심만 가율 ', words=['비토리오', '양일', '만에', '영사관', '감호', '용퇴,', '항룡', '압력설', '의심만', '가율'], tags=['PER_B', 'DAT_B', '-', 'ORG_B', 'CVL_B', '-', '-', '-', '-', '-'])ner.train[0].text# 비토리오 양일 만에 영사관 감호 용퇴, 항룡 압력설 의심만 가율 ner.train[0].words# ['비토리오', '양일', '만에', '영사관', '감호', '용퇴,', '항룡', '압력설', '의심만', '가율']ner.train[0].tags# ['PER_B', 'DAT_B', '-', 'ORG_B', 'CVL_B', '-', '-', '-', '-', '-']
속성명 | 내용 |
---|
text | words를 공백으로 이어 붙인 string |
words | 단어 시퀀스 |
tags | words에 대응하는 개체명 태그 시퀀스 |
Naver sentiment movie corpus v1.0
fromKorporaimportKorpora,NSMCKorpusnsmc=NSMCKorpus()# ornsmc=Korpora.load('nsmc')nsmc.train[0]# LabeledSentence(text='아 더빙.. 진짜 짜증나네요 목소리', label=0)nsmc.train[0].text# 아 더빙.. 진짜 짜증나네요 목소리nsmc.train[0].label# 0nsmc.test[0]# LabeledSentence(text='굳 ㅋ', label=1)
속성명 | 내용 |
---|
text | 영화 리뷰 댓글 |
label | 영화에 대한 평가 (긍정 1, 부정 0) |
韩语提问对(Paired Question v.2)
fromKorporaimportKorpora,QuestionPairKorpusquestion_pair=QuestionPairKorpus()# orquestion_pair=Korpora.load('question_pair')question_pair.train[0]# LabeledSentencePair(text='1000일 만난 여자친구와 이별', pair='10년 연예의끝', label='1')question_pair.train[0].text# 1000일 만난 여자친구와 이별question_pair.train[0].pair# 10년 연예의끝question_pair.train[0].label# 1question_pair.test[0]# LabeledSentencePair(text='21살의 사랑에 대해', pair='사랑을 노력한다는게 말이 되나요?', label='1')
속성명 | 내용 |
---|
text | 문장 |
pair | text와 쌍을 이루는 문장 |
label | text와 pair가 같은 질문이면 0, 다른 질문이면 1 |
Package License
- Korpora Lisense是Creative Commons License(CCL)4.0的CC-BY。这个许可证仅限于Korpora软件包及其附属物。
- 用户有以下权利。
- 共享:可自由复制、分发、展示、演出及公共发送(包括格式变更)等。
- 变更:Remix,变形,可制作第二次作品。以盈利为目的也可以使用。
- 用户有以下义务。遵守以下义务,以上权利有效。
- 作者表示:应该显示使用Korpora的信息。
- 禁止追加限制:用户不能在利用Korpora的著作中附加比{a16}更严格的许可。
- 特别需要注意的是,与Korpora软件包的许可证不同,根据数据不同,许可证将另行适用。在使用自己要使用的数据的许可证是什么内容之前一定要确认!
欢迎加入QQ群-->: 979659372
推荐PyPI第三方库