kakaotalk消息导出文件的预处理器
kakaotalk-msg-preprocessor的Python项目详细描述
kakaotalk_msg_preprocessor
通过Kakaotalk聊天室대화 내보내기
生成的文件中的信息全部处理的库。
主要功能如下。
parse
:将export的txt文件以包含多种信息(dict)的list进行分析。- 各信息信息是将发送信息的时间(datetime)、发送信息的人(user name)、信息文本(text)带到key的dictionary。
[{'datetime': datetime.datetime(2020, 6, 28, 1, 1), 'user_name': '김한길', 'text': '사진'}, {'datetime': datetime.datetime(2020, 8, 11, 12, 3), 'user_name': '김한길', 'text': 'https://www.youtube.com'}]
url_msg_extract
:只提取包含URL的信息,返回URL和包含信息的list。[{'datetime': datetime.datetime(2020, 8, 11, 12, 3), 'user_name': '김한길', 'url': 'https://www.youtube.com'}]
Guide
Install
pip install kakaotalk_msg_tokenizer
Usage
importkakaotalk_msg_preprocessor
Kakao Talk信息挖掘
# get the device type and language of kakaotalk_export_filefile_type=kakaotalk_msg_preprocessor.check_export_file_type(file_path)print(file_type)# Parsing the text from a kaotalk_export_filemessages=kakaotalk_msg_preprocessor.parse(file_type,file_path)print(messages)
示例结果
window_ko
[{'datetime': datetime.datetime(2020, 6, 28, 1, 1), 'user_name': '김한길', 'text': '사진'}, {'datetime': datetime.datetime(2020, 6, 28, 1, 3), 'user_name': '김한길', 'text': '공부하기'},
{'datetime': datetime.datetime(2020, 8, 11, 2, 41), 'user_name': '김한길', 'text': '화 19:30-22:30\n\n\n자유석권(선착순)\n오후 6시 녹화장 앞 번호표대로 줄서기, 6시 50분부터 입장\n- 번호표 배부 : 녹화일 9:00 ~ 18:20까지 (입장순서가 부여된 방청권 선착순 배부)\n- 입장시간: 18시까지 녹화장 앞에서 번호표대로 줄서기(번호표 지참), 18:50부터 입장\n- 번호표 배부는 오후 6시 20분에 마감. 마감 이후에 오신 분들은 별도로 통제합니다'},
{'datetime': datetime.datetime(2020, 8, 11, 12, 3), 'user_name': '김한길', 'text': 'https://www.youtube.com'}]
从Kakao Talk信息中提取URL
url_messages=kakaotalk_msg_preprocessor.url_msg_extract(file_type,messages)print(url_messages)
示例结果
[{'datetime': datetime.datetime(2020, 8, 11, 12, 3), 'user_name': '김한길', 'url': 'https://www.youtube.com'}]
支持export文件类型Kakaotalk根据Kakaotalk应用程序的运行环境,将不同形式的txt文件export。
目前确认正常工作的环境如下。
- 视窗(OS语言:韩文)
- 安卓(OS语言:韩文)
- 安卓(OS语言:英语)
- 项目
标签: