kakaotalk消息导出文件的预处理器

kakaotalk-msg-preprocessor的Python项目详细描述


kakaotalk_msg_preprocessor

通过

Kakaotalk聊天室대화 내보내기生成的文件中的信息全部处理的库。

主要功能如下。

  • parse:将export的txt文件以包含多种信息(dict)的list进行分析。
    • 各信息信息是将发送信息的时间(datetime)、发送信息的人(user name)、信息文本(text)带到key的dictionary。
    • [{'datetime': datetime.datetime(2020, 6, 28, 1, 1), 'user_name': '김한길', 'text': '사진'}, {'datetime': datetime.datetime(2020, 8, 11, 12, 3), 'user_name': '김한길', 'text': 'https://www.youtube.com'}]
  • url_msg_extract:只提取包含URL的信息,返回URL和包含信息的list。
    • [{'datetime': datetime.datetime(2020, 8, 11, 12, 3), 'user_name': '김한길', 'url': 'https://www.youtube.com'}]

Guide

Install

pip install kakaotalk_msg_tokenizer

Usage

importkakaotalk_msg_preprocessor

Kakao Talk信息挖掘

# get the device type and language of kakaotalk_export_filefile_type=kakaotalk_msg_preprocessor.check_export_file_type(file_path)print(file_type)#  Parsing the text from a kaotalk_export_filemessages=kakaotalk_msg_preprocessor.parse(file_type,file_path)print(messages)

示例结果

window_ko
[{'datetime': datetime.datetime(2020, 6, 28, 1, 1), 'user_name': '김한길', 'text': '사진'}, {'datetime': datetime.datetime(2020, 6, 28, 1, 3), 'user_name': '김한길', 'text': '공부하기'}, 
{'datetime': datetime.datetime(2020, 8, 11, 2, 41), 'user_name': '김한길', 'text': '화 19:30-22:30\n\n\n자유석권(선착순)\n오후 6시 녹화장 앞 번호표대로 줄서기, 6시 50분부터 입장\n- 번호표 배부 : 녹화일 9:00 ~ 18:20까지 (입장순서가 부여된 방청권 선착순 배부)\n- 입장시간: 18시까지 녹화장 앞에서 번호표대로 줄서기(번호표 지참), 18:50부터 입장\n- 번호표 배부는 오후 6시 20분에 마감. 마감 이후에 오신 분들은 별도로 통제합니다'}, 
{'datetime': datetime.datetime(2020, 8, 11, 12, 3), 'user_name': '김한길', 'text': 'https://www.youtube.com'}]

Kakao Talk信息中提取URL

url_messages=kakaotalk_msg_preprocessor.url_msg_extract(file_type,messages)print(url_messages)

示例结果

[{'datetime': datetime.datetime(2020, 8, 11, 12, 3), 'user_name': '김한길', 'url': 'https://www.youtube.com'}]
支持export文件类型

Kakaotalk根据Kakaotalk应用程序的运行环境,将不同形式的txt文件export。

目前确认正常工作的环境如下。

  • 视窗(OS语言:韩文)
  • 安卓(OS语言:韩文)
  • 安卓(OS语言:英语)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何从通知中获取图像?   java按住按钮将循环一个动作,直到它被释放   JavaJavassist:如何将动态生成的类添加到特定的包中?   java我需要获取一个字符串并输出字符串中出现最多的单词   java合并排序堆栈溢出错误   java如何使用spring boot配置hibernate   Android中带选择器的Java TCP服务器NIO   java对于长度急剧变化的输入,什么是最佳的StringBuffer初始容量?   java SpringBoot:REST endpint中@RequestParam参数的自定义验证   JavaJPaQuery。fetchResults()已弃用,应如何替换它?   JavaJNA结构创建带来麻烦   java创建只包含响应中某些元素的POJO   java巨大的Perm Gen与应用程序大小相比,是否正常?   JavalibgdxMoveToAction。将setPosition()设置为负坐标,以将演员移出舞台