在内裤里找到居里的朋友。
friendly_brief的Python项目详细描述
friendly_brief从csv文件解析简短标题并发出新的csv文件 有一些关于简报的推论。简短的标题可能是这样的。
- Amicus Brief, BRIEF OF L. S. LEE, INC. AMICUS CURIAE ON BEHALF OF PETITIONER, December 6, 2000, 2000 U.S. S. Ct. Briefs LEXIS 836
对于这样的标题,friendly_brief尝试猜测
- 简要编号
- 法庭之友
- 朋友的姿势
如何使用
从pip安装。
pip3 install friendly_brief
在csv文件上运行。文件必须包含一个列,其中包含 你关心的简短标题,标题必须在名为 “简短”。csv文件中也可以包含任何您想要的内容。
friendly-brief briefs.csv
它还可以通过stdin接收csv文件。
cat briefs.csv | friendly-brief
生成的csv文件将写入stdout。
工作原理
让我们讨论一下每个推论是如何得出的。
简要编号
我们把第一组完整的数字作为简短的数字。 例如,下面的简短标题以“1”开头,然后是“9”, 然后是一个“.”。
- Brief, BRIEF AMICUS CURIAE OF SOCIAL SCIENCE AND COMPARATIVE LAW SCHOLARS IN SUPPORT OF NEITHER PARTY, June 1, 2001, 2001 U.S. S. Ct. Briefs LEXIS 718
当我们注意到非数字“.”时,我们会停止,并使用“19”作为简短的数字。
姿势
姿势是根据某些短语的存在来猜测的。 有五种姿势,下面是它们对应的短语
- 姿势0
- “任何一方”
- 姿势1
- “请愿人”、“上诉人”和“撤销”
- 姿势2
- “被申请人”、“被上诉人”、“确认书”
- 姿势3
- “原告”
- 姿势4
- “被告”
这个程序寻找所有这些短语的存在。 如果结果是明确的,则生成的电子表格包含 与姿势相对应的数字。
如果没有姿势短语或者 出现了与不同姿势对应的短语。 例如,我会考虑一个简短的标题,其中包含 “原告”和“被告”要模棱两可。在下列情况下 模糊不清,姿势细胞是空白的。
阿米基
整个过程中最混乱的部分是对朋友的猜测。 我甚至不知道它在做什么,但这里有一些概念。
很早的时候,日期和之后的一切都被删除了。例如,这个
- Amicus Brief, BRIEF OF SOCIAL AND ORGANIZATIONAL PSYCHOLOGISTS AS AMICI CURIAE SUPPORTING RESPONDENTS, August 13, 2012, 2012 U.S. S. Ct. Briefs LEXIS 3223
变成这个。
- Amicus Brief, BRIEF OF SOCIAL AND ORGANIZATIONAL PSYCHOLOGISTS AS AMICI CURIAE SUPPORTING RESPONDENTS
简短的标题在逗号、分号等处被分成几部分 还有“和”这个词,所以我们最终得到了这样的结果。
- 友邦简介
- 法庭之友支持受访者的社会和组织心理学家简介
那些看起来不像阿米的名字的东西会被删除。这包括 像“amici”、“amicus”、“supporting”、“as”和“brief”这样的词 下面是他的朋友。
SOCIAL AND ORGANIZATIONAL PSYCHOLOGISTS
为了处理后缀(“inc”,“llc”,“jr”)做了很多奇怪的事情, 非串行逗号(“第一、第二和第三”),奇怪的字符编码, 简短标题中的拼写错误和其他拼写错误。