脚本将信息从.txt提取到.csv以在中使用

*** Type:status Origin: @z_rose yes Text: yes URL: ID: 95482459084427264 Time: Mon Jul 25 08:16:06 CDT 2011 RetCount: 0 Favorite: false MentionedEntities: 20776334 Hashtags: *** *** Type:status Origin: @aaronesilvers text Text: text URL: ID: 95481610861953024 Time: Mon Jul 25 08:12:44 CDT 2011 RetCount: 0 Favorite: false MentionedEntities: 2226621 Hashtags: *** *** Type:status Origin: @z_rose text Text: text and stuff URL: ID: 95480980026040320 Time: Mon Jul 25 08:10:14 CDT 2011 RetCount: 0 Favorite: false MentionedEntities: 20776334 Hashtags: ***

User Type Origin Text URL ID Time RetCount Favorite MentionedEntities Hashtags 4012987 status @z_rose yes yes Null 95482459084427264 Mon Jul 25 08:16:06 CDT 2011 0 false 20776334 Null 4012987 status @aaronsilvers text text Null 95481610861953024 Mon Jul 25 08:12:44 CDT 2011 0 false 2226621 Null

2条回答

网友

1楼 · 编辑于 2024-06-06 20:11:30

我建议您在输入文件中使用逗号（而不是空格）作为分隔符，尤其是因为有些输入值中嵌入了空格。如果你和熊猫一起工作，那么看在上帝的份上，至少要学习Python的基本知识。你知道吗

vars = ['User', 'Type', 'Origin', 'Text', 'URL', 'ID', 'Time', \
    'RetCount', 'Favorite', 'MentionedEntities', 'Hashtags']

user = '12345'
userfileName = '{}.txt'.format(user)

items = {}
for var in vars:
    items[var]=var
print (','.join([items[var] for var in vars]))

first=True
with open(userfileName) as userfile:
    for line in userfile:
        if line.startswith('*'):
            continue
        if line.startswith('Type'):
            if first:
                first=False
            else:
                print (','.join([items[var] for var in vars]))
            items = {}
            for var in vars:
                items[var]=''
            items['User']=user
        p=line.find(':')
        itemName=line[:p]
        itemValue=line[1+p:].strip()
        items[itemName]=itemValue

print (','.join([items[var] for var in vars]))

网友

2楼 · 编辑于 2024-06-06 20:11:30

假设文件有常规的12行块，我建议使用以下字典构建方法：

infile = open(....)

records = []

# Get one 12-line block and split the lines, when possible
block = [infile.readline().strip().split(':', 1) for i in range(12)]

# Repean as needed
while block[0][0]:
    # Convert the non-star lines to a dictionary
    records.append(dict(x for x in block if len(x)==2))
    block = [infile.readline().strip().split(':', 1) for i in range(12)]

data = pd.DataFrame(records)
print(data.columns)
# Index(['Favorite', 'Hashtags', 'ID', 'MentionedEntities', 
#        'Origin', 'RetCount','Text', 'Time', 'Type', 'URL'],
# dtype='object')

相关问题更多 >

编程相关推荐

热门问题

热门文章