基于单词及其加权概率从矩阵生成文本语料库

chewbacca darth han leia luke obi chewbacca 0 0 0 0 0.66 0.33 darth 0 0 0 1 0 0 han 0 0 0 0 1 0 leia 0 0 0 0 1 0 luke 0 0 0 0 0 0 obi 0 0 0 0 0 0

1条回答

网友

1楼 · 发布于 2024-05-31 10:59:06

如果您想创建一个Bigram语料库：

#remove rows that sum to 0
df = df.loc[df.sum(axis=1) != 0]
#normalizing row sum to 1
df = df.div(df.sum(axis=1), axis=0).fillna(0)
#number of bigrams you wish to generate for each row, you can change it by row as well
num_bigrams_per_word = 3
df['bigrams'] = df.apply(lambda x:[x.name+' '+s for s in np.random.choice(df.columns,p=x.values,size=num_bigrams_per_word)], axis=1)
corpus = df.bigrams.sum()

示例输出：

['chewbacca obi', 'chewbacca obi', 'chewbacca luke', 'darth leia', 'darth leia', 'darth leia', 'han luke', 'han luke', 'han luke', 'leia luke', 'leia luke', 'leia luke']

编程相关推荐

即使在onsaveInstanceState和onRestoreInstanceState之后，java FileUri在相机捕获后也会显示null
java运行时。getRuntime（）。exec（）：在mkdir之后执行时，执行touch会创建一个目录
java Log4j RollingHandomAccessFile中的元素或属性无效
java Spring集成InboundChannelAdapter，用于在线读取大型文件
100%无故障分支覆盖率的java测试用例？
java JTable不呈现
如何计算排序链表（数字）的频率
java Map Reduce:Wordcount什么都不做
java对独立的arraylist元素执行算术运算
在Java中输出到文本文件

相关问题更多 >

编程相关推荐

热门问题

热门文章

基于单词及其加权概率从矩阵生成文本语料库

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >