Python中文
首页
教程
问答
标签
搜索
登录
注册
PDF提取中的空白和奇怪的单词解释
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>使用下面的代码片段,我试图从<a href="http://dl.dropbox.com/u/6160029/Aggarwal%20et%20al.%20-%202008%20-%20Asynchronous%20decoding%20of%20dexterous%20finger%20movements%20using%20M1%20neurons.pdf" rel="noreferrer">this</a>PDF文件中提取文本数据。</p> <pre><code>import pyPdf def get_text(path): # Load PDF into pyPDF pdf = pyPdf.PdfFileReader(file(path, "rb")) # Iterate pages content = "" for i in range(0, pdf.getNumPages()): content += pdf.getPage(i).extractText() + "\n" # Extract text from page and add to content # Collapse whitespace content = " ".join(content.replace(u"\xa0", " ").strip().split()) return content </code></pre> <p>然而,<a href="http://paste.ubuntu.com/1047657/" rel="noreferrer">output I obtain</a>在大多数单词之间没有空格。这使得对文本执行自然语言处理变得困难(这里是我的最终目标)。</p> <p>此外,“手指”一词中的“fi”一直被解释为其他东西。这是相当有问题的,因为这篇论文是关于手指的自发运动。。。</p> <p>有人知道为什么会这样吗?我都不知道从哪里开始!</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>PDF文件没有可打印的空格字符,它只是将单词放置在需要的位置。您需要做额外的工作来计算空格,可能是假设多个字符的运行是单词,并在它们之间放置空格。</p> <p>如果您可以在PDF阅读器中选择文本,并使空格正确显示,那么至少您知道有足够的信息来重建文本。</p> <p>“fi”是一个排版连字,显示为单个字符。你可能会发现这也发生在“fl”、“ffi”和“ffl”上。您可以使用字符串替换用“fi”替换fi连字。</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何重塑数组、迭代列的所有行并将重塑后的数组分配给新列?Python/Pandas/Numpy
5 回答
如何重塑数组的形状?
6 回答
如何重塑文本数据以适应keras的LSTM模型
3 回答
如何重塑未对齐的数据集,并使用numpy丢弃剩余数据?
10 回答
如何重塑此数据以使用绘图
4 回答
如何重塑此数据帧?
7 回答
如何重塑此数据集以适应RNN
10 回答
如何重塑没有列的数组?
4 回答
如何重塑测试数据帧,使其维数与训练和预测工作中使用的维数相同?
2 回答
如何重塑系列以在StandardScaler中使用它
10 回答
如何重塑线性回归的数据
3 回答
如何重塑线性回归的数据?
5 回答
如何重塑表格?
4 回答
如何重塑要堆叠的重复宽数据帧?
5 回答
如何重塑输入以放入二维层?
7 回答
如何重塑输入神经网络的三通道数据集
4 回答
如何重塑这个numpy数组
1 回答
如何重塑这个numpy数组以排除“额外维度”?
7 回答
如何重塑这个numpy阵列?
8 回答
如何重塑这个数据帧
6 回答