可以在不下载文件的情况下读取和解析网站上链接的.docx文件吗(使用Java、Python或其他语言)?
我想写一个程序,能够解析在线的 .docx 文件,然后生成一个 XML 文档。我知道(或者我觉得我知道)浏览器需要插件才能在浏览器中查看 .docx 文件,但我对插件不太了解,也不知道它们是怎么工作的。在 Notepad++ 中查看 .docx 文件后,我发现自己无法解析那些二进制数据。那么,有没有办法在不下载和保存文件到我电脑上的情况下,模拟打开 .docx 文件呢?我想知道有没有任何语言或库可以做到这一点。
我的问题主要是关于如何在不下载文件的情况下打开它,而不是实际解析文件,因为我已经研究过 Apache POI API 来解析 Java 中的文档。
2 个回答
-1
虽然上面的回答在技术上是正确的,但我认为你问的其实是“屏幕抓取”。你可以从这里开始了解。
4
让我来简单解释一下。
如果你能看到这个网页,那就说明你已经下载了它。你正在“下载”这个网页,以便你的浏览器能够显示它。你实际上是在“下载”一个指向文档的链接,这个链接告诉你有一个文档存在。你必须下载这个文档,才能查看它。
没错,你必须下载它。
下载文件就是从远程服务器获取它。
当然,你不一定要把它“写入”你的硬盘。你可以下载它并把它存储在内存中,然后直接在内存中处理它。
一旦你打开了连接,你就会得到一个InputStream
对象来读取字节。你可以把这个对象传给Apache POI库来读取文件。