有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

java使PDF文件上的问号可读

我已经解析了一个带有URL的网页,它基本上是一个强制下载页面上PDF的页面。使用Jsoup中的ignorecontenttype()方法,我成功地显示了一大堆文本,但它包含黑色椭圆的问号,如下所示: 这是我的密码:

org.jsoup.nodes.Document document1 = null;
Connection.Response downloadPopUp = Jsoup.connect("https://www.capitaliq.com/ciqdotnet/login.aspx?redirect=%2fCIQDotNet%2fFilings%2fDocumentRedirector.axd%3fversionId%3d" + ID + "%26type%3dpdf%26forcedownload%3dtrue/login.php").userAgent("Chrome/44.0.2403.125")
     .method(Connection.Method.GET)
     .timeout(1000000)
     .ignoreContentType(true)
     .execute();
document1 = Jsoup.connect("https://www.capitaliq.com/ciqdotnet/login.aspx?redirect=%2fCIQDotNet%2fFilings%2fDocumentRedirector.axd%3fversionId%3d" + ID + "%26type%3dpdf%26forcedownload%3dtrue").userAgent("Chrome/44.0.2403.125")
     .data("cookieexists", "false")
     .data("myLogin$myUsername", "MyEmail")
     .data("myLogin$myPassword", "MyPassword")
     .data("myLogin$myLoginButton.x", "22")
     .data("myLogin$myLoginButton.y", "8")
     .data("__VIEWSTATE", viewState)
     .data("__EVENTVALIDATION", eventValidation)
     .data("myLogin$myEnableAutoLogin", "on")
     .timeout(1000000)
     .cookies(downloadPopUp.cookies())

<html>
<head>
</head>
<body>

%PDF-1.3%���� 10 obj<&燃气轮机;endobj 2 0 obj<&燃气轮机;endobj 3 0 obj<&燃气轮机;x流��ctem�6۶mWR���mgǶmWl�vŶ��M���Gݧ{����}O\�s�������J�ƶ�1['zf��D∗����; 9�������F�� �HL$0"ba!b���!��sw075s"�RQT�����/�?"D������t47�!��&gt;��l�6N��cE%��� @dbn ��א�'��U!� ��� �̍��͍6�j"[�o�?"#[c�Bsd�vBБȀ��d��p3��â#�8X�;:~����L L��s�dKdncd�L���T���}��9�~KX���M���휈��ʋ����NfN��v4�fٚ| K�9���啊,,���N�6�DN�o�-�!�����������7������pv4�1�/���VG�o�o���_q������Y��K��_R�郹�#�ʄ���ۦ�ӷmSs�D��Ė�������v��s8�+AT�� ��ƶ6V�D�FY[��Q�Ϫ�@��V�������������k�_#K�9�����C�9[Y�X7��/���������������"������#H:|w�����b�N����Q��

有人知道如何使这个HTML/PDF组合可读吗


共 (1) 个答案

  1. # 1 楼答案

    将“Content-Type:application/pdf”放入html标题中(在发送任何数据之前)。 根本没有HTML标记