有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

带有Lucene的java索引单个XML文件

我正在编写一个Java应用程序,想用Lucene索引一个Xml文件,以便搜索具有给定目标的药物。文件大小为400MB,包含8000多个药物条目

<drug type="biotech" created="2005-06-13" updated="2015-11-27">
    <drugbank-id primary="true">DB00001</drugbank-id>
    <drugbank-id>BIOD00024</drugbank-id>
    <drugbank-id>BTD00024</drugbank-id>
    <name>Lepirudin</name>
    ....
    <targets>
        <target position="1">
            <id>BE0000767</id>
            <name>Epidermal growth factor receptor</name>
            ....
        </target>
        ....
    </targets>
</drug>
<drug>
....
</drug>

如何索引此文件,使一个药物条目成为一个文档? 如果有人有一些关于如何索引此Xml的有用链接/资源或提示,请告诉我:)


共 (1) 个答案

  1. # 1 楼答案

    最灵活的策略通常是通过一个小型java应用程序just use SolrJ读取文件并将其转换为合适的格式,以便在Solr中编制索引。这样,在Solr接收某些字段之前,您可以轻松地对其进行预处理

    另一个选择是use XSL to transform the XML file into something that Solr understands。这可以在服务器端(与链接的XSLTUpdateRequestHandler一样)或客户端(将XML文档转换为更新请求并提交给标准请求处理程序)使用