使用 Apache 的 PDFBox 解析 PDF 文档,目前已经发展到 3.0 版本,和 2.x 有很大的区别,迁移说明请参阅:https://pdfbox.apache.org/3.0/migration.html

引入依赖:

pom.xml
1
2
3
4
5
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>3.0.4</version>
</dependency>

编码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import org.apache.pdfbox.Loader;
import org.apache.pdfbox.io.RandomAccessReadBufferedFile;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

@Test
public void pdf_content_parser_test() throws IOException {
File file = new File("/path/to/xxx.pdf");
try (
PDDocument document = Loader.loadPDF(new RandomAccessReadBufferedFile(file));
){
PDFTextStripper stripper = new PDFTextStripper();
String text = stripper.getText(document);

System.out.println(text);
}
}

本站由 江湖浪子 使用 Stellar 1.29.1 主题创建。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。