.net环境下从PDF文档中抽取Text文本的一些方法汇总

王朝学院·作者佚名 2016-08-27

1.PDFBox的IKVM版本：据我所知，目前只有PDFBox的IKVM版本能比较好地从PDF中提取文本，PDFBOX更多信息请访问http://www.pdbox.org，关于其应用实例，可以参考CodePRoject上的：http://www.codeproject.com/csharp/pdf2text.asp;

2.使用Acrobat的SDK（这个价格可不便宜）；

3.XPDF：如果条件允许可以考虑使用XPDF的PDFToText，XPDF是用C语言编写的PDF解析库，并提供多个工具，开放源代码(如果你熟悉C和dotnet，也许你可以在dotnet环境下编译为你所用），但是基于GUN协议，如果商业应用，需要money；更多信息访问：http://www.foolabs.com/xpdf

4.Ghostscript：另外一个可以考虑的是Ghostscript，官方网址是：www.cs.wisc.edu/~ghost/，抽取Text的方法，google下ps2txt;

5.其它一些相关资源：

http://www.mj10777.de/NETFramework/Desktop/SharpZipLib/PdfToTxt/index.htm

Extract Text from PDF File：http://www.codeproject.com/Purgatory/DotNetPDF.asp?df=100&forumid=104443

Code to extract plain text from a PDF file：http://www.codeproject.com/cpp/ExtractPDFText.asp?df=100&forumid=47947

顺便说下，很多朋友询问iTextSharp中抽取文本的方法，这里说下，就目前而言，iTextSharp还不支持这个功能，也无法抽取图片，当然我通过摸索也只能抽取最简单格式的图片（jpeg），其它的还在研究怎么处理。