tikaapp.jar包是一款可以轻松提取文本正文工具,它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面,提供了便利的扩展API,用来丰富其对第三方文件格式的支持,感兴趣的朋友可以下载使用!
Tika是一个用于文本解释的框架,其本身并不提供任何的库用于解释文本,而是调用各种各样的库,如POI,PDFBox等。使用Tika,可以提取文件中的作者、标题、创建时间、正文等内容,相比于Java.io自带的一些功能。
1.进入Tika所有的目录,运行以下命令:java -jar "tika-app-1.5 (1).jar" -g
2.Tika的图形界面被打开,然后找开File-openURL:
3.点击确认后,即返回解释结果。默认情况下显示的是文本的元信息
4.可以通过view菜单中的选项,分别查看 metadata, formatted text, plain text, main content, stuctured text等信息。