tesseract-ocr识别中文扫描图片实例讲解

xitong

浏览: 6204802 次

最近访客更多访客>>

gegewuqin9

summer_1988

u012363178

devcang

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (7329)

社区版块

存档分类

2013-05 ( 45)
2013-04 ( 98)
2013-03 ( 45)
更多存档...

当我浏览http://code.google.com/p/tesseract-ocr并下载了几个文件下来之后顿时感到一头雾水，不知该如何下手。网上看到有人在linux操作系统下的实现，

如：

利用开源程序（ImageMagick+tesseract-ocr）实现图像验证码识别

但却很少看到在windows下的相关文章介绍。

接下来我将一步步讲述如何采用tesseract-ocr识别含有中文的图片。

1、下载tesseract-ocr（注意3.0版本之后才支持中文的识别）

tesseract-ocr-setup-3.00.exe

chi_sim.traineddata.gz

2、安装tesseract-ocr

解压缩，双击tesseract-ocr-setup-3.00.exe即可根据提示一步步安装，本人安装的目录是：D:/Program Files/Tesseract-OCR

在该目录下可看到tesseract.exe文件，这就是我们后面程序中会调用到的运行进程。

3、自定义安装语言包

D:/Program Files/Tesseract-OCR目录下找到/tessdata目录，其是用来存放语言包，可把chi_sim.traineddata.gz解压缩之后的chi_sim.traineddata文件复制到该目录下即可。

4、编写测试代码

在编写代码之前下载两个jar包：jai_imageio-1.1-alpha.jar、swingx-1.0.jar，可在www.findjar.com网站上去下载。

[java]view
 plaincopy

importjava.awt.image.BufferedImage;

importjava.io.File;

importjava.io.IOException;

importjava.util.Iterator;

importjava.util.Locale;

importjavax.imageio.IIOImage;

importjavax.imageio.ImageIO;

importjavax.imageio.ImageReader;

importjavax.imageio.ImageWriteParam;

importjavax.imageio.ImageWriter;

importjavax.imageio.metadata.IIOMetadata;

importjavax.imageio.stream.ImageInputStream;

importjavax.imageio.stream.ImageOutputStream;

importcom.sun.media.imageio.plugins.tiff.TIFFImageWriteParam;

publicclassImageIOHelper{

/**

*图片文件转换为tif格式

*@paramimageFile文件路径

*@paramimageFormat文件扩展名

*@return

*/

publicstaticFilecreateImage(FileimageFile,StringimageFormat){

FiletempFile=null;

try{

Iterator<ImageReader>readers=ImageIO.getImageReadersByFormatName(imageFormat);

ImageReaderreader=readers.next();

ImageInputStreamiis=ImageIO.createImageInputStream(imageFile);

reader.setInput(iis);

//Readthestreammetadata

IIOMetadatastreamMetadata=reader.getStreamMetadata();

//SetupthewriteParam

TIFFImageWriteParamtiffWriteParam=newTIFFImageWriteParam(Locale.CHINESE);

tiffWriteParam.setCompressionMode(ImageWriteParam.MODE_DISABLED);

//Gettifwriterandsetoutputtofile

Iterator<ImageWriter>writers=ImageIO.getImageWritersByFormatName("tiff");

ImageWriterwriter=writers.next();

BufferedImagebi=reader.read(0);

IIOImageimage=newIIOImage(bi,null,reader.getImageMetadata(0));

tempFile=tempImageFile(imageFile);

ImageOutputStreamios=ImageIO.createImageOutputStream(tempFile);

writer.setOutput(ios);

writer.write(streamMetadata,image,tiffWriteParam);

ios.close();

writer.dispose();

reader.dispose();

}catch(IOExceptione){

e.printStackTrace();

}

returntempFile;

}

privatestaticFiletempImageFile(FileimageFile){

Stringpath=imageFile.getPath();

StringBufferstrB=newStringBuffer(path);

strB.insert(path.lastIndexOf('.'),0);

returnnewFile(strB.toString().replaceFirst("(?<=//.)(//w+)$","tif"));

}

}

[java]view
 plaincopy

importjava.io.BufferedReader;

importjava.io.File;

importjava.io.FileInputStream;

importjava.io.InputStreamReader;

importjava.util.ArrayList;

importjava.util.List;

importorg.jdesktop.swingx.util.OS;

publicclassOCR{

privatefinalStringLANG_OPTION="-l";//英文字母小写l，并非数字1

privatefinalStringEOL=System.getProperty("line.separator");

privateStringtessPath="D://ProgramFiles//Tesseract-OCR";

//privateStringtessPath=newFile("tesseract").getAbsolutePath();

publicStringrecognizeText(FileimageFile,StringimageFormat)throwsException{

FiletempImage=ImageIOHelper.createImage(imageFile,imageFormat);

FileoutputFile=newFile(imageFile.getParentFile(),"output");

StringBufferstrB=newStringBuffer();

List<String>cmd=newArrayList<String>();

if(OS.isWindowsXP()){

cmd.add(tessPath+"//tesseract");

}elseif(OS.isLinux()){

cmd.add("tesseract");

}else{

cmd.add(tessPath+"//tesseract");

}

cmd.add("");

cmd.add(outputFile.getName());

cmd.add(LANG_OPTION);

cmd.add("chi_sim");

//cmd.add("eng");

ProcessBuilderpb=newProcessBuilder();

pb.directory(imageFile.getParentFile());

cmd.set(1,tempImage.getName());

pb.command(cmd);

pb.redirectErrorStream(true);

Processprocess=pb.start();

//tesseract.exe1.jpg1-lchi_sim

intw=process.waitFor();

//删除临时正在工作文件

tempImage.delete();

if(w==0){

BufferedReaderin=newBufferedReader(newInputStreamReader(newFileInputStream(outputFile.getAbsolutePath()+".txt"),"UTF-8"));

Stringstr;

while((str=in.readLine())!=null){

strB.append(str).append(EOL);

}

in.close();

}else{

Stringmsg;

switch(w){

case1:

msg="Errorsaccessingfiles.Theremaybespacesinyourimage'sfilename.";

break;

case29:

msg="Cannotrecongnizetheimageoritsselectedregion.";

break;

case31:

msg="Unsupportedimageformat.";

break;

default:

msg="Errorsoccurred.";

}

tempImage.delete();

thrownewRuntimeException(msg);

}

newFile(outputFile.getAbsolutePath()+".txt").delete();

returnstrB.toString();

}

}

[java]view
 plaincopy

importjava.io.File;

importjava.io.IOException;

publicclassTestOCR{

/**

*@paramargs

*/

publicstaticvoidmain(String[]args){

Stringpath="d://test//chi.jpg";

try{

StringvalCode=newOCR().recognizeText(newFile(path),"jpg");

System.out.println(valCode);

}catch(IOExceptione){

e.printStackTrace();

}catch(Exceptione){

e.printStackTrace();

}

}

}

通过本人的测试对于中文的识别虽然不是很完美，至少其可支持了，但最大的缺点就是速度慢。中文本来就很复杂，而且其语言包就达到50多M，和英文语言包比起来真是..............

测试图片，可右击“图片另存为”

解析输出结果：

一、引孟4
1. 1 从体验经济到体验设计驷
随着社会生产力发展水平的提高和人类需求层次的升级, 体验经济也就成
为了经济发展的必然趋势。体验经济日渐显现, 出现了服务于它的体验设计。、
设计是创新的重要组成部分。茌强调目主创新的六环i竞下, 申国的企业应
该兖分关注体验设计的新趋势‘。体验设计的理论正茌成为现代企业开发产品和
服务顶目的重要依据。现阶段, IT 领域很早就注意到了这一点, 百度、腾讯、
支付宝、阿里巴巴等着属设有专门的用户体验部, 为其产品和服务增加附加价值,
也更六程度她让用户满意, 最终荻得了最佳企业效益。、
同时7 随看现代产品设计思想的成熟, 产品设计也越来越聚焦于人本身一
7人的存茌, 人的需要7 持别是人的情感需要。设计与人, 人与设计, 设计是
否可以有长远意义, 是否可以印证人的真买存茌, 是否可以帮助人们理解目己,
认识世界。这个问题己偏同于哲学, 但却确买是设计这种文化形式的内茌诉求。
越来越多的产品遍过设计, 茌与人交互的过程申7 使人产生愉悦的体验, 并茌
这个体验的后期, 让人产生反思, 遍过反思得以认识自己7 发展自己。找想这
点是设计成为一种优势文化, 而所要肩负的必要责任。 ~

测试中发现的几个注意点：

1、若是一份英文文档其对英文字母o绝大部分会识别为数字0。所以若是英文和数字的文档，最好不要加入中文语言包，而是引入eng.traineddata语言包到D:/Program Files/Tesseract-OCR/tessdata目录下。

看到OCR类31-32行代码

cmd.add("chi_sim");
//cmd.add("eng");

去掉 //cmd.add("eng");前的注释，但记得在cmd.add("chi_sim");前加上注释哦，不然你就看不到效果了哦。

2、测试中还发现一个问题，有时候在目录下已经生成临时文件并且识别出的文字写入到output.txt,但是在int w = process.waitFor();则阻塞了停止运行再也没有反应了，以致控制台始终没有打印出文字。

解析（参考）：刚开始想到直接去掉这个语句算了，但是运行的时候会报运行错误。最后在http://www.cnblogs.com/xxpal/articles/824963.html看到下面一段文字说明：在Windows平台上，运行被调用程序的DOS窗口在程序执行完毕后往往并不会自动关闭，从而导致Java应用程序阻塞在waitfor()语句。导致该现象的一个可能的原因是，该可执行程序的标准输出比较多，而运行窗口的标准输出缓冲区不够大。解决的办法是，利用Java中Process类提供的方法让Java虚拟机截获被调用程序的DOS运行窗口的标准输出，在waitfor()命令之前读出窗口的标准输出缓冲区中的内容。

解决办法：在int w = process.waitFor();代码行前面加上

String s;
BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(process.getInputStream()));
while((s=bufferedReader.readLine()) != null);

int w = process.waitFor();

再次运行试试看吧。

分享到：

TRACE宏的使用方法 | loadrunuer破解验证码

2012-06-07 14:54
浏览 842
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论