提供3000多款全球软件/控件产品
针对软件研发的各个阶段提供专业培训与技术咨询
根据客户需求提供定制化的软件开发服务
全球知名设计软件,显著提升设计质量
打造以经营为中心,实现生产过程透明化管理
帮助企业合理产能分配,提高资源利用率
快速打造数字化生产线,实现全流程追溯
生产过程精准追溯,满足企业合规要求
以六西格玛为理论基础,实现产品质量全数字化管理
通过大屏电子看板,实现车间透明化管理
对设备进行全生命周期管理,提高设备综合利用率
实现设备数据的实时采集与监控
利用数字化技术提升油气勘探的效率和成功率
钻井计划优化、实时监控和风险评估
提供业务洞察与决策支持实现数据驱动决策
转帖|使用教程|编辑:黄竹雯|2016-07-15 15:10:39.000|阅读 3146 次
概述:LeadTools为.NET(C# & VB.NET)、C/C++、Java和Web开发者提供了快速且精确度高的 OCR SDK技术。
# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>
相关链接:
LeadTools为.NET(C# & VB.NET)、C/C++、Java和Web开发者提供了快速且精确度高的 OCR SDK技术。利用LeadTools高级OCR工具包,可以快速的开发健壮的、可扩展的、高性能识别的文档处理应用程序,这些应用程序可提取出扫描文件中的文本,将图像转化为文本搜索格式,如PDF、PDF/A、DOC、DOCX、XML、XPS等。LeadTools广泛支持40余种字符集,编程者通过提供多语言的解决方案扩展用户群,包括英语、西班牙语、法语、德语、日语、中文、阿拉伯语等。
本文将为大家介绍:
1 选择您将要使用的引擎类型,并创建一个接口实例。更多信息,可参考。
2 使用方法启动OCR引擎。更多信息,可参考。
3 创建一个一页或多页的OCR文档。更多信息,可参考。
4 手动或自动的在页面上建立区域。(此步骤是可选的。一个页面无论有没有区域,都是可识别的。)更多信息,可参考。
5 可选。设置OCR引擎正在使用的语言(默认为英文)。更多信息,可参考。
6 可选。设置拼写检查语言(默认为英文)。更多信息,可参考。
7 可选。设置任意特殊的识别模块选项。如果一个页面内包括自动或手动创建的区域,这些选项是需要的。更多信息,可参考, and 。
8 识别。更多信息,可参考。
9 若需要,保存识别结果。结果可保存为一个文件或保存至内存。更多信息,可参考。
10 当结束时关闭OCR引擎。更多信息,可参考。
步骤4、5、6、7可以以任意顺序执行,只要它们在OCR引擎启动后、识别页面前执行了即可。
下面为您提供了”使用OCR识别图像中的中文“的示例代码。为了运行此代码,请点击下载LeadTools全功能试用版。
安装全功能试用版后,由于此应用程序要识别中文,因此在创建应用程序之,请点击下载LeadTools OCR语言扩展包。
安装完OCR语言扩展包,我们就可以开始创建“使用OCR识别中文”的应用程序了,我们将最终的识别结果保存为.docx格式。
1. 打开Visual Studio .NET。点击 文件->新建->项目…。打开新建项目对话框后,在模板中选择“Visual C#”,随后选择“Windows窗体应用程序”。在名称栏中输入项目名称“SampleOcrChinese”,并使用“浏览”按钮选择您工程的存储路径,点击“确定”。
2. 在“解决方案资源管理器”中,右击“引用”,选择“添加引用”。根据当前工程的 Framework 版本和生成目标平台,选择添加相应的LeadTools控件,例如工程中的版本为 Framework 4.0、生成目标平台是 x86,则浏览选择Leadtools For .NET文件夹” LEADTOOLS_INSTALLDIR\Bin\DotNet4\Win32”,选择以下的DLL“:
点击“确定”按钮,将以上所有的DLL添加到应用程序中。
注意:添加Leadtools.Codecs.*.dll引用后,可使用BMP、JPG、CMP、TIF和FAX图像文件格式。如果您想使用更多的文件格式,可添加相关文件格式的codec DLL至应用程序。
3. 拖拽5个button控件至Form1。Button的名称默认为“button1,button2…”,根据以下表格修改相应的Text属性:
Name | Text |
---|---|
button1 | 启动OCR引擎 |
button2 | 添加页面 |
button3 | 删除页面 |
button4 | 识别文档(中文)并保存为Word |
button5 | 关闭OCR引擎 |
4. 将Form1切换至代码视图,将以下代码添加至using 部分:
using Leadtools; using Leadtools.Codecs; using Leadtools.Forms; using Leadtools.Forms.DocumentWriters; using Leadtools.Forms.Ocr; using Leadtools.ImageProcessing; using Leadtools.WinForms;
5. 将以下私有变量添加至Form1类:
private IOcrEngine _ocrEngine; private IOcrDocument _ocrDocument;
6. 将以下代码添加至Form1的构造函数:
InitializeComponent(); // 解锁OCR功能,用您的密钥替换此处 string MY_LICENSE_FILE = "d:\\temp\\TestLic.lic"; string MY_DEVELOPER_KEY = "xyz123abc"; RasterSupport.SetLicense(MY_LICENSE_FILE, MY_DEVELOPER_KEY); // 初始化OCR引擎 _ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.Professional, false);
7. 将以下代码添加至button1(启动OCR引擎)按钮的Click句柄中,启动OCR引擎,在此部分将识别的语言设置为中文简体:
// 启动OCR引擎 _ocrEngine.Startup(null, null, null, @"D:\LEADTOOLS 18\Bin\Common\OcrProfessionalRuntime"); // 创建文档 _ocrDocument = _ocrEngine.DocumentManager.CreateDocument(); //将语言设置为中文简体,中文繁体为"zh-Hant" _ocrEngine.LanguageManager.EnableLanguages(new string[] {"zh-Hans"}); MessageBox.Show("OCR引擎成功启动");
8. 将以下代码添加至button2(添加页面)的Click句柄中,将单页图像文件添加至OCR文档:
string fileName = Path.Combine(Application.StartupPath, @"..\..\Pic\chineseImage.bmp"); //将包含中文字符的文件添加至OCR文档 IOcrPage page = _ocrDocument.Pages.AddPage(fileName, null); int pageCount = _ocrDocument.Pages.Count; // // 显示此页面的相关信息 string message = string.Format( "共{0}页\n最后添加的页面大小 = {1} * {2}\n分辨率 = {3} * {4}\n每个像素的位数 = {5}\n", pageCount, page.Width, page.Height, page.DpiX, page.DpiY, page.BitsPerPixel); MessageBox.Show(message);
9. 将以下代码添加至button3(删除页面)的Click句柄,从OCR文档中移走了所有页面:
// 从OCR文档中移除所有添加的页面 _ocrDocument.Pages.Clear(); MessageBox.Show("所有页面已被移除");
10. 将以下代码添加至button4(识别文档(中文)并保存为Word)的Click句柄,识别文档中的中文字符,并将识别的结果保存为Word文档:
// 识别所有页面 // 注意,我们不需要调用AutoZone,引擎会检查页面是否被分区,若无,则会自动分区 _ocrDocument.Pages.Recognize(null); // 将结果保存为Word文档 string wordFileName = Path.Combine(Application.StartupPath, @"..\..\Result\Result.docx"); _ocrDocument.Save(wordFileName, DocumentFormat.Docx, null); // 显示我们刚刚保存的word文件 System.Diagnostics.Process.Start(wordFileName);
11. 将以下代码添加至button5(关闭OCR引擎)按钮的Click句柄,关闭OCR引擎:
// 释放此文档 _ocrDocument.Dispose(); // 关闭OCR引擎 _ocrEngine.Shutdown(); MessageBox.Show("OCR引擎关闭");
此段代码会将最终的识别结果保存为PDF文件。可按照依照以下步骤:启动OCR引擎->添加页面->识别文档(中文)并保存为Word->删除页面->关闭OCR引擎。
12. 编译、运行程序。结果如下图:
原图像为:
运行程序识别过程的截图如下:
DEMO下载:
文章转自:葡萄城控件产品博客,//blog.gcpowertools.com.cn
如果你想体验LeadTools OCR识别中文的效果,不妨查看并免费下载LeadTools试用版自己试试!
如需帮助,请联系!
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@cahobeh.cn
LEADTOOLS Document Imaging Suite SDK是LEADTOOLS SDK中各种特点的精选组合,这套强大的工具利用了LEAD行业领先的图像处理技术来智能地识别文档的特征,而根据文档的特征可以识别扫描的或传真的任何类型的表格图像。
LEADTOOLS Medical Imaging是一款医疗成像控件,包含了一些精心挑选的、经过优化的特性,可以满足医疗成像应用程序开发的特殊需要。
本文探讨 SQL Server 中 NULL 和空值之间的区别,并讨论如何有效地处理它们。
Unity 是一款功能极其丰富的游戏引擎,允许开发人员将各种媒体集成到他们的项目中。但是,它缺少最令人兴奋的功能之一 - 将 Web 内容(例如 HTML、CSS 和 JavaScript)直接渲染到 3D 场景中的纹理上的能力。在本文中,我们将介绍如何使用 DotNetBrowser 在 Unity3D 中将 Web 内容渲染为纹理。
DevExpress v24.2帮助文档正式发布上线了,请按版本按需下载~
本教程将向您展示如何用MyEclipse构建一个Web项目,欢迎下载最新版IDE体验!
20多年的老牌图像处理控件,支持TWAIN扫描、200多种图像效果、150多种图像格式…
LEADTOOLS Document Suite Developer ToolkitLEADTOOLS Document Imaging Suite SDK是LEADTOOLS SDK中各种特点的精选组合,这套强大的工具利用了LEAD行业领先的图像处理技术来智能地识别文档的特征,而根据文档的特征可以识别扫描的或传真的任何类型的表格图像。
LEADTOOLS Document Imaging Developer Toolkit多语言的文档图像处理控件,支持光符识别处理、条形码扫描识别等。
LEADTOOLS Medical Developer ToolkitLEADTOOLS Medical Imaging是一款医疗成像控件,包含了一些精心挑选的、经过优化的特性,可以满足医疗成像应用程序开发的特殊需要。
LEADTOOLS Medical Imaging Suite Developer ToolkitLEADTOOLS Medical Imaging Suite帮您开发功能强大的PACS和医学成像应用程序
服务电话
重庆/ 023-68661681
华东/ 13452821722
华南/ 18100878085
华北/ 17347785263
客户支持
技术支持咨询服务
服务热线:400-700-1020
邮箱:sales@cahobeh.cn
关注我们
地址 : 重庆市九龙坡区火炬大道69号6幢