《保密教育内参》第39期

2013年03月05日 11:35 adic 点击：[]

保密教育内参

（第39期，供2013年3月5日学习使用）

警醒：

《中华人民共和国保守国家秘密法》 12 种严重违规行为之十二：将未经安全技术处理的退出使用的涉密计算机、涉密存储设备赠送、出售、丢弃或者改作其他用途。

《保密工作》 2012 年第 6 期，重点文章核心内容导读——

运用图文识别技术提高互联网涉密信息检查能力

近年来，保密检查中发现，互联网违规发布涉密文件资料的案件逐年增多。其中值得注意的是，涉密文件为图片格式的案件比例也呈现上升趋势。例如，某市档案局为了在当年的政务公开工作评比中获得先进，将该市很多机关的档案大量扫描，并公开在互联网上，其中涉及多份国际秘密；某市教育局违规将一份标为“机密”的文件扫描并上传到互联网门户网站上。上述几起案件的当事人都受到了党纪政纪的严肃处理。

如何才能在互联网上快速准确搜索到图片格式的涉密文件呢？依靠传统的方法，采用人工查看的方式，费时费力，无异于大海捞针，非常困难。图文识别技术，又称为OCR（Optical Character Recognition，光学字符识别），能够较好地解决该问题。

图文识别是指利用各种识别算法分析图像中包含的文字形态特征，判断出文字的标准编码，并按通用格式存储在信息化设备中。按照对象的不同，图文识别分为数字字符识别、西方文字字符识别、东方文字字符识别等。目前，对数字字符识别和西方文字字符识别的研究比较充分，识别方法比较成熟；二东方文字字符识别比较困难，如汉字字符，属于象形文字，不同于西方字符的一维空间排列，是一种特殊的二维模式集合，起模式种类很多，结构非常复杂，加上印刷质量与字体的影响，是文字识别中最困难的分支。其识别须经过影像前处理、文字特征抽取、比对识别、字词后处理，最后经人工校正才能将认错的文字更正、输出。

1.影像前处理。影像前处理是OCR系统中须解决问题最多的一个模块，包含影像正规化、取出噪声、图文分析等，须先将图片、表格及文字区域分离出来，也可将文章的编排方向、提纲及内容进行区分。

2.文字特征抽取。大致分为两类：一是根据统计特征，如文字区域内的黑、白点数比。二是根据结构特征，如文字影像细线化后，取得字的笔画端点、交叉点之数及位置。

3.比对识别。主要的比对方法有：欧式空间的比对方法、松弛比对法（Relaxation）等。为了使识别的结果更稳定，也有所谓的专家系统（Experta System）利用各种特征比对方法的相异互补性，使识别率更高。

4.字词后处理。字词后处理是从比对后的识别文字与其相似的候选字群中，根据前后的识别文字找出最合乎逻辑的词。

[1] [2] 下一页

上一条：《保密教育内参》第40期下一条：《保密教育内参》第38期

【关闭】