保密教育内参
(第39期,供2013年3月5日学习使用)
警醒:
《中华人民共和国保守国家秘密法》
12
种严重违规行为之十二:将未经安全技术处理的退出使用的涉密计算机、涉密存储设备赠送、出售、丢弃或者改作其他用途。
《保密工作》
2012
年第
6
期,重点文章核心内容导读——
运用图文识别技术提高互联网涉密信息检查能力
近年来,保密检查中发现,互联网违规发布涉密文件资料的案件逐年增多。其中值得注意的是,涉密文件为图片格式的案件比例也呈现上升趋势。例如,某市档案局为了在当年的政务公开工作评比中获得先进,将该市很多机关的档案大量扫描,并公开在互联网上,其中涉及多份国际秘密;某市教育局违规将一份标为“机密”的文件扫描并上传到互联网门户网站上。上述几起案件的当事人都受到了党纪政纪的严肃处理。
如何才能在互联网上快速准确搜索到图片格式的涉密文件呢?依靠传统的方法,采用人工查看的方式,费时费力,无异于大海捞针,非常困难。图文识别技术,又称为OCR(Optical Character Recognition,光学字符识别),能够较好地解决该问题。
图文识别是指利用各种识别算法分析图像中包含的文字形态特征,判断出文字的标准编码,并按通用格式存储在信息化设备中。按照对象的不同,图文识别分为数字字符识别、西方文字字符识别、东方文字字符识别等。目前,对数字字符识别和西方文字字符识别的研究比较充分,识别方法比较成熟;二东方文字字符识别比较困难,如汉字字符,属于象形文字,不同于西方字符的一维空间排列,是一种特殊的二维模式集合,起模式种类很多,结构非常复杂,加上印刷质量与字体的影响,是文字识别中最困难的分支。其识别须经过影像前处理、文字特征抽取、比对识别、字词后处理,最后经人工校正才能将认错的文字更正、输出。
1.影像前处理。影像前处理是OCR系统中须解决问题最多的一个模块,包含影像正规化、取出噪声、图文分析等,须先将图片、表格及文字区域分离出来,也可将文章的编排方向、提纲及内容进行区分。
2.文字特征抽取。大致分为两类:一是根据统计特征,如文字区域内的黑、白点数比。二是根据结构特征,如文字影像细线化后,取得字的笔画端点、交叉点之数及位置。
3.比对识别。主要的比对方法有:欧式空间的比对方法、松弛比对法(Relaxation)等。为了使识别的结果更稳定,也有所谓的专家系统(Experta System)利用各种特征比对方法的相异互补性,使识别率更高。
4.字词后处理。字词后处理是从比对后的识别文字与其相似的候选字群中,根据前后的识别文字找出最合乎逻辑的词。