站内搜索:
首页实验室概况科研工作合作交流实验室管理动态信息保密教育图书资料诚聘英才下载中心
 保密教育 
  保密教育
当前位置: 首页 > 保密教育 > 保密教育 > 正文
 

《保密教育内参》第39期

2013年03月05日 11:35 adic 点击:[]

保密教育内参
(第39期,供2013年3月5日学习使用)
 
警醒:
《中华人民共和国保守国家秘密法》 12 种严重违规行为之十二:将未经安全技术处理的退出使用的涉密计算机、涉密存储设备赠送、出售、丢弃或者改作其他用途。
 
《保密工作》 2012 年第 6 期,重点文章核心内容导读——
 
运用图文识别技术提高互联网涉密信息检查能力
      近年来,保密检查中发现,互联网违规发布涉密文件资料的案件逐年增多。其中值得注意的是,涉密文件为图片格式的案件比例也呈现上升趋势。例如,某市档案局为了在当年的政务公开工作评比中获得先进,将该市很多机关的档案大量扫描,并公开在互联网上,其中涉及多份国际秘密;某市教育局违规将一份标为“机密”的文件扫描并上传到互联网门户网站上。上述几起案件的当事人都受到了党纪政纪的严肃处理。
      如何才能在互联网上快速准确搜索到图片格式的涉密文件呢?依靠传统的方法,采用人工查看的方式,费时费力,无异于大海捞针,非常困难。图文识别技术,又称为OCR(Optical Character Recognition,光学字符识别),能够较好地解决该问题。
      图文识别是指利用各种识别算法分析图像中包含的文字形态特征,判断出文字的标准编码,并按通用格式存储在信息化设备中。按照对象的不同,图文识别分为数字字符识别、西方文字字符识别、东方文字字符识别等。目前,对数字字符识别和西方文字字符识别的研究比较充分,识别方法比较成熟;二东方文字字符识别比较困难,如汉字字符,属于象形文字,不同于西方字符的一维空间排列,是一种特殊的二维模式集合,起模式种类很多,结构非常复杂,加上印刷质量与字体的影响,是文字识别中最困难的分支。其识别须经过影像前处理、文字特征抽取、比对识别、字词后处理,最后经人工校正才能将认错的文字更正、输出。
      1.影像前处理。影像前处理是OCR系统中须解决问题最多的一个模块,包含影像正规化、取出噪声、图文分析等,须先将图片、表格及文字区域分离出来,也可将文章的编排方向、提纲及内容进行区分。
      2.文字特征抽取。大致分为两类:一是根据统计特征,如文字区域内的黑、白点数比。二是根据结构特征,如文字影像细线化后,取得字的笔画端点、交叉点之数及位置。
      3.比对识别。主要的比对方法有:欧式空间的比对方法、松弛比对法(Relaxation)等。为了使识别的结果更稳定,也有所谓的专家系统(Experta System)利用各种特征比对方法的相异互补性,使识别率更高。
      4.字词后处理。字词后处理是从比对后的识别文字与其相似的候选字群中,根据前后的识别文字找出最合乎逻辑的词。

[1] [2] 下一页

上一条:《保密教育内参》第40期 下一条:《保密教育内参》第38期

关闭

版权所有:计算机辅助设计国家地方联合工程实验室(先进设计与智能计算省部共建教育部重点实验室) 
联系电话: 0411-87403728