盲人阅读器
文字语音播放:
பைடு நூலகம்
1.接收文字识别结果; 2.调用语音字库,进行单词匹配; 3.播放匹配结果的音频,即将文字信息朗读出来;
系统实现:
1.采用可变焦摄像头采集视频图像; 2.利用计算机仿真研究OCR识别; 3.利用耳机将识别结果语音播放; 4.仿真成功后进行软件移植工作,使其工作在便携式OCR盲 人阅读器上。
创新:
1.目前国内尚无此类OCR盲人阅读器; 2.具有可移植性,可以在便携设备上使用。
难点:
1.图像采集质量; 2.OCR识别的准确率。
罗佳:光信息科学与技术,熟练掌握C,C++等编程语
言,了解数据库技术。主要负责项目整体规划。
杨俊勇:电子信息科学类,熟悉.NET框架下的C++编程,
对数字图像处理有一定的基础。主要负责图像的输入与 OCR文字识别处理。
OCR文字识别:
1.扫描采集文本图像; 2.图像预处理及增强图像质量(平滑去噪、滤波、矫形、增 强对比度等); 3.文字字符处理(行字切分、二值化、倾斜校正、细化提取、 字符分割等); 4.文字特征提取 (点阵特征、笔画特征、部首特征等); 5.字符匹配识别(初步采用相关识别与模版匹配); 6.输出识别结果。
目的:设计研制OCR盲人阅读器,用于盲人 阅读报刊杂志等。 意义:自动化、智能化、快速方便地为广大盲 人克服阅读障碍。 研究现状: 1.美国 Sungwoo Park设计的语音朗读笔 (Voice Stick); 2.清华大学自动化系研制成功的“盲文点字显 示器”可使盲人自由地阅读电脑中的文字。
吴玉章学院 07级创新班 导师:罗代升 教授 成员:杨俊勇 罗佳 卢维 张智
本项目是基于OCR(Optical Character Recognition光学字符识别)的文字自动识别技 术。首先将需要处理的文本进行扫描,然后对载 有文字信息的图像进行预处理,特征提取,文字 匹配等操作,将其含有的文字信息提取出来,转 化为编码文字并保存在计算机上,再通过与语音 字库相比较,将存储的语音信息通过音频播放出 来,最终将文本信息通过音频传送给盲人,实现 盲人阅读器的功能。
卢维:电子信息科学类,熟悉C,C++编程,对数据库
知识有所了解,熟悉单片机开发。主要负责语音信息的 对照与播放工作。
张智:通信工程,熟悉MFC框架设计,对图像识别有所
了解。主要负责应用程序以及盲人阅读器设备的设计。
1. 2009.6--2009.7:查阅相关文献资料,设计研究方案; 2. 2009.7--2009.8:选择购买摄像头、耳机等相关设备, 进行图像采集工作; 3. 2009.8--2009.10:图像处理,字符处理、切分等研究; 4. 2009.10--2009.11:文字特征提取的研究; 5. 2009.12--2010.1:文字匹配识别的研究; 6. 2010.1--2010.2:语音合成以及播放的研究; 7. 2010.2--2010.4:系统的移植工作; 8. 2010.4--2010.6:完善改进OCR盲人阅读器。