当前位置:文档之家› 郑州市“智汇郑州·1125聚才计划”项目可行性研究报告

郑州市“智汇郑州·1125聚才计划”项目可行性研究报告

附件2郑州市“智汇郑州•1125聚才计划”项目可行性研究报告编制提纲一、概述1、项目提出的背景、研究开发状况、现有产业规模和市场形势;2、国家、本省、本地区产业技术政策;3、项目产品的主要用途、性能;4、项目实施的目的意义,项目主要研发内容和技术难点;5、本项目解决方案的特点及预期达到的效果。

二、技术可行性分析1、项目的技术路线、工艺的科学性、合理性,关键技术的先进性论述。

1.1项目的技术路线1)经过充分的跟踪分析研究,消化和掌握了目前国内外市场上AI平台相关的先进技术,将它们用于本项目的系统开发上;2)把集成与关键技术突破相结合,既要解决一批关键技术的突破,又要使这些技术能够很好的集成起来为本项目服务;3)制定系统的核心关键技术实现的多种技术方案,在实验论证基础上,优化设计技术,进行系统分析,综合择优;4)以规范和标准驱动单位协作与应用开发。

尽量采用目前成熟与通用的标准。

对相关的技术,模型,数据制定规范与标准。

并以这些规范与标准为先导,确定应用系统的设计与开发;5)充分利用现有技术基础,目前公司已经做了大量工作的相关研究,这些研究作为本项目的基础;6)采用面向对象技术,组件技术,分布式技术构建模型等技术设计系统;7)按照软件工程规范,实施质量控制;8)尽量使用开源技术软件,方便后期软件的维护和升级;9)公司多位该领域权威性,高级别技术专家保证能够解决各种技术问题,及其实施中碰到的问题;1.2具体技术方案1.2.1系统架构图1 交互式机器学习平台交互式机器学习由主动式数据标注系统、拖拽式机器学习系统以及敏捷式服务发布系统构成。

图2 主动式数据标注系统主动式数据标注系统工作流程:1) 原始数据经过初始化模型进行数据预筛并打上标签 2) 预标注标签会下发给标注人员进行人工审核或重新标注3) 人工标注的样本质量需要进行技术管控,质量管理这块可采用两种方式进行:方案一,将已有标注正确的样本随机打乱混入原始数据中,在收集到人工标注这部分样本时,可以通过人工标注结果与实际结果间的差异评估标注质量;方案二:每一条原始数据需要至少两人以上同时进行标注,如果多人标注结果不一致,需要第三方进行“仲裁”,以“仲裁”结果作为最终样本标注。

4) 待人工审核标注样本量增加到一定量时,扩充样本集,重新训练模型,可以有效提升模型预标注效果5) 利用升级后的模型对另一批原始数据进行预筛并预标注,如此往复,直至所有原始数据被人工标注并审核为止。

原始数据 模型数据预筛人工审核 质量管理小批量数据模型预标注样本扩充升级模型图3 拖拽式机器学习系统拖拽式机器学习系统架构:1)机器学习平台以Hadoop HDFS分布式文件系统作为数据存储平台,支持文本文件、图像、视频等的存储;2)计算平台包括Spark MLlib、TensorFlow、Scikit-learn等机器学习和深度学习基础算法库,支持单机和分布式算法实现;3)模型平台作为用户的工作坊,在计算平台所提供的基础算法库之上,根据实际的业务需求,建立工作流模型,常见的模型包括分类、聚类、回归等,当然也包括基础自然语言处理过程;4)此外,为了支撑整个机器学习平台的正常运转,平台需要提供文件上传功能、模型运行调试功能、多模型间任务调度以及运行日志和模型结果查看下载等功能。

1.2.2交互式机器学习平台技术实现方案1)Docker容器虚拟化技术传统的虚拟机基于对硬件的模拟和仿真,所有的对硬件资源的调用都需要经过再转发一层才能获取或者说运行,这导致存在巨大性能损耗。

交互式机器学习平台底层运行在Docker容器里,可以做到快速化发布服务;2)开放式的对外接口采用开放式程序设计,提供了通用的程序接口,能与其他平台业务系统对接;3)对接多种数据源可以使用Java,Scala等语言自定义开发数据源对接程序,很方便实现多种数据源的对接;4)通用的数据流系统节点的数据流文件存储在HDFS上,通过统一的读取数据流接口获取数据作为下一个输入;5)易于操作的拖拽式图形化界面通过拖拽快速构建一个工作流任务。

在该系统中一个算法任务被构造为一个有向非循环图,其中每个节点表征一步操作,每一条边表征从一个节点到后一个节点的数据流。

把任务提交以后,每个节点自动执行。

用户可以再图形界面中以拖拉的方式创建,配置,提交和监督一项任务;6)无缝整合单机和分布式算法在一个任务中,不需要关心算法模型运行环境限制,可以混合使用单机和分布式的算法模型。

解决了实际复杂的应用场景问题;7)良好的算法模型扩展能力支持用户上传自定义的算法模型,支持Python,R,Java,C++,scala,等语言开发的算法模型。

集成了TensorFlow,PyTorch等深度学习框架。

可以满足用户大部分应用场景需求;8)多任务运行监督和管理使用Hadoop平台的开源工作流调度引擎Oozie;满足多用户多任务操作的要求;9)模块流程的自动化和智能化任务运行状态自动实时监控和提示,且运行状态日志都保存入库,方便用户查询历史日志。

1.3工艺的合理性和成熟性1.3.1合理性1)该系统采用B/S模式,部署和维护方便,能随时随地使用;2)数据的重复使用,减少对磁盘空间资源的使用;3)算法任务的可重复性使用,对同一类型的任务需求,提高了工作效率;4)数据处理和算法模型的自定义扩展,对于复杂和针对性的任务能方便用户使用自己的算法模型。

满足解决复杂的应用场景;5)支持多任务并发执行,满足多用户使用场景;6)支持单机和分布式算法,解决各种业务场景数据问题,诸如海量数据应用场景;7)支持深度学习TensorFlow框架,深度学习是当前机器学习研究和应用新热点;8)数据的可视化,便于用户随时查看数据和运行结果。

1.3.2成熟性1)Docker虚拟化技术在实际生产中应用很成熟;2)Hadoop集群稳定性,容错性很好。

目前市场上应用很广泛。

3)Oozie的工作流调度引擎稳定,被广泛使用。

4)业内领先的文本处理NLP技术,已在京东等合作公司部署使用。

5)申请了关于NLP技术的多项专利。

1.4关键技术的先进性1)机器学习平台具有灵活的快速部署能力,灵活扩展计算能力;2)集成了python各种学习库,TensorFlow深度学习框架等,最全面的算法模型;3)集成了自主研发的NLP处理模块。

该模块具有业内领先的NLP处理技术;4)集成了自主研发业内领先的深度学习算法模型,诸如BiLSTM+Attention等;5)集成了自主研发业内领先的图像处理算法模型,特别是人脸识别和行人再识别;2、项目产品性能水平与国内外同类产品的比较。

2.1调研产品我们针对目前市场上比较有影响力的Machine Learning产品进行了系统的调研,包含以下产品:阿里云机器学习百度机器学习BML第四范式-先知智能钛机器学习平台Amazon Machine LearningMicrosoft Azure Machine Learning Studio明略DataInsightEasyML2.2付费、部署方面阿里、腾讯、亚马逊、微软等提供的机器学习平台的服务,都是搭载在该企业的云服务基础之上,采用按计算时进行结算的付费方式,针对用户的私有化部署需求,支持的不理想。

百度目前处于公测阶段,暂不收费,但可以想见,与其他几家企业的模式应该雷同。

第四范式提供SaaS、私有云、私有部署等多种安装部署方式。

览智机器学习平台同样支持SaaS、私有部署等多种方式,可以将平台上的现成模型、新训练的模型,跟其所需运行环境一起,快速打包成可直接部署的Docker image,提供web service几口,极大降低部署成本和时间周期。

2.3数据格式支持、引入方式2.4算法第四范式支持常规的分类、聚类算法阿里数加、腾讯、微软、EasyML支持深度学习算法览智不仅支持常规的分类算法、聚类算法、回归算法、降维算法、归一化算法、向量化算法、深度学习等等,而且支持NLP。

2.5功能界面2.5.1 第四范式-先知图4 第四范式-先知交互设计评价:第四范式的交互设计处于中游水平,没有BAT的交互设计流畅,某些功能过于繁复。

2.5.2 阿里-机器学习PAI图5 阿里-机器学习PAI交互设计评价:阿里的交互细节目前是对比的几个系统里面,相对较好的,功能设计也比较人性化。

例如针对运行过程中,模型的进展程度等信息。

2.5.3 腾讯智能钛图6 腾讯智能钛交互设计评价:未能进入系统,全面体验其交互细节。

2.5.4 Microsoft Azure ML图7 Microsoft Azure ML交互设计评价:微软的用户界面设计友好度比较高,功能及其交互设计比较简洁,运行流畅,对于使用中的部分细节关注度不够。

例如数据上传的方式等等。

2.5.5 EasyML图8 EasyML交互设计评价:easyML,从交互设计和界面的美观程度角度讲,EML略逊一筹,有些操作,没有考虑到用户的需求。

例如,数据拖入界面之后,无法预览,数据的引入状态无法获取,运行任务每次都必须运行完整的流程等。

综上所述:1、从数据格式的支持和数据引入方面讲,其他对比产品中微软、EasyML和第四范式支持的数据引入及预处理比较组件比较丰富,览智系统支持的数据引入、处理等完全超越其他同类竞品。

2、算法方面,微软、阿里、腾讯等都支持深度学习算法,其中微软支持的算法最为丰富,览智系统的优势所在在于支持自定义算法的上传,这样就大大降低了该平台的使用瓶颈,对于算法工程师来讲,更有针对性,能为一些较为复杂的任务,针对算法代码进行调整。

并且,览智系统的另外一个优势在于支持丰富的NLP算法、支持图像任务的处理。

3、交互设计方面,览智致力于满足小白用户的使用需求,在交互细节方面力争做到极致。

4、览智机器学习平台支持SaaS、私有部署等多种方式,快速打包成可直接部署的Docker image,提供web service几口,极大降低部署成本和时间周期。

三、立项成熟程度1、项目研发的前期工作情况及技术基础。

2、对引进技术的消化、吸收、创新和后续开发能力。

四、市场需求情况和风险分析1、国内市场需求规模和产品的发展前景、在国内市场的竞争优势和市场占有率。

2、国际市场状况及该产品未来增长趋势、在国际市场的竞争能力、产品替代进口或出口的可能性。

3、市场风险因素分析和对策。

五、经费概算和资金筹措1、项目经费概算。

2、项目资金筹措方案。

3、项目经费使用计划。

六、经济、社会和环境效益预测1、项目完成后的预期经济、社会和环境效益。

2、不确定性分析,主要包括盈亏平衡和敏感性分析,对项目的抗风险能力做出说明。

七、申报单位综合实力和基础1、员工构成和基本素质。

2、从事研究开发的人员力量、设备条件、产业基础、资金投入、内部管理等情况。

相关主题