网易首页 > 网易科技 > 网易科技 > 正文

避开这些坑,一个实用的机器学习框架就会诞生

0
分享至

机器学习是一种数据驱动实现人工智能的方式。在机器学习框架设计上,没有普世的最好框架,只有最适合自身应用场景的框架。设计一个实用高效的机器学习框架,要考虑哪些具体因素?目前那些总价值超过8000万美元的开源框架,能否满足企业需求?要回答这些问题,可以先从人工智能专家的过往“踩坑”经验谈起。

从机器学习系统到“成熟商用”,有这7道门槛

门槛1:有效数据量快速增长

随着越来越多的数据被记录下来,大数据背景下的机器学习,计算效率成为核心问题之一。机器学习系统必须具备可扩展性,才能有效应对数据增长。

门槛2:机器学习算法-No Free Lunch

No Free Lunch是监督学习领域著名的定理,指的是没有可以解决所有问题的完美机器学习模型。不同目标场景要采用不同的机器学习算法。所以机器学习框架还需具备算法开发的友好性。

门槛3:数据科学家的稀缺性

人工智能需要对算法和业务问题都很精通的数据科学家,但好的数据科学家是稀缺的,因此机器学习解决方案要尽可能的“智能化”,降低对数据科学家对依赖。

门槛4:机器学习计算和传统ETL计算的差异性

1. 计算

对比于ETL相对“简单”的运算,机器学习算法对数据的运算更复杂,比如一些非线性模型需要密集的计算。所以实际中,不仅要考虑到不同计算资源的特性,同时还要调整计算模式,降低因分布式计算给通讯、同步、灾备等带来的overhead。

2. 通讯

很多机器学习算法在计算过程中会频繁使用到全局或者其他节点的信息,对网络吞吐和通讯延迟的 要求要远高于ETL任务。同时,很多机器学习任务对于一致性的要求要低于ETL任务,所以在系统的设计上可以使用放松的一致性要求。

3. 存储

ETL处理的是各种来源不同的数据,其中反复迭代运算较少机器学习算法反复迭代运算很多,有大量不断擦写的中间数据产生,对存储的使用效率、访问效率有着更高的需求。

4. 灾备和效率的权衡

ETL计算任务不同,机器学习计算任务流程相对复杂,中间状态较多,在较细的粒度上进行容灾会增加执行过程中的额外开销。因此在容灾策略和容灾粒度上,机器学习计算任务和ETL计算任务之间的权衡点不一样。

门槛5:资源差异性

相同的机器学习算法可能会在不同的资源、不同的环境下被使用,因此机器学习算法系统本身能够做更好抽象和设计,屏蔽底层资源的差异性,使开发部署更为方便。

门槛6:系统的开放性

机器学习系统要能够便于集成部署实际业务系统中。同时,因为多种多样的ETL平台产生机器学习所需要的数据,所以机器学习系统要能够开放地对接已有的业务ETL、决策系统。

门槛7: 大规模分布式机器学习系统的复杂性

大规模分布式机器学习系统涉及的环节很多,计算逻辑复杂,因此整个系统架构设计的清晰度、 执行过程的可理解性、执行的可追踪性、实际系统的可运维性是非常重要的。同时,在不同的数据规模下,权衡分布式 overhead和收益。

当今巨头科技公司纷纷推出开源机器学习框架,很大程度上降低了人工智能的研究门槛。但目前这些备受追捧的开源框架,真能满足企业完成实际复杂业务的挑战吗?答案可能并不乐观。因为,从根本上来说,目前最为流行的计算框架如Hadoop、Spark,其重点任务大多是ETL类计算。前文提到过,机器学习的计算任务相比于ETL计算有很多不同之处。此外,一些算法框架比如tensorflow等,比较注重研究上的易用性,算法上偏重于深度神经网络一类算法,从而在效率上有所舍弃。而另外一些注重生产应用的算法框架,特别是分布式框架,在算法二次开发上又捉襟见拙。

如何见招拆招,设计出实用的机器学习系统?

那么,设计一个实用的机器学习系统究竟要怎么做呢?这里,我们以第四范式的大规模分布式机器学习框架GDBT(General Distributed Brilliant Technology)为例。它的设计目标可以概括为高效、智能、易开发、易部署、易运维、易扩展、覆盖场景广泛。

1.高效

计算

根据计算硬件的不同特性GDBT采用不同版本的本地计算,尽可能利用好加速指令。同时考虑到不适所有任务都需要分布式执行,所以同时对分布式、单机运行都尽可能做到最优。

存储

不同的存储设备的价格、速度和容量不一样,GDBT要能适应不同的存储配置、最优化存储访问速度、存储使用效率。

网络

通过合理设计计算模式,调配网络通讯GDBT最优化网络通讯延迟、网络使用效率。

高效灾备

因为机器学习算法中间状态很多,为避免overhead问题,GDBT的灾备更加偏重于机器学习算法的核心参数。同时基于不同计算规模,制定不同灾备策略。

2.智能

算法智能

机器学习中特征工程和模型调参需要数据科学家对机器学习算法和实际业务有较深理解。因此,先进的机器学习系统需要提供自动或半自动特征工程,例如GDBT就提供包括自动特征生成、自动特征选择、特征自动组合在内的自动特征工程,以及自动模型调参。

运行智能

根据不同应用场景,GDBT可以自动适配运行方式,获得更高的运行效率。

3.易开发

GDBT提供工业级的开发者易用性,尽量对算法开发者屏蔽底层细节,提供对机器学习组件的良好包装,能够方便实现机器学习所需的各种分布式模式。GDBT上,只需要数百行代码,就可以实现逻辑回归、矩阵分解等算法的分布式版本。

4.部署&维护

GDBT支持多种平台,例如Yarn,Hadoop MR、MPI等,并方便跨平台迁移。它能够实时监控运行状态和进度、方便调试与错误跟踪。

5.覆盖广泛应用场景

通过重新设计、深度整合现有模型和算法,合理设计计算模式和流程,GDBT能够提供更加高效的符合实际应用场景的算法,比如GDBT上的算法能够兼顾离散特征和连续特征,最优化I/O和计算资源的使用效率。

相关推荐
热点推荐
杨幂新的挑战

杨幂新的挑战

娱乐圈酸柠檬
2024-04-24 11:18:28
美欧给了乌克兰1200亿!痛击200亿资金输俄:不把人民利益放眼里

美欧给了乌克兰1200亿!痛击200亿资金输俄:不把人民利益放眼里

大风文字
2024-04-22 16:32:45
致命9-0!我不该下威少,泰伦卢赛后道歉,而卡椒该把球给哈登啊

致命9-0!我不该下威少,泰伦卢赛后道歉,而卡椒该把球给哈登啊

巴叔GO聊体育
2024-04-24 14:37:41
他是比肩钱钟书的天才,却被灌污水整死了

他是比肩钱钟书的天才,却被灌污水整死了

谢小楼
2024-04-22 16:19:01
萨日娜:结婚34年只生孩子不做饭,帅气演员丈夫把她宠成宝

萨日娜:结婚34年只生孩子不做饭,帅气演员丈夫把她宠成宝

娱乐白名单
2024-04-23 12:43:46
1962年,麦克阿瑟听说印度对中国开战后,一番点评十分到位

1962年,麦克阿瑟听说印度对中国开战后,一番点评十分到位

历史龙元阁
2024-04-23 16:26:31
苏群:太阳做了多方面调整仍大败 主因是对戈贝尔变化准备不足

苏群:太阳做了多方面调整仍大败 主因是对戈贝尔变化准备不足

直播吧
2024-04-24 15:28:12
郭书瑶登《浪姐》舞台糗了:说不出来的尴尬! 重现14年造型被赞爆

郭书瑶登《浪姐》舞台糗了:说不出来的尴尬! 重现14年造型被赞爆

ETtoday星光云
2024-04-24 15:44:09
厉害!华润燃气:注册地竟在百慕大! 网友:华润不是央企吗?

厉害!华润燃气:注册地竟在百慕大! 网友:华润不是央企吗?

皖声微言
2024-04-23 18:02:00
央视严正发话啦!针对这五一假期的调整

央视严正发话啦!针对这五一假期的调整

一口娱乐
2024-04-24 13:47:06
沈阳楼市全军覆没,沈阳和平区房价从15000元降至13000元最新分析

沈阳楼市全军覆没,沈阳和平区房价从15000元降至13000元最新分析

有事问彭叔
2024-04-23 17:41:10
不言自明!张康阳更新个人社媒:

不言自明!张康阳更新个人社媒:

直播吧
2024-04-23 18:22:10
伊朗总统警告:如果以色列第二次袭击伊朗,以色列可能不复存在!

伊朗总统警告:如果以色列第二次袭击伊朗,以色列可能不复存在!

李大娱乐糊涂
2024-04-24 08:04:41
北方寒潮级降温预报出现,五一强大冷空气来袭?超算:局部下雪

北方寒潮级降温预报出现,五一强大冷空气来袭?超算:局部下雪

中国气象爱好者
2024-04-24 10:25:29
不敢想象!姚明最后一个NBA队友,38岁高龄啊,还能在豪强打首发

不敢想象!姚明最后一个NBA队友,38岁高龄啊,还能在豪强打首发

球毛鬼胎
2024-04-24 12:59:38
华为发布新品牌华为乾崑

华为发布新品牌华为乾崑

每日经济新闻
2024-04-24 10:31:11
蹊跷!马英九到大陆,台湾花莲地震,洪秀柱到大陆,台湾花莲又地震?

蹊跷!马英九到大陆,台湾花莲地震,洪秀柱到大陆,台湾花莲又地震?

解筱文
2024-04-24 00:07:27
贵州省委办公厅原副主任陈丽萍被“双开”

贵州省委办公厅原副主任陈丽萍被“双开”

界面新闻
2024-04-24 15:23:01
新华社快讯:美国警方证实,一架道格拉斯DC-4型飞机23日在阿拉斯加州坠毁。

新华社快讯:美国警方证实,一架道格拉斯DC-4型飞机23日在阿拉斯加州坠毁。

新华社
2024-04-24 05:48:10
“给我的时间太短了!”前京东副总裁、渐冻人蔡磊病情加重

“给我的时间太短了!”前京东副总裁、渐冻人蔡磊病情加重

齐鲁壹点
2024-04-24 07:54:43
2024-04-24 18:26:44

科技要闻

特斯拉财报差劲 但马斯克做出一个重磅表态

头条要闻

媒体:布林肯抵达上海 美国仍不停释放"施压要价"信号

头条要闻

媒体:布林肯抵达上海 美国仍不停释放"施压要价"信号

体育要闻

足智多谋的哈姆,温水里的青蛙

娱乐要闻

方媛带两女儿参加婚礼,当花童超可爱

财经要闻

居民气价确实在涨,多地正普遍发生

汽车要闻

续航708公里 极狐阿尔法S5展前现身

态度原创

教育
时尚
本地
健康
军事航空

教育要闻

青苗学校受邀作为中国国际学校代表参与京领2024诺奖创新论坛

美妆胶卷 | 520以爱共鸣,满满全释爱!

本地新闻

荒野求生贝爷都得靠边站,真求生还得看留子

这2种水果可降低高血压死亡风险

军事要闻

时隔5年土耳其或首部署俄制防空系统

无障碍浏览 进入关怀版
×