<p><strong>傲腾™持久内存加持 优化万亿维特征在线预估系统</strong></p>
<p><span>近日,英特尔与第四范式联合实验室以及新加坡国立大学的最新联合研究成果——基于英特尔</span><span>®</span><span><span> </span>傲腾</span><span>™</span><span>持久内存的特征工程内存数据库,被国际顶级数据库学术会议V</span><span>LDB</span><span>(V</span><span>ery Large Data Base</span><span>)作为常规研究论文录取。V</span><span>LDB</span><span>与SIGMOD并称为数据库业界的两大最顶级学术会议,收录研究机构以及工业界在数据库领域最前沿、最顶级的研究成果。英特尔与第四范式此次合作录取的论文以解决在线预估系统的业务需求和痛点为目的,针对如何设计底层数据库组件来高效支撑万亿维稀疏特征在线预估系统,以及如何基于英特尔</span><span>®<span> </span></span><span>傲腾</span><span>™</span><span>持久内存进一步解决业务和系统设计的痛点等两方面进行创新性设计和全面优化。</span></p>
<p><span>如今,越来越多的企业意识到了</span><span>AI</span><span>在企业经营、决策中的重要作用,A</span><span>I</span><span>迎来了落地应用爆发期。作为A</span><span>I</span><span>落地的关键组件,超高维</span><span>在线预估</span><span>系统基于实</span><span>时提取的</span><span>超高维</span><span>特征和预先训练的模型对</span><span>业务</span><span>数据进行</span><span>实时评估,因而被广泛应用在欺诈交易识别</span><span>、个性化推荐</span><span>等在线实时推理业务场景中。</span></p>
<p><span>为了支撑高性能的实时特征存取需求,业界诞生了诸多实时内存数据库。然而,伴随着业务的持续扩张和数据量的指数级增长,实时内存数据库所存在的潜在弊端与风险使其难以高效、低成本的满足不断增长的业务硬实时需求:</span></p>
<ul>
<li><strong>高性能特征存取</strong><strong>对计算资源消耗巨大:</strong><span>为了保障线上服务的性能,特征工程内存数据库</span><span>对内存的容量要求</span><span>极</span><span>高,企业通常需要配备20-30台机器以满足高性能计算需求所需的内存容量,</span><span>总体拥有成本(T</span><span>CO</span><span>)</span><span>居高不下</span><span>。</span></li>
<li><strong>服务中断</strong><strong>恢复</strong><strong>所需</strong><strong>周期</strong><strong>长,</strong><strong>严重影响企业线上服务质量:</strong><span>企业线上服务对</span><span>服务质量</span><span>的要求极高,然而通常情况下</span><span>服务中断(软硬件错误宕机、例行维护等)</span><span>往往需要几个小时的恢复时间,业务长时间掉线严重影响线上服务质量</span><span>。</span></li>
<li><strong>长尾延迟</strong><strong>:</strong><span>使用基于内存的特征工程数据库保障了线上服务的高性能,但是数</span><span>据备份</span><span>依然会落盘到性能较差的外存储设备上,导致某些场景出现长尾延迟,严重影响服务质量。</span></li>
</ul>
<p><span>为解决以上问题,第四范式自主研发</span><span>了</span><span>实时特征工程内存数据库FEDB(</span><span>F</span><span>eature</span><span><span> </span>E</span><span>ngineering</span><span><span> </span>D</span><span>atabase)。作为面向AI硬实时场景的分布式特征数据库,FEDB所具备的高效计算、读写分离、高并发、高性能查询等特性,使得特征工程的效率和性能达到最大化。</span></p>
<p><span>在充分发挥F</span><span>EDB</span><span>价值的基础上,第四范式引入英特尔</span><span>®</span><span><span> </span>傲腾</span><span>™</span><span>持久内存技术,以及创新性的持久化数据结构,全面支撑AI硬实时、低成本、高计算性能等需求的实现。双方基于英特尔</span><span>®<span> </span></span><span>傲腾</span><span>™</span><span>持久内存,使用A</span><span>pp Direct Mode</span><span>,开发优化持久化数据结构,完全摒弃了</span><span>FEDB</span><span>原有的基于外存储设备的数据持久化架构,不仅充分利用了持久内存大容量、持久性的特性,而且将持久化操作带来的性能损耗降至最小。</span></p>
<p><span>该工作主要的创新性优化技术包括</span><span>“持久化智能指针”</span><span>以及利用</span><span>原子操作“持久化比较并交换”(Atomic Persistent Compare-And-Swap")</span><span>的解决方案。一方面,</span><span>持久化智能指针巧妙地利用了64位操作系统中64位宽指针不被使用的低4位来标记目标地址的数据是否已持久化</span><span>;另一方面,针对</span><span>“比较并交换操作”(CAS),传统指令</span><span>缺少</span><span>持久化语义,</span><span>因而</span><span>无法在</span><span>持久内存</span><span>中直接作为带有持久化特性的原子操作来使用</span><span>的难点</span><span>,</span><span>双方</span><span>引入了新的“读前持久化”(flush-before-read)概念,利用持久化智能指针,保证“持久化比较并交换” (Persistent CAS)正确性的同时,最大化减少持久化带来的性能损耗</span><span>。</span></p>
<p><span>此项工作的研究成果表明,基于英特尔</span><span>®<span> </span></span><span>傲腾</span><span>™</span><span>持久内存的FEDB可有效满足企业超高维稀疏特征在线预估场景的需求,在</span><span>保证线上推理服务超高性能的同时,大幅降低</span><span>了</span><span>企业AI整体投入成本,提升</span><span>了</span><span>线上服务</span><span>的</span><span>质量,进一步扫清了企业AI规模化应用的障碍。</span></p>
<p><span>-</span><span>英特尔</span><span>®<span> </span></span><span>傲腾</span><span>™</span><span>持久内存的加持</span><span>满足</span><span>特征工程数据库</span><span>对大内存的需求</span><span>。下图显示了在论文实验中使用的机器配置,在</span><span>10TB</span><span>数据的业务场景中,基于持久内存的F</span><span>EDB</span><span>的硬件成本仅</span><span>为</span><span>基于纯内存版本的4</span><span>1.6%</span><span>。</span></p>
<p><img alt="硬件成本比较(10TB业务数据)" data-entity-type="file" data-entity-uuid="54a286cd-42be-4098-bb36-fe1581005b1f" src="http://new.eetrend.com/files/2021-01/wen_zhang_/100060817-118786-1.jpg&…; /></p>
<p><em><span>硬件成本比较(1</span><span>0TB</span><span>业务数据)</span></em></p>
<p><span>-</span><span>在</span><span>服务中断</span><span>情况下实现数据快速恢复,服务恢复时间减少99.7%,全面降低对线上服务质量的影响</span><span>。如在论文中描述的结果(见下图,P</span><span>A-FEDB</span><span>为基于持久内存优化的F</span><span>EDB</span><span>,D</span><span>-FEDB</span><span>为内存版本的F</span><span>EDB</span><span>),在实际业务场景中,其数据恢复时间从原来的六个小时缩短至一分钟左右。</span></p>
<p><img alt="数据恢复时间比较" data-entity-type="file" data-entity-uuid="925edefb-3fe2-4ae1-9bd6-a47932e7887b" src="http://new.eetrend.com/files/2021-01/wen_zhang_/100060817-118787-2.jpg&…; /></p>
<p><em><span>数据恢复时间比较</span></em></p>
<p><span>持久内存(P</span><span>A-FEDB</span><span>)</span><span>vs.<span> </span></span><span>纯内存(</span><span>D-FEDB</span><span>)</span></p>
<p><span>-</span><span>基于英特尔</span><span>®<span> </span></span><span>傲腾</span><span>™</span><span>持久内存进行持久化数据结构设计的F</span><span>EDB</span><span>舍弃了原有纯内存方案以及基于外存储设备的备份机制,实现了</span><span>长尾延迟</span><span>(T</span><span>P-9999</span><span>)接近2</span><span>0%</span><span>的改善(见下图,P</span><span>A-FEDB</span><span>为基于持久内存优化的F</span><span>EDB</span><span>,D</span><span>-FEDB</span><span>为内存版本的F</span><span>EDB</span><span><span> </span>)。</span></p>
<p><img alt="长尾延迟TP-9999比较" data-entity-type="file" data-entity-uuid="89ea2fd5-c1dc-4d6e-9498-0ff9b3d81306" src="http://new.eetrend.com/files/2021-01/wen_zhang_/100060817-118788-3.jpg&…; /></p>
<p><em><span>长尾延迟T</span><span>P-9999</span><span>比较</span></em></p>
<p><span>持久内存(</span><span>PA-FEDB)vs.<span> </span></span><span>纯内存(</span><span>D-FEDB</span><span>)</span></p>
<p><span>未来,英特尔与第四范式联合实验室还将在软硬一体技术、面向AI的高性能计算等方面展开深入合作,结合英特尔领先的软硬件产品以及第四范式在AI领域的深厚积累、研发优势,推动AI技术的创新和落地,加速企业规模化A</span><span>I</span><span>应用进程,共同引领A</span><span>I</span><span>产业化发展。</span></p>
<p><strong>关于英特尔</strong></p>
<p><span>英特尔(</span><span>NASDAQ: INTC</span><span>)作为行业引领者,创造改变世界的技术,推动全球进步并让生活丰富多彩。在摩尔定律的启迪下,我们不断致力于推进半导体设计与制造,帮助我们的客户应对最重大的挑战。通过将智能融入云、网络、边缘和各种计算设备,我们释放数据潜能,助力商业和社会变得更美好。</span><span>如需了解英特尔创新的更多信息,请访问英特尔中国新闻中心</span><a href="http://newsroom.intel.cn/"><span>newsroom.intel.cn</span></a><span>&nbs… href="http://www.intel.cn/"><span>intel.cn</span></a><span>。</span></p>