首页 - 我们的头条 - 维生素b族,一种新的处理大图的结构PyTorch的BigGraph,古牧

维生素b族,一种新的处理大图的结构PyTorch的BigGraph,古牧

发布时间:2019-04-14  分类:我们的头条  作者:admin  浏览:125

尽管图形结构的丰富性宅男岛和内涵导航功用是机器学习模型的一个很好的挑选,但它们的复杂性带来了巨大的可扩展性应战。

图标明的重要意义

图是机器学习应用程序中的根本数据结构之一。诗展侃前史详细而言,图嵌入办法是无监督学习的一种办法,由于它们运用图结构来学习节点的标明。干流场景中的训维生素b族,一种新的处理大图的结构PyTorch的BigGraph,古牧练数据,例如交际媒体猜测,物联网(IOT)形式检测或药物序列维生素b族,一种新的处理大图的结构PyTorch的BigGraph,古牧建模,运用图形结构自然地标明。

这些场景中的任何一个都能够轻松生成具有数十亿个互连节点的图形。

尽管图形结构的丰富性和内涵导航功用是机器学习模型的一个很好的挑选,但它们的复杂性带来了巨大的可扩展性应战。毫不古怪,现代深度学习结构中对大规模图形数蓝多多来了据结构的支撑依然十分有限。最近,Facebook亮出PyTorch BigGraph,一种新的结构,能够更快,更轻松地为PyTorch模型中的超大图形生成图形嵌入。

在某种程度上,图形结构可被视为符号的练习数据集的代替,由于节点之间的衔接可用于揣度特定联系。

这是经过无监督图嵌入办法遵从的办法,其经过优化具有在它们之间具有边际的节点对的嵌入比没有同享边际的节点对,更挨近方针来学习图中的每个节点的向量标明。这相似于word2vec等词嵌入在文本上的练习办法。

大多数图形嵌入办法在应用于大型图形结构时会发生相当大的约束。举一个比如,一个具有20亿个节点和每个节点100个嵌入参数的模型(标明为浮点数)将需求800GB的内存来存储其参数,因而许多规范办法救世主异界套超越了典型商用服务器的内存容量。代表深度学习模型的首要应战,也是Facebook BigGraph结构的来源。

PyTorch BigGraph

PyT想入斐斐orch BigGraph(PBG)的方针是使图形嵌入模型能够扩展到具有数十亿个节点和数万亿个边际的图形。P维生素b族,一种新的处理大图的结构PyTorch的BigGraph,古牧BG经过启用四个根本构建块完成了这一方针:

  • 图分区,这样模型就不用彻底加载到内存中
  • 每台机器上的多线程核算
  • 跨多台机器的分布式履行,一切机器一起在图形的不相交部分上运转
  • 批量负采样,答应处理> 100万边/秒/机器,每边100负采样

PBG经过将图形结构划分为随机划分为P个穿越之强制多夫分区来处理传统图形嵌入办法的一些缺陷,这些P分区的巨细使得两个分区能够合适存储器。

例如,假如沙玛拉且边际在分区p1中具有源而且在分区p2中具有方针,则将其放入桶(王迦拿p1,p2)中。

在同一模型中,图形边际然后依据其源节点和方针节点分为P义犬荷贝2存储桶。一旦节点和边际被分妻约成婚闲听落花全文区,就能够一次在一个桶上履行练习。桶sama542(p1,p2)的练习仅需求将分区p1和p2的嵌入存储在存储器中。PBG结构确保桶具有至少一个从前练习的嵌入分区。

PBG实在立异的另一个范畴是练习机制的并行化和分配。

PBG运用PyTorch 来完成运用从前所示的块分区结构的分布式练习模型。在该模型中,各个机器运用确定服务器和谐以在不相交的桶上进行练习,该确定服务器将桶包装到工人中以便最小化不同机器之间的通讯。每台付小彦机器都能够运用不同的铲斗并行练习模型。

在上图中,机器2中的Trainer模块从机器1上的确定服务器恳求一个桶,该桶确定该桶的分区。然后,练习师会保存不再运用的一切分区,并从分片服务器加载所需的新分区,此刻它能够在确定服务器上开释其旧分区。然后从同享文件体系加载边际,而且在没有线程间同步的状况下在多个线程上进行练习。在独自的线程中,少数同享参数与分片参数服务器继续同步势利鬼吴生。模型检查点偶然会从练习师写入同享文件体系。该模型答应运用最多P / 2机器并行化一组P桶。

PBG的直接立异之一是运用分批负抽样技能。

传统的图嵌入模型,结构随机"假"边作为负练习样张狂博士玩转科学泫雅的x19例以及实在的正边。这明显加快了练习速度,由于每个新样本只需求更新一小部分权重。可是,负样本终究会在图形处理中引进功能开支,并终究运用随机源节点或方针节点"损坏"实在边际。PBG引进了一种办法,该办法重复运用单批N个随机节点来为N个练习边际发生损坏的负样本。与其他嵌入办法比较,这种技能答应咱们以很少的核算成本练习每个实在边际的许多负面比如。

为了进步大型图形上的内co风湿骨痛宁胶囊存功率和核算资中村玉绪源,PBG运用单批Bn采样源或方针节点构建多个负面示例。在典型设置维生素b族,一种新的处理大图的结构PyTorch的BigGraph,古牧中,P维生素b族,一种新的处理大图的结构PyTorch的BigGraph,古牧BG从练习会集获取一批B = 10gayforlt00个正边际,而且将其分红50个边际的块。来维生素b族,一种新的处理大图的结构PyTorch的BigGraph,古牧自每个块的目的地(等效地,源)嵌入与从尾部实体类型一致采样的50个嵌入衔接。具有200个采样节点的50个正数的外积等于9900个负数示例。

批量负抽样办法对模型练习的速度有直接影响。在没有批处理的状况下,练习速度与负样本的数量成反比。批量练习改进了该等式,完成了继续的练习速度。

Facebook运用不同的图表数据集评价PGB,例如LiveJournal,Twitter数据和YouTube用户交互数据。此外,PBG运用Freebase知识图进行基准测验,该图包括超越1.2亿个节点和27亿个边际以及Freebase图的较小子集,称为FB15k,包括15,000个节点和600,000个边际,一般用作多联系嵌入办法的船尸疑案维生素b族,一种新的处理大图的结构PyTorch的BigGraph,古牧基准。FB15k试验标明PBG的体现与现有的图形嵌入模型相似。可是,当依据完好的Freebase数据集进行评价时,PBG显现内存耗费进步了88%以上。

PBG是第一种能够扩展和练习和处理图形数据到具有数十亿节点和数万亿边际的结构的办法之一。咱们应该期待在不久的将来做出更大的奉献。