人工智能和知识图谱四:知识图谱的超大规模产品

愤怒的蜗牛

人工智能和知识图谱四:知识图谱的超大规模产品

一、亚马逊网络服务 (AWS) — Amazon Neptune

AWS 的主要图形数据库服务是Amazon Neptune,这是一款完全托管的图形数据库引擎。Neptune 功能多样,既支持 使用 SPARQL 查询的RDF 模型,也支持使用 Apache TinkerPop Gremlin 查询的属性图模型。这种双重支持使 Neptune 适用于各种 KG 实现——您可以使用 RDF/OWL 存储语义知识图并通过 SPARQL 进行查询,或者将属性图方法与 Gremlin 结合使用。

1.Neptune 强调云原生和可扩展性:它可以处理数十亿个关系,并具有读取副本等功能,可水平扩展读取吞吐量,并通过集群实现高可用性。Neptune 值得注意的集成之一是Neptune ML,它利用 Amazon SageMaker 对图形数据执行机器学习。 Neptune ML 使用深度图库 (DGL) 基于您的 Neptune 数据训练图神经网络模型,从而能够直接在数据库中的图上执行链接预测或节点分类等任务。这使得在知识图谱之上构建人工智能变得更加容易,而无需将数据拉入单独的机器学习管道。

2.在功能方面,Neptune 支持时间点恢复、静态加密和 VPC 隔离,以满足企业需求。其市场用例包括知识图谱、身份图谱、欺诈检测网络、推荐引擎等。例如,Amazon Alexa 团队使用 Neptune 来存储和查询 Alexa 知识图谱以进行问答。

3.在定价方面: Neptune 的定价模式是 AWS 数据库的典型定价模式,您需要按实例小时数(实例大小不同)、使用的存储空间和 I/O 操作付费。根据最近的定价,db.r5.large美国地区的一个实例每小时费用约为 0.23 美元。如果您需要副本来实现读取扩展,则每个副本都是另一个以类似方式收费的实例。存储按每月每 GB 收费,I/O 请求按每百万次请求收费。除了 SageMaker 的训练实例费用外,Neptune ML 没有其他费用(AWS 指出,Neptune 不会对 ML 集成收取额外费用)。这意味着,如果您启用 Neptune ML,则需要为所使用的 ML 实例/时间付费。AWS 采用按需付费模式,小型开发者可以相对便宜地在 Neptune 上进行实验,甚至还有几个月的免费试用套餐,而企业则可以配置大型集群(使用多可用区以提高弹性)。

4.在AI集成方面:除了 Neptune ML,AWS 还提供其他可与图数据集成的 AI 服务。例如,Amazon Comprehend(用于自然语言处理)可以从文本中提取实体,然后将其添加到 Neptune 以丰富知识图谱。此外,还有用于数据集成的 AWS Glue,可以将数据输入 Neptune。AWS 已经发布了一些示例,例如“欺诈图谱笔记本”展示了如何使用 Neptune 进行欺诈团伙检测,并将其与 SageMaker 连接进行预测建模。总体而言,AWS 的策略是提供一个稳定的图形数据库核心(Neptune),并允许用户将其连接到 AWS 生态系统中的各种分析和机器学习工具。

二、Google Cloud——企业知识图谱及相关服务

 Google 在内部大规模使用知识图谱,Google 知识图谱支持 Google 搜索的功能,可以回答诸如“埃菲尔铁塔有多高?”之类的事实性问题。对于外部客户,Google Cloud 除了 API 和解决方案框架外,没有同名的单一“Google 知识图谱”产品:

1.知识图谱搜索 API:谷歌提供了一个功能有限的知识图谱搜索 API,允许开发者通过名称或关键字查询谷歌公共知识图谱中的实体。这将返回实体元数据(例如 ID、描述和一些已知属性)。然而,该 API 的使用范围相当有限,主要用于基本的实体识别或查找,而非完整的图数据库解决方案(并且受到配额等限制)。

2.企业知识图谱解决方案: 2022-2023 年,谷歌云推出了企业知识图谱 (EKG)解决方案,本质上是在 GCP 上构建知识图谱的工具包。它并非单一的托管图形数据库,而是提供实体协调 API (Entity Reconciliation API)等服务,并提供使用现有 GCP 服务构建知识图谱的指南。例如,实体协调 API 是一种人工智能驱动的服务,用于跨数据集匹配和去重实体(例如,解析一个数据库中的“Bob J. Smith”和另一个数据库中的“Robert Smith”是同一个人)。它利用谷歌的知识和机器学习进行大规模模糊匹配,在底层聚类分析中处理多达“数十亿个节点和数万亿条边”[37]。本质上,谷歌正在利用其在实体解析方面的经验将其作为一项服务提供,这是从孤立数据构建干净的知识图谱的关键一步。 EKG 还包含将关系数据转换为 RDF 图的工具(文档中提到将 BigQuery 表转换为 RDF 三元组)。因此,谷歌的方法更面向解决方案:他们提供构建企业级知识图谱的构建模块——存储可以存储在 BigQuery 中(使用邻接表或图结构),并通过 AI API 进行分析。

3.图形数据库选项:有趣的是,谷歌云并没有像 Neptune 或 Cosmos DB Graph 这样的原生图形数据库产品。相反,他们与企业合作或鼓励使用谷歌云市场上的平台(例如,Neo4j 的云服务 Neo4j Aura 可在 GCP 上使用)。谷歌也提到了其内部图形引擎,但并未正式发布。不过,人们当然可以在 GCP 虚拟机上运行开源图形数据库,或者使用 BigQuery 的新图形扩展(BigQuery 推出了一些图形分析功能和执行递归 SQL 的能力,可以模拟某些图形查询)。谷歌云解决方案资源管理器提供了知识图谱的模式,通常将 BigQuery 与机器学习相结合。此外,还有Vertex AI(谷歌的机器学习平台),它可以与知识图谱数据一起使用——例如,构建一个引用知识图谱特征的人工智能模型。

4.AI 集成与定价:谷歌的知识图谱 (KG) 相关服务(例如知识图谱搜索 API)按 API 调用次数计费(有免费配额)。实体协调 API 可能会按使用量计费(作为 Vertex AI 或数据集成成本的一部分)。谷歌倾向于对数据处理和存储收费(BigQuery 按扫描的 TB 和存储的 TB 收费)。如果您使用 BigQuery 托管知识图谱(表格形式,例如三重表),则查询将按扫描的每条数据收费。用于知识图谱构建的 Vertex AI 流水线(例如运行 TensorFlow 模型以嵌入知识图谱)将产生计算费用。谷歌也一直在探索图谱 + 知识图谱 (LLM) 集成——例如,他们已经发表了关于将 PaLM 语言模型与知识图谱信息相结合以获得更佳答案的文章。在其 GenAI 产品中,“Vertex AI 搜索”和“Vertex AI 对话”工具可能会选择在后端使用知识图谱。例如,谷歌的生成式 AI 应用构建器可以查询知识库或向量数据库作为响应的一部分,尽管细节正在浮现。

综上所述,谷歌云的战略有些割裂:他们拥有面向消费者的专有且庞大的知识图谱(KG,搜索),以及面向企业的工具(EKG、API),帮助企业利用谷歌的技术构建自己的知识图谱。这些功能虽然强大(例如,通过实体解析对数十亿条记录进行聚类),但需要集成,而且不像 Neptune 那样提供单一的交钥匙数据库。使用 GCP 的组织通常会将这些服务整合在一起:使用 Cloud Storage/BigQuery 处理数据,使用 AI API 进行处理,或许还会使用第三方图数据库进行查询。

三、Microsoft Azure — Azure Cosmos DB(Gremlin API)和认知服务

Microsoft 主要通过适用于 Apache Gremlin 的 Azure Cosmos DB提供图形功能。Cosmos DB 是 Azure 的全球分布式多模型数据库,其 API 之一是 Gremlin(图形)API,它支持属性图形数据和 Gremlin 查询/遍历语言。这实际上允许您将 Cosmos DB 用作类似于 Neo4j 的托管图形数据库,但它是云原生的并且跨区域分布。Cosmos DB 的 Gremlin API 是无模式的(您可以随时定义顶点和边标签),非常适合需要高可用性和扩展的应用程序。Azure Cosmos 可以自动跨分区对图形进行分片以实现扩展,并提供有保证的延迟和吞吐量(您配置 RU/s - 每秒请求单位)。

这种定价模型是基于吞吐量的 ,您需要为预配置的 RU/s 和存储付费。例如,您可以配置 10,000 RU/s(对应于每秒一定数量的读/写容量),并按小时收费,无论使用情况如何。如果过度配置,Cosmos DB 的成本可能会很高,但如果调整得当,它可以确保快速的性能。Azure 还推出了适用于 PostgreSQL 的 Cosmos DB(带有 pgGraph) ——但这在其他类型的图数据库方面还处于预览阶段。除了数据库之外,微软还在Azure 认知服务中利用知识图谱。知识类别中有一个认知服务子集,历史上包括 QnA Maker(现在是 Azure 语言认知服务的一部分,用于从文档构建常见问题机器人)。还有Azure 认知搜索,它具有知识存储的概念,它可以将从文档中提取的丰富内容存储在类似图形的结构中(链接实体的表格或 JSON)。

微软的研究有几个知识驱动的项目:例如,知识探索服务(KES),它支撑了一些学术搜索,以及现已退役的微软学术图谱 (Microsoft Academic Graph)。微软的必应 (Bing) 虽然没有直接以产品形式呈现,但它拥有自己的 Satori 知识图谱,可在必应搜索和 Windows 系统中使用(类似于谷歌为谷歌搜索提供的 KG)。对于企业,Azure 建议使用Azure Databricks或Synapse等模式来处理数据,然后将关系存储在 Cosmos DB 或带有图扩展的 Azure SQL 中。Azure上的人工智能集成现在有一个流行的概念:图谱 + RAG(检索增强生成)。微软发布了“GraphRAG”方法,将知识图谱与 Azure OpenAI(提供 GPT 模型)结合使用,以改进响应。例如,与其仅使用文本块作为 GPT-4 模型的知识,不如使用图谱检索相关事实的子图并将其提供给模型,或者让模型生成在图谱上执行的查询。事实上,微软在 GitHub 上的示例代码 (GraphRAG) 展示了从文档中提取知识图谱并将其与 LLM 结合使用的流程。这反映了 Azure 如何将知识图谱集成到其 AI 堆栈中,以支持需要更好数据基础的企业用例。

四、IBM Cloud

 IBM 的知识图谱方法通常通过解决方案而非单一的云服务实现。IBM 在知识表示方面有着悠久的历史,例如IBM Watson 在 Jeopardy 上的成功就体现在问答对和本体的知识图谱上。IBM 提供的Cloud Pak for Data包含一个知识目录——主要用于数据治理(元数据管理),但也可以看作是企业数据资产知识图谱的一部分。IBM 的研究和咨询部门经常提供定制的知识图谱解决方案,例如,为金融或医疗保健领域的客户构建知识图谱。IBM 确实在 2017 年左右创建了一款名为IBM Knowledge Graph的产品,作为 IBM Cloud 上的一项服务,专注于从结构化和非结构化数据创建知识图谱,但现在它并不十分突出(IBM 的云经历了许多变化)。相反,IBM 目前的叙述将知识图谱与其Watson AI 服务和Watsonx(他们的新 AI/LLM 平台)联系在一起。他们主张使用知识图谱来实现值得信赖的人工智能。例如,IBM 数据科学博客 (2025) 中一篇关于实现Graph RAG 的文章在 Watsonx.ai 环境中使用了 Memgraph(一个开源图形数据库)。IBM 的策略似乎是在需要的地方集成开放技术——他们可能会部署 Neo4j 或 Neptune 来解决问题,并结合 IBM 自己的 NLP 来填充图形。IBM 强调知识图谱在某些行业中的作用:在医疗保健领域,他们将知识图谱与 NLP 相结合以协助临床决策,例如,Watson for Oncology 系统使用了精心挑选的疾病、药物、试验的医学知识图谱;在金融领域,他们将知识图谱与可解释的人工智能相结合以遵守法规;在制造业,他们将知识图谱用于供应链和物联网(数字孪生)。IBM 已经撰写了关于知识图谱的文章,使人工智能更易于解释、更透明,并符合负责任的人工智能原则。IBM 员工在《福布斯技术委员会》上发表的文章可能会指出,知识图谱通过显式编码知识使人工智能系统更易于检查和控制。

在功能方面: IBM 的知识图谱解决方案通常包括从文本中提取实体和关系的工具(利用 IBM 的自然语言处理 (NLP))、本体管理(IBM 多年来一直为 RDF/OWL 标准做出贡献),有时还包括逻辑规则(IBM 在 ILP 和规则系统方面拥有专业知识)。它们通常采用开源技术:例如,使用 JanusGraph(IBM 参与开发,因为它是从 Titan 分叉而来的)作为大规模图存储的后端。IBM 还有一款名为Watson Discovery 的产品,它通过构建知识图谱或至少是企业内容的语义索引来进行认知搜索。

在定价方面:对于 IBM,如果使用 Cloud Pak for Data,则更像是一种许可模式(为软件和云基础设施付费)。对于 Watson 服务,通常基于 API 调用进行定价(例如 NLU、Discovery 按 1000 个项目定价等)。IBM 的方法通常是解决方案驱动的,因此确切的定价会根据每个项目量身定制。例如,如果一家银行聘请 IBM 来实施欺诈知识图谱,则成本包含 IBM 服务以及任何云使用费用。

五、小结

每个超大规模器在其堆栈中集成知识图谱的方式不同:

AWS:提供一个简单的托管图形数据库 (Neptune),可以作为知识图谱的骨干,并与 AWS ML 服务紧密集成(使用 SageMaker 的 Neptune ML)。定价按小时和按请求计算,这是 AWS 数据库服务的典型做法。

谷歌:谷歌在搜索领域利用其自身无与伦比的知识图谱,同时为客户提供企业级知识图谱框架(具有谷歌规模的实体协调功能)等工具,并鼓励使用其数据云 (BigQuery) 和机器学习 (Vertex) 构建知识图谱。他们确实有一个面向开发人员的知识图谱搜索 API,用于基本信息检索 。这些组件的定价通常基于使用情况。

Azure:通过 Cosmos DB 的 Gremlin API(全球分布,基于 RU 定价)提供图形功能,并将知识图谱集成到认知解决方案中(例如,AI Search 的知识存储、Graph RAG 模式)。Azure 的 OpenAI 服务可以与知识图谱结合,构建高级问答或搜索功能。

IBM:专注于利用知识图谱 (KG) 构建可信的人工智能和领域解决方案,并结合使用 IBM 和开源工具。他们强调咨询式的混合方法——例如,展示如何在 IBM 的人工智能平台 (Watsonx) 中使用开放图谱数据库。定价更偏向企业软件导向或基于服务参与。

所有超大规模企业都认识到知识图谱是现代人工智能架构的关键组成部分。Gartner 的 2024 年技术成熟度曲线显示,知识图谱对于增强人工智能战略的重要性日益提升。它们的产品允许企业利用云规模的基础设施构建知识图谱,并将其与人工智能服务集成,实现知识驱动的人工智能。竞争也促使它们不断改进:AWS 增加了Neptune Serverless等用于自动扩展的功能,谷歌投资AutoML 用于实体提取,微软创建了从非结构化数据到知识的无缝管道(通过认知搜索和 Power BI 集成),IBM 专注于将知识 + 治理作为人工智能的一部分。用户现在有很多选择可以在云端开始使用知识图谱,而无需从头开始管理自己的图形数据库服务器。


您需要 登录账户 后才能发表评论

发表评论

快捷回复: 表情:
AddoilApplauseBadlaughBombCoffeeFabulousFacepalmFecesFrownHeyhaInsidiousKeepFightingNoProbPigHeadShockedSinistersmileSlapSocialSweatTolaughWatermelonWittyWowYeahYellowdog
评论列表 (暂无评论,8人围观)

还没有评论,来说两句吧...

目录[+]

取消
微信二维码
微信二维码
支付宝二维码