最新消息:

知识图谱构建过程(知识图谱怎么构建)

媒体模版 admin 浏览 评论

知识图谱怎么构建介绍如下:

构建模式、概念本体设计。构建模式和概念本体设计也就是本体的构建,本体的构建一般包括两种方式,有自顶向下和自底向上两种方式。

知识抽取。一般分为两种,一种是先抽取实体后抽取关系的流水线式的方法,一种是同时抽取实体关系。

知识融合。简单介绍一下这两种方法,一种是基于规则的方法,一种是基于深度学习的方法。

知识存储。最后把所有的知识进行存储。

相关拓展

1.知识来源

可以从多种来源获取知识图谱数据,包括文本、结构化数据库、多媒体数据、传感器数据和人工众包等。

每一种数据源的知识化都需要综合各种不同的技术手段。例如,对于文本数据源,需要综合实体识别、实体链接、关系抽取、事件抽取等各种自然语言处理技术,实现从文本中抽取知识。

2.知识表示与Schema工程

知识表示是指用计算机符号描述和表示人脑中的知识,以支持机器模拟人的心智进行推理的方法与技术。知识表示决定了图谱构建的产出目标,即知识图谱的语义描述框架(Description Framework)、Schema与本体(Ontology)、知识交换语法(Syntax)、实体命名及ID体系。

3.知识抽取

知识抽取按任务可以分为概念抽取、实体识别、关系抽取、事件抽取和规则抽取等。传统专家系统时代的知识主要依靠专家手工录入,难以扩大规模。

现代知识图谱的构建通常大多依靠已有的结构化数据资源进行转化,形成基础数据集,再依靠自动化知识抽取和知识图谱补全技术,从多种数据来源进一步扩展知识图谱,并通过人工众包进一步提升知识图谱的质量。

4.知识融合

在构建知识图谱时,可以从第三方知识库产品或已有结构化数据中获取知识输入。例如,关联开放数据项目(Linked Open Data)会定期发布其经过积累和整理的语义知识数据,其中既包括前文介绍过的通用知识库 DBpedia和 Yago,也包括面向特定领域的知识库产品。

5.知识图谱补全与推理

常用的知识图谱补全方法包括:基于本体推理的补全方法,如基于描述逻辑的推理[67-69],以及相关的推理机实现,如RDFox、Pellet、RACER、HermiT、TrOWL等。这类推理主要针对TBox,即概念层进行推理,也可以用来对实体级的关系进行补全。

6.知识检索与知识分析

基于知识图谱的知识检索的实现形式主要包括语义检索和智能问答。传统搜索引擎依靠网页之间的超链接实现网页的搜索,而语义搜索直接对事物进行搜索,如人物、机构、地点等。这些事物可能来自文本、图片、视频、音频、IoT设备等各种信息资源。

高质量医疗资源缺乏且分布不均,对于每年400多万新增的肿瘤患者而言,意味着大量的患者很难获得适合他们的医疗服务。

医疗资源分布不均,即使在一线城市也要面临医疗机构难以提供持续性的、高标准医疗服务的问题——如何解决诊疗资源的紧缺,以及如何实现全国范围内尽可能多的诊疗规范化的扩展覆盖?这些都是在诊疗领域亟待解决的问题。

技术的发展为我们提供了解决这一痛点的契机。随着人工智能的不断成熟,行业正探索通过人工智能技术让机器实现可复制化的服务,让机器实现对每一个患者服务的标准化,且将服务成本降到足够低的规模化的服务能力。这个共性问题正在逐渐得到解决。

CSCO AI就是这样一个解决方案。它是由中国临床肿瘤学会(CSCO)携手国家高新技术企业浙江海心智惠科技有限公司(以下简称“海心智惠”)联合开发,结合CSCO临床诊疗指南、专家临床实践经验、肿瘤知识图谱、高等级临床证据、不良反应管理体系等多维度专业领域知识,协助临床医生制定更规范、更精准的治疗方案。

目前,海心智惠已成功建成国内领先的肿瘤智能服务新平台,为患者提供包含诊疗、康复的全病程一站式管理服务。这其中,海心智惠构建出的领先行业的知识图谱能力是一切的基石所在。

知识图谱是Google在2012年提出来的一个知识网络体系概念,简单地说就是将散落的信息通过语义关系连接起来,转化成可视化的知识网络。知识图谱技术可以对医疗数据进行统一建模、组织和管理,不仅能够有效地描述、挖掘医疗知识间的关系,而且也为更高层次的医学应用比如辅助临床诊疗决策、医疗问答等提供了强有力支撑。

有了知识图谱这样一种知识表现方式,该如何去利用它,就成了摆在海心智惠面前的一道选择题。即便是聚焦到医学领域,去建一个通用医学知识图谱,也只能是把一些疾病的知识、定义梳理整合。

“通用医学知识图谱在临床应会有很大的局限性,它只适合去做一些简单的科普、导诊以及初步判断,如果将深入到疾病和临床诊断过程,甚至整个疾病的管理、跟踪、随访的细节里面去,便会遇到各种各样的问题:每种疾病自身的差异和整个临床治疗相关的知识体系变化延展开来,相互关联又相互影响,使得通用型知识图谱体系在药物选择、后期康复体系决策等方面都会遇到困难。海心智惠创始人李颖赟这样说道。

因此,海心智惠选择用“做深做细”的方式结合人工智能去构建一个肿瘤治疗全病程服务体系的知识图谱,它要将所有和肿瘤相关的知识清晰定义出来,这无疑是知识图谱最完美的应用方向。

“我们在前期花了几年时间把肿瘤从确诊开始到肿瘤进入治疗,再到病人全程管理的知识定义出来,这才把一个比较全面的肿瘤知识图谱建立起来。之所以选择肿瘤这个领域,在于这个疾病的特征是其整个诊疗体系相对其他疾病来讲更加复杂,持续治疗过程时间跨度更长,知识图谱在肿瘤治疗领域能最大程度发挥其作用”,对于为什么选择将知识图谱应用于肿瘤赛道,李颖赟这样解释。

第二个原因则是肿瘤的诊断和治疗的知识每年都在不断更新。

随着科技的发展,某些疾病已经被完全研究透彻,十年前跟十年后的治疗策略并没有本质差异。相比之下,人类仍然未能完全了解肿瘤的发病原理和机制,其治疗是一个日新月异的发展过程。放眼全球来看,医疗机构对于肿瘤治疗的规范性程度并不算高。

医务人员面临非常大的挑战——如何能紧跟国内外的学术前沿发展,并能精准的掌握最新的临床研究进展和治疗方式的扩展,准确地掌握最新的药物和治疗方式,并且运用在最适合的患者身上?

“如果一个城市30年都没有修过新路,那么在这个城市中生活的人其实是不需要地图和导航的——因为什么都没有变。但是,如果这个城市飞速发展,‘三年小变样,五年大变样’,那即便是从小就在这个城市中生活的人在出行时或许也需要导航来指引”,李颖赟用一个简单的例子来说明肿瘤治疗的日新月异。

抗肿瘤全身治疗手段在近十年来已经发生了翻天覆地的变化。十年前可能会以化疗为主,但今天,临床已经有了更多的选择:靶向药治疗、免疫治疗、再到最新的CAR-T细胞治疗等,不胜枚举。这也说明了国内一直在努力尝试建立起更加现代化、规范化的诊疗服务体系,能够让肿瘤患者得到最恰当、最规范、最标准和最合适的治疗。

辅助决策系统就是帮助医生实规范化治疗的最佳工具。CSCO AI的智能辅助决策系统在患者通过APP上传各类医疗诊断资料后,AI自动生成诊疗建议报告并提交至高级别专家审核反馈,AI模型又能根据专家审核结果持续得到闭环训练。在这一套运作系统的背后是海心智惠凝聚专家实力打造的肿瘤领域知识图谱与神经支持决策算法的结合。

透过知识图谱全面的知识体系,海心智惠通过CSCO AI除了在智能辅助诊疗方面实现治疗规范化和均质化外,还实现了院外患者全程管理,从而多方共赢——医院提高治疗总生存率,患者提高生存时间、生存质量和治疗依从性,制药企业也通过数据赋能和数字化平台结合,提高了对患者的支持能力,实现精准诊疗,精准康复支持。

同时,基于全病程管理的临床新药服务体系为患者精准匹配临床研究,提供给患者一个更多的选择可能性。

以精准病情为依托,建立面向患者全治疗周期的内容服务能力,从用药心智建立、正向经验激励、关键节点的强效服务等多维度手段实现高价值的社群平台。这些都是海心智惠服务的特色。

知识图谱是辅助诊疗决策的基础,高质量的数据和专业的知识体系又是知识图谱的基石,因此如何搭建数据层和知识体系,就成了知识图谱质量高低的关键。

CSCO AI的知识图谱并不是凭空创造的,而是把目前临床专家们正在运用的知识进行有效的计算机结构化沉淀以便于再次运用。

这个过程中最重要的就是辨别什么是影响临床决策的知识依据。只有先把这个知识定义清楚之后,才能针对这些知识设计对应的模型。

肿瘤治疗是一种循证医学,必须有充足的证据支撑才能够影响临床决策行为。

然而,肿瘤种类繁多且特异性强——每种肿瘤至少具有3000个临床治疗决策的高等级临床证据。将这些证据结合,才能基本将肿瘤相关的诊疗体系和知识体系构建起来。

“什么样的人群、特征、分子分型、基因位点、在什么情况下接受什么样治疗,能够获得更好的疗效,这是第一层面基础”,李颖赟说道。

在建立第一层面基础后,接下来就需要考虑临床治疗方案与患者体质的契合度,比如,患者身体是否能够承受,其基础疾病和既有并发症是否会对治疗选择产生影响。这是第二层面表现,即临床运用中扩大的知识体系。

在这个过程中,海心智惠CSCO AI是以病情的整个治疗知识为核心构建单个肿瘤最底层的核心知识体系,然后在临床应用中进一步扩展知识体系的建设。这样既能保证有核心证据的专业度,又能显现临床运用过程中医疗的专业度。

鲜为人知的是,“沟通”是知识图谱搭建过程中的最大难点。知识图谱想要从大数据里边提炼知识和关系,需要有不同专业的人员协调配合。

因此,将知识图谱技术运用在特定的业务领域里其实就是一种跨界行为。其难点在于到底由谁来把跨界的知识融合在一起,这是第一个难点。

这意味着,肿瘤知识图谱的构建者需要掌握工程算法并了解肿瘤的所有术语定义及基础医学知识。“如何把知识图谱这项技术运用到一个新的业务领域里去,会有一个天然的障碍,叫知识壁垒。掌握知识图谱技术的人是理工科系的,掌握医学知识的则是医学系的,两者都有各自的思维定式,很难进行专业的学科对话”李颖赟对此表示。

第二道壁垒则是对于专业知识的理解和梳理。

李颖赟认为,只有对知识进行体系化的梳理后才能进行知识图谱的初步搭建。之后,在这个图谱之上进行业务建模;在业务应用时又有新的专业的临床知识输入。计算机如何去运用这些新知识,如何将新知识放在一个具体的患者案例身上进行有效地推理和决策则是第三道壁垒。

因此,医疗知识图谱的搭建最大的难点在于跨学科融合,融合的难点则在于整个过程对两个学科的要求都比较高。

这也正是海心智惠的优势所在——其为中国临床肿瘤学会CSCO的人工智能战略合作伙伴。在学会的推动和帮助下,国内的头部肿瘤专家们基于对于社会责任的高度认知,花了大量时间和精力帮助海心智惠的技术人员理解临床路径并厘清体系脉络。

CSCO AI是第一个基于中国的诊疗指南和诊疗实践开发出的智能辅助决策产品,是从中国的国情出发的具有中国特色基础的,也因此更契合中国的诊疗应用场景。CSCO AI才能在全国数十个省份数百家医院落地,数万名患者因此获益。

不仅如此,CSCO AI在多场景的应用也能实现其更高的临床价值。比如上下级医院的互联互通——患者通过APP线上咨询,医生通过使用CSCO AI作为上下级医院的联动的工具,带动不同层级医院的规范化诊疗。

CSCO AI也可以是科研工具,通过真实病例开展临床研究,从多个角度探索智能决策系统对患者治疗和临床应用的帮助。此外,CSCO AI提供的治疗方案建议遵循循证医学,可以作为科室、医院、医联体、政府等规范化治疗的质量控制工具,提高区域规范化治疗的综合水平。

教学医院还可以将CSCO AI作为住院医生的病例分析学习和考核工具。作为肿瘤患者的治疗决策参考及管理工具,CSCO AI也可以同时在MDT讨论、医生学习、查房、病例讨论等多场景结合应用,从而提升整体临床效果。

海心智惠的肿瘤知识图谱的底层虽然很复杂,但在易用性上却有很好的表现。对于患者来说,只需要按照平台给予的提示步骤进行操作即可,完全没有上手难度。

对于医生来说,海心智惠这套人工智能驱动的全病程管理系统在患者长期治疗管理过程中,实现了系统跟踪能力、监测能力、随访能力和数据管理能力,最终达到在医生、护士和患者之间的效率平衡。

这套依托于知识图谱的个案管理服务的另一亮点在于引入个案管理师角色,在医生和患者之间搭起沟通桥梁。个案管理师既能协助科室完成日常患者管理工作,又能跟踪督促患者完成治疗及康复等相关事项,还能监测并协助医生介入院外不良事件的处理。有了个案管理师的跟进,对患者的诊疗管理也从院内延伸到了院外,将诊疗行为连续化。

对此李颖赟认为:“肿瘤诊疗这个领域未来一定会进入到一个以患者服务为中心的时代。通过人工智能的帮助,多方角色高效率协同帮助患者完成整个治疗管理服务。当然,这个体系目前没办法一蹴而就,还需要在实际使用中不断进化。”

虽然构建了底层如此复杂的知识图谱,但对于知识图谱以及辅助诊疗系统的能力边界,海心智惠是有清醒认知的。

目前,无论是在病理、医学影像、诊疗等领域基于AI技术进行的模型构建、定量分析、特征关联、决策建议、疗效预测等方面的尝试,都只是帮助医生提高诊疗效率、准确率以及预测疗效的能力,赋能医疗行为,并不会干涉到医生的判断决策权。

技术之于医疗,需要常怀敬畏之心。雷峰网

自己建吗可以下载图谱软件构建

可以参考一下这个

SPSS:大型统计分析软件,商用软件。具有完整的数据输入、编辑、统计分析、报表、图形绘制等功能。常用于多元统计分析、数据挖掘和数据可视化。

Bibexcel:瑞典科学计量学家Persoon开发的科学计量学软件,用于科学研究免费软件。具有文献计量分析、引文分析、共引分析、耦合分析、聚类分析和数据可视化等功能。可用于分析ISI的SCI、SSCI和A&HCI文献数据库。

HistCite: Eugene Garfield等人于2001年开发的科学文献引文链接分析和可视化系统,免费软件。可对ISI的SCI、SSCI和SA&HCI等文献数据库的引文数据进行计量分析,生成文献、作者和期刊的引文矩阵和实时动态引文编年图。直观的反映文献之间的引用关系、主题的宗谱关系、作者历史传承关系、科学知识发展演进等。

CiteSpace:陈超美博士开发的专门用于科学知识图谱绘制的免费软件。国内使用最多知识图谱绘制软件。可用于追踪研究领域热点和发展趋势,了解研究领域的研究前沿及演进关键路径,重要的文献、作者及机构。可用于对ISI、CSSCI和CNKI等多种文献数据库进行分析。

TDA: Thomson Data Analyzer(TDA)是Thomson集团基于VantagePoint开发文献分析工具。商用软件。具有去重、分段等数据预处理功能;可形成共现矩阵、因子矩阵等多种分析矩阵;可使用Pearson、Cosine等多种算法进行数据标准化;可进行知识图谱可视化展示。

Sci2 Tools:印第安纳大学开发的用于研究科学结构的模块化工具可从时间、空间、主题、网络分析和可视化等多角度,分析个体、局部和整体水平的知识单元。

ColPalRed: Gradnada大学开发的共词单元文献分析软件。商用软件。结构分析,在主题网络中展现知识(词语及其关系);战略分析,通过中心度和密度,在主题网络中为主题定位;动态分析,分析主题网络演变,鉴定主题路径和分支。

Leydesdorff:系类软件。阿姆斯特丹大学Leydesdorff开发的这对文献计量的小程序集合。处理共词分析、耦合分析、共引分析等知识单元体系。使用“层叠图”实现可视化知识的静态布局和动态变化。

Word Smith:词频分析软件。可将文本中单词出现频率排序和找出单词的搭配词组。

NWB Tools:印第安纳大学开发的对大规模知识网络进行建模、分析和可视化工具.数据预处理;构建共引、共词、耦合等多种网络;可用多种方法进行网络分析;可进行可视化展示.

Ucinet NetDraw: Ucinet是社会网络分析工具。包括网络可视化工具Net Draw。用于处理多种关系数据,可通过节点属性对节点的颜色、形状和大小等进行设置。用于社交网络分析和网络可视化。

Pajek:来自斯洛文尼亚的分析大型网络的社会网络分析免费软件。Pajek基于图论、网络分析和可视化技术,主要用于大型网络分解,网络关系展示,科研作者合作网络图谱的绘制。

VOSviewer:荷兰莱顿大学开发的文献可视化分析工具。使用基于VOS聚类技术技术实现知识单元可视化工具。突出特点可视化能力强,适合于大规模样本数据。四种视图浏览:标签视图、密度视图、聚类视图和分散视图。

[4]陈悦,刘则渊,陈劲等.科学知识图谱的发展历程[J].科学学研究, 2008,(03): 449-460.

[5]Shiffrin, R.M., and Katy Börner. Mapping Knowledge Domains[C]. Proc. Proceedings of the National Academy of Sciences of the United States of America pp. 5183-5185.

[6]Börner, K., Chen, C.和Boyack, K.W. Visualizing knowledge domains[J]. Annual review of information science and technology, 2003, 37,(1): 179-255.

[7]CM, C. CiteSpace II: Detecting and visualizing emerging trends and transient patterns in scientific literature[J]. Journal of the American Society for Information Science and Technology, 2006, 57,(3): 359-377.

[8]陈悦和刘则渊.悄然兴起的科学知识图谱[J].科学学研究, 2005,(02): 149-154.

[9]邱均平.信息计量学[M].(武汉大学出版社, 2007. 2007).

[10]沙勇忠和牛春华.信息分析[M].(科学出版社, 2009. 2009).

[11]塞沃尔,建军和煦.链接分析:信息科学的研究方法[M].(东南大学出版社, 2009. 2009).

[12]Egghe, L.和Rousseau, R. Introduction to informetrics: Quantitative methods in library, documentation and information science[J]. 1990

[13]韩家炜,坎伯,裴健等.数据挖掘:概念与技术[M].(机械工业出版社, 2007. 2007).

[14]Wasserman, S. Social network analysis: Methods and applications[M].(Cambridge university press, 1994. 1994).

[15]Persson, O., R. Danell, J. Wiborg Schneider. How to use Bibexcel for various types of bibliometric analysis[C]. Proc. International Society for Scientometrics and Informetrics., Leuven, Belgium2009 pp. 9–24.

[16]Yang, Y., Akers, L., Klose, T.等. Text mining and visualization tools–impressions of emerging capabilities[J]. World Patent Information, 2008, 30,(4): 280-293.

[17]Börner, K., Huang, W., Linnemeier, M.等. Rete-netzwerk-red: analyzing and visualizing scholarly networks using the Network Workbench Tool[J]. Scientometrics, 2010, 83,(3): 863-876.

[18]廖胜姣.科学知识图谱绘制工具:SPSS和TDA的比较研究[J].图书馆学研究, 2011,(05): 46-49.

[19]Scott, M. WordSmith tools[M].(Oxford: Oxford University Press, 1996. 1996).

[20]Batagelj, V.和Mrvar, A. Pajek- Program for Large Network Analysis[M].(1998. 1998).

[21]Borgatti, S.P., Everett, M.G.和Freeman, L.C. Ucinet for Windows: Software for social network analysis[J]. 2002

[22]Van Eck, N.J.和Waltman, L. VOSviewer: A computer program for bibliometric mapping[J]. 2009

转载请注明:片头模版 » 知识图谱构建过程(知识图谱怎么构建)

发表我的评论
取消评论

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)

网友最新评论 ()