模塊1:知識圖譜概論 |
1. 知識圖譜的起源和歷史
2. 典型知識庫項目簡介
3. 知識圖譜應用簡介
4. 本課程覆蓋的主要范圍:知識表示與建模、知識抽取與挖掘、知識存儲、知識融合、知識推理、語義搜索、知識問答和行業知識圖譜應用剖析等內容。 |
模塊2:知識表示與知識建模 |
1. 早期知識表示簡介
2. 基于語義網的知識表示框架
- RDF和RDFS
- OWL和OWL2 Fragments
- SPARQL查詢語言
- Json-LD、RDFa、HTML5 MicroData等新型知識表示
3. 典型知識庫項目的知識表示
4. 基于本體工具(Protege)的知識建模最佳實踐 |
模塊3:知識抽取與挖掘I |
1. 知識抽取任務定義和相關比賽:實體識別、關系抽取和事件抽取
2. 面向結構化數據(關系數據庫)的知識抽取,包括D2RQ和R2RML等轉換與映射規范與技術介紹
3. 面向半結構化數據(Web tables, 百科站點等)的知識抽取
- 基于正則表達式的方法
- Bootstrapping和Wrapper Induction介紹
4. 實踐展示:基于百科數據的知識抽取
? |
模塊4:知識抽取與挖掘II |
1. 面向非結構化數據(文本)的知識抽取
a. 基于本體的知識抽取,包括NELL和DeepDive系統介紹
b. 開放知識抽取,包括TextRunner、Reverb和OLLIE等系統介紹
2. 知識挖掘
- 知識內容挖掘:實體消歧與鏈接
- 知識結構挖掘:關聯規則挖掘與社區發現
- 知識表示學習與鏈接預測,包括TransE和PRA等算法介紹
|
模塊5:知識存儲 |
1. 基于關系數據庫的存儲設計,包括各種表設計和索引建立策略
2. 基于RDF的圖數據庫介紹
- 開源數據庫:Apache Jena、Sesame、gStore、RDF-3X等
- 商業數據庫:Virtuoso、AllegroGraph、BlazeGraph等
3. 原生圖數據庫介紹,包括Neo4j、OrientDB、Titan和Cayley等
4. 實踐展示:使用Apache Jena存儲百科知識,并使用Fuseki構建圖譜查詢服務 |
模塊6:知識融合 |
1. 知識融合任務定義和相關競賽:本體對齊和實體匹配
2. 本體對齊基本流程和常用方法
- 基于Linguistic的匹配
- 基于圖結構的匹配
- 基于外部知識庫的匹配
3. 實體匹配基本流程和常用方法
- 基于分塊的多階段匹配
- 基于規則(配置或通過學習)的實體匹配
4. 知識融合工具介紹:包括Falcon-AO、Silk、PARIS、DEDUPE、LIMES和KnowledgeVault
5. 實踐展示:使用Falcon-AO融合百度百科與維基百科中的知識 |
模塊7:知識推理 |
1. 本體知識推理簡介與任務分類,包括概念可滿足性、概念包含、實例分類和一致性檢測等
2. 本體推理方法與工具介紹
- 基于Tableaux運算的方法:Fact++、Racer、Pellet和Hermit等
- 基于一階查詢重寫的方法:Ontology-based Data Access的Ontop等
- 基于產生式規則的方法(如Rete):Jena、Sesame和OWLIM等
- 基于邏輯編程(如Datalog)改寫的方法:KAON2和RDFox等
3. 實踐展示:使用Jena完成百科知識上的上下位推理、缺失類別補全和一致性檢測等 |
模塊8:語義搜索 |
1.語義搜索概述,包括Knowledge Card、Rich Snippet、Facebook Graph Search等
2. 基于語義標注的網頁搜索
- Web Data Commons項目介紹
- 排序算法介紹,擴展BM25
3. 基于圖譜的知識搜索
- 本體搜索(ontology lookup)
- 探索式知識檢索,包括查詢構造、結果排序和分面(facets)推薦
4. 知識可視化,包括本體、查詢、結果等的展現方式和可視化分析
5. 實踐展示:使用ElasticSearch實現百科數據的語義搜索 |
模塊9:知識問答I |
1. 知識問答概述和相關數據集(QALD和WebQuestions)
2. 知識問答基本流程
3. 知識問答主流方法介紹
- 基于模板的方法,包括模板定義、模板生成和模板匹配等步驟
- 基于語義解析的方法,包括資源映射,邏輯表達式候選生成與排序等
- 基于深度學習的方法
|
模塊10:知識問答II |
1. IBM Watson問答系統及核心組件詳細解讀
2. 實踐展示:面向百科知識的問答baseline實現 |
模塊11:行業知識圖譜應用 |
1. 行業知識圖譜特點
2. 行業知識圖譜應用,包括金融、醫療、數字圖書館等領域應用
3. 行業知識圖譜構建與應用的挑戰
4. 行業知識圖譜生命周期定義和關鍵組件
? |