ประวัติศาสตร์และวิวัฒนาการของ Knowledge Base

กว่าหกสิบปีที่มนุษย์ถามคำถามเดียวกันซ้ำ ๆ ว่า "เราจะทำให้เครื่องจักร จดจำ และ เข้าใจ สิ่งที่เรารู้ได้อย่างไร?" คำตอบเปลี่ยนไปทุกยุค — จากกฎที่เขียนด้วยมือ สู่กราฟความหมาย สู่ดัชนีคำ สู่โน้ตที่เชื่อมโยงกัน และล่าสุดคือ AI ที่สังเคราะห์ความรู้ให้เราเอง บทนี้คือเรื่องเล่าของการเดินทางนั้น และปลายทาง (ชั่วคราว) ที่ชื่อว่า OKF

หมายเลข [n] ชี้ไปยังแหล่งข้อมูลอ้างอิงท้ายเล่ม

flowchart LR
  E1["1960s–80s
Expert systems"] --> E2["1990s–2000s
Semantic Web"] --> E3["1970s–2010s
Databases & IR"] --> E4["1995–2020
Wiki & PKM"] --> E5["2012–2020s
AI / RAG"] --> E6["2026
LLM-wiki & OKF"]

องก์ที่ 1 — ยุคที่เราพยายาม"ป้อน"ความรู้ให้เครื่องด้วยมือ

ทศวรรษ 1960 ที่ Stanford นักวิทยาศาสตร์กลุ่มหนึ่งเชื่อว่าความฉลาดในเรื่องแคบ ๆ จับได้ด้วยการ เข้ารหัสความรู้ของผู้เชี่ยวชาญออกมาเป็นกฎ แล้วให้เครื่องให้เหตุผลบนนั้น พวกเขาสร้าง DENDRAL (1965) ที่วิเคราะห์โครงสร้างโมเลกุลจาก mass spectrometry ได้เทียบเท่านักเคมี [1] — เป็นครั้งแรกที่โลก เห็นว่า "ความรู้" ไม่ใช่ "การค้นหา" ต่างหากคือกุญแจของ AI

ไม่กี่ปีถัดมา MYCIN (ต้นยุค 1970, Edward Shortliffe) ใช้กฎ IF-THEN ราว 600 ข้อ วินิจฉัยการติดเชื้อ ในเลือดได้แม่นพอ ๆ กับแพทย์อาวุโส และยัง อธิบายเหตุผลของตัวเองได้ [1] หัวใจของมันคือสถาปัตยกรรมที่ ยังอยู่กับเราจนวันนี้ — แยก knowledge base (สิ่งที่รู้) ออกจาก inference engine (วิธีคิด):

IF   ชนิดการติดเชื้อ = primary-bacteremia
AND  ตำแหน่งเพาะเชื้อ = blood
AND  ช่องทางเข้า = gastrointestinal-tract
THEN มีหลักฐานพอควร (CF = 0.4) ว่าเชื้อคือ Bacteroides

แต่ความฝันมาเจอกำแพง ปี 1984 Douglas Lenat เริ่มโครงการ Cyc — ความพยายามป้อน "สามัญสำนึก" ของ มนุษย์ ทั้งหมด ด้วยมือ [1] หลายสิบปีและหลายสิบล้านดอลลาร์ผ่านไป โลกได้บทเรียนราคาแพงที่เรียกว่า "knowledge acquisition bottleneck": การป้อนความรู้ด้วยมือไม่มีวัน scale

🧬 DNA ที่ตกทอดสู่ OKF: การแยก "ความรู้ (ไฟล์)" ออกจาก "เครื่องที่ใช้ความรู้ (agent)" — โครงสร้าง producer/consumer ของ OKF คือลูกหลานโดยตรงของแนวคิดนี้

องก์ที่ 2 — ยุคที่เราพยายามให้ "ความหมาย" แก่เว็บ

ปี 2001 ผู้ให้กำเนิดเว็บอย่าง Tim Berners-Lee เขียนบทความใน Scientific American ฝันถึง Semantic Web [2] — เว็บที่ไม่ใช่แค่เอกสารให้คนอ่าน แต่เป็นข้อมูลที่ เครื่องเข้าใจความหมาย ได้ เขา เสนอให้เก็บความรู้เป็น triple สามส่วน (subject–predicate–object) ซึ่งก็คือ "เส้นเชื่อมในกราฟ" นั่นเอง:

@prefix ex: <http://example.org/> .
ex:TimBernersLee  ex:invented  ex:WorldWideWeb .

ด้วยภาษา RDF, OWL, SPARQL เครื่องจะอนุมานข้อเท็จจริงใหม่จากกราฟได้เอง [2] มันงดงามในทางทฤษฎี — แต่การเขียน ontology ให้ถูกต้องนั้นยากเกินกว่าคนทั่วไปจะทำไหว ปี 2013 มีเว็บใช้ markup เชิงความหมาย ไม่ถึง 2% สิ่งที่รอดและเฟื่องฟูแทนคือทายาทที่ "ใช้ง่ายกว่า" — linked data, schema.org (2011), และ knowledge graph [2]

🧬 DNA สู่ OKF: ความรู้ที่เชื่อมโยงเป็นกราฟมีค่ามหาศาล — แต่ OKF เลือก "ลิงก์ Markdown ธรรมดา" (untyped) แทน RDF/OWL ที่เข้มงวด เพื่อให้คนเขียนได้จริง

องก์ที่ 3 — ยุคที่เราเรียนรู้จะ "ค้น" อย่างชาญฉลาด

ระหว่างที่ AI ฝันใหญ่ อีกสายหนึ่งทำงานเงียบ ๆ แต่เปลี่ยนโลก ปี 1970 Edgar Codd แห่ง IBM เสนอ relational model ทำให้ข้อมูลเก็บเป็นตารางและ query ด้วย SQL ได้ [3] แต่มันจับคู่แบบตรงตัว ค้นข้อความ อิสระแล้วจัดอันดับความเกี่ยวข้องไม่ได้

คำตอบมาจาก Karen Spärck Jones (1972) ผู้เสนอ IDF — ความคิดเรียบง่ายแต่ลึกซึ้ง: คำที่พบในเอกสาร น้อยชิ้น คือสัญญาณที่ทรงพลังกว่าคำที่พบทุกที่ [3] รวมกับ term frequency กลายเป็น TF-IDF และต่อมา BM25 (~1994) ที่ยังเป็นมาตรฐาน lexical search ถึงวันนี้ ลองดูตัวอย่างจิ๋ว — คำว่า "the" อยู่ทุกเอกสาร จึงไร้ค่าในการแยกแยะ แต่คำว่า "dog" ที่อยู่เอกสารเดียวกลับโดดเด่น:

คำ	เอกสาร	ค่าความเด่น
the	D1, D2, D3	0 (ไร้ค่า)
dog	D3	สูง

เมื่อ Doug Cutting ปล่อย Lucene (1999) และต่อมา Elasticsearch (2010) full-text search ระดับอุตสาหกรรมก็อยู่ในมือทุกคน [3] ข้อจำกัดเดียวที่ยังค้างคา: มันเป็น lexical — ค้น "car" จะพลาด "automobile" เพราะไม่เข้าใจความหมาย

🧬 DNA สู่ OKF: BM25 ยังทรงพลังและเบามาก — tools/okf-index.py ใช้มันเป็น search หลัก

องก์ที่ 4 — ยุคที่ความรู้กลายเป็นของทุกคน

ปี 1995 Ward Cunningham สร้าง WikiWikiWeb เว็บแรกที่ใครก็แก้ได้ [4] หกปีถัดมา Wikipedia (2001) พิสูจน์ว่าความรู้ของมวลมนุษย์เติบโตได้ด้วยการเปิดให้ทุกคนร่วมเขียน [4]

แต่เรื่องที่น่าทึ่งที่สุดเกิดก่อนหน้านั้นบนโต๊ะของนักสังคมวิทยาชาวเยอรมัน Niklas Luhmann ผู้สะสมกล่อง บัตร Zettelkasten ราว 90,000 ใบ แต่ละใบเชื่อมโยงถึงกัน เขาผลิตหนังสือกว่า 50 เล่มจากมัน และทิ้ง หลักการอมตะไว้: "คุณค่าไม่ได้อยู่ที่ตัวโน้ต แต่อยู่ที่ลิงก์ระหว่างโน้ต" [4]

ยุคดิจิทัลค้นพบหลักการนี้ใหม่ราวปี 2016–2020 ผ่าน Notion, Roam, Obsidian — ทั้งหมดวางอยู่บน Markdown + [[wikilinks]] ที่ชนะสงครามฟอร์แมตเพราะเหตุผลทบกัน: คนอ่านออกโดยไม่ต้อง render และ เครื่องอ่านออกโดยไม่ต้อง parser พิเศษ [4]

---
title: "Zettelkasten Principle"
tags: [pkm]
---
คุณค่าของกล่องบัตรอยู่ที่ **ลิงก์ระหว่างโน้ต** — ดูเพิ่ม [[Obsidian]]

🧬 DNA สู่ OKF: นี่คือพันธุกรรมที่ตรงที่สุด — Markdown + YAML frontmatter + ลิงก์ระหว่าง concept คือหน้าตาของ OKF เป๊ะ ๆ

องก์ที่ 5 — ยุคที่ "ความหมาย" กลายเป็นเรขาคณิต

ปี 2013 ทีมของ Tomas Mikolov ที่ Google เปิดเผยสิ่งที่ดูเหมือนเวทมนตร์: word2vec แปลงคำเป็น เวกเตอร์ที่ "ความหมายใกล้ = ตำแหน่งใกล้" จนทำเลขคณิตของความหมายได้ [5]

flowchart LR
  K["king"] -- " − man + woman " --> Q["≈ queen"]

ปีต่อ ๆ มาเร่งเร้า: Google Knowledge Graph (2012, "things, not strings"), FAISS (2017) ค้น เวกเตอร์ระดับพันล้านตัว, BERT (2018) ที่ทำให้คำเดียวกันมีความหมายต่างกันตามบริบท [5] แล้วปี 2020 RAG (Lewis และคณะ) ก็มาแก้จุดอ่อนใหญ่ที่สุดของ LLM — การแต่งเรื่อง — ด้วยการดึงหลักฐานจริงมา ground คำตอบ [5]:

flowchart LR
  D["เอกสาร"] --> C["Chunk"] --> EM["Embed"] --> S["Vector store"]
  Q["คำถาม"] --> R["Retrieve top-k"]
  S --> R --> G["LLM generate
คำตอบที่อ้างอิงได้"]

และเพื่อรวมพลังของ "จับคำตรงตัว (BM25)" กับ "จับความหมาย (vector)" โลกก็หยิบ Reciprocal Rank Fusion (RRF, 2009) มาใช้ เกิดเป็น hybrid search ที่เป็นค่าเริ่มต้นของวันนี้ [5]

🧬 DNA สู่ OKF: wiki = Layer 1 (สังเคราะห์ไว้แล้ว), RAG/vector = Layer 2 (ขุดของดิบ); okf-search.py รวม BM25 + semantic ด้วย RRF พอดี

องก์ที่ 6 — ปัจจุบัน: เมื่อ AI ลงมือดูแลความรู้เอง

เมษายน 2026 Andrej Karpathy โพสต์แนวคิดสั้น ๆ ที่จุดประกายทั้งวงการ: "LLM wiki" [6] — แทนที่จะ ดึง chunk ดิบทุกครั้งที่ถาม (อย่าง RAG) ให้ agent คอมไพล์แหล่งดิบเป็น Markdown ที่จัดระเบียบ เชื่อมโยง และดูแลต่อเนื่อง สังเคราะห์ครั้งเดียวตอน ingest ความรู้จึง ทบต้น — ยิ่งใช้ยิ่งรวย ไม่ใช่เริ่มจากศูนย์ทุกครั้ง

สองเดือนถัดมา 12 มิถุนายน 2026 Google Cloud (Sam McVeety, Amir Hormati) ทำให้ pattern นี้เป็น มาตรฐานเปิดในชื่อ Open Knowledge Format (OKF) v0.1 [6] — ไดเรกทอรีของ Markdown + YAML frontmatter บังคับแค่ฟิลด์ type, แยก producer/consumer, พกพาข้ามคลาวด์และเฟรมเวิร์ก

ก่อนหน้านั้น MemGPT/Letta (2023) ได้แสดงให้เห็น "LLM as OS" — จัดการความจำแบบ tiered (in-context = RAM, external = disk) ปูทางให้ agent มีความจำถาวร [6]

บทส่งท้าย — และอนาคตที่กำลังมา

ทิศทางต่อไปคือ knowledge base ที่ดูแลตัวเอง: agent ไม่ใช่แค่ "ถาม" ความรู้ แต่คอย ดูแล — ตรวจว่า ข้อมูลเก่าไหม (ผ่าน timestamp/log.md), ปรับข้อขัดแย้งข้าม concept, และเสนออัปเดตให้คนอนุมัติก่อน commit [6] ชั้นถัดไปน่าจะเป็น hybrid wiki + RAG: wiki ที่สังเคราะห์ไว้เป็น index เร็ว ส่วน RAG เติม ช่องว่างของข้อมูลที่เปลี่ยนบ่อยเกินจะ precompile โดยมี agent memory เป็น runtime และ multi-agent ที่ แบ่งหน้าที่กันดูแล/บริโภคความรู้ — มุ่งสู่สิ่งที่เริ่มเรียกกันว่า "compiled-knowledge generation"

ทำไม OKF คือผลรวมของทั้งหกองก์

OKF ไม่ได้คิดใหม่หมด แต่ หลอมรวมชิ้นที่ดีที่สุดของทุกยุคเข้าด้วยกัน — หกสายธารไหลมาบรรจบเป็นหนึ่ง:

flowchart TD
  A["Expert systems
แยกความรู้ออกจากเครื่องคิด"] --> OKF
  B["Semantic Web
ความรู้เป็นกราฟเชื่อมโยง"] --> OKF
  C["IR / BM25
ค้นเร็วและเบา"] --> OKF
  D["Wiki / PKM
Markdown + links อ่านออก version ได้"] --> OKF
  E["AI / RAG
embeddings + AI สังเคราะห์"] --> OKF
  OKF["✦ Open Knowledge Format ✦"]

ต่อไปเจาะแนวคิดพื้นฐานที่ต้องรู้ (พร้อมตัวอย่าง) ที่กล่าวถึงในบทนี้

คู่มือ Open Knowledge Format (OKF)