ประวัติศาสตร์และวิวัฒนาการของ Knowledge Base
กว่าหกสิบปีที่มนุษย์ถามคำถามเดียวกันซ้ำ ๆ ว่า "เราจะทำให้เครื่องจักร จดจำ และ เข้าใจ สิ่งที่เรารู้ได้อย่างไร?" คำตอบเปลี่ยนไปทุกยุค — จากกฎที่เขียนด้วยมือ สู่กราฟความหมาย สู่ดัชนีคำ สู่โน้ตที่เชื่อมโยงกัน และล่าสุดคือ AI ที่สังเคราะห์ความรู้ให้เราเอง บทนี้คือเรื่องเล่าของการเดินทางนั้น และปลายทาง (ชั่วคราว) ที่ชื่อว่า OKF
หมายเลข
[n]ชี้ไปยังแหล่งข้อมูลอ้างอิงท้ายเล่ม
flowchart LR E1["1960s–80s
Expert systems"] --> E2["1990s–2000s
Semantic Web"] --> E3["1970s–2010s
Databases & IR"] --> E4["1995–2020
Wiki & PKM"] --> E5["2012–2020s
AI / RAG"] --> E6["2026
LLM-wiki & OKF"]
องก์ที่ 1 — ยุคที่เราพยายาม"ป้อน"ความรู้ให้เครื่องด้วยมือ
ทศวรรษ 1960 ที่ Stanford นักวิทยาศาสตร์กลุ่มหนึ่งเชื่อว่าความฉลาดในเรื่องแคบ ๆ จับได้ด้วยการ เข้ารหัสความรู้ของผู้เชี่ยวชาญออกมาเป็นกฎ แล้วให้เครื่องให้เหตุผลบนนั้น พวกเขาสร้าง DENDRAL (1965) ที่วิเคราะห์โครงสร้างโมเลกุลจาก mass spectrometry ได้เทียบเท่านักเคมี [1] — เป็นครั้งแรกที่โลก เห็นว่า "ความรู้" ไม่ใช่ "การค้นหา" ต่างหากคือกุญแจของ AI
ไม่กี่ปีถัดมา MYCIN (ต้นยุค 1970, Edward Shortliffe) ใช้กฎ IF-THEN ราว 600 ข้อ วินิจฉัยการติดเชื้อ ในเลือดได้แม่นพอ ๆ กับแพทย์อาวุโส และยัง อธิบายเหตุผลของตัวเองได้ [1] หัวใจของมันคือสถาปัตยกรรมที่ ยังอยู่กับเราจนวันนี้ — แยก knowledge base (สิ่งที่รู้) ออกจาก inference engine (วิธีคิด):
IF ชนิดการติดเชื้อ = primary-bacteremia
AND ตำแหน่งเพาะเชื้อ = blood
AND ช่องทางเข้า = gastrointestinal-tract
THEN มีหลักฐานพอควร (CF = 0.4) ว่าเชื้อคือ Bacteroides
แต่ความฝันมาเจอกำแพง ปี 1984 Douglas Lenat เริ่มโครงการ Cyc — ความพยายามป้อน "สามัญสำนึก" ของ มนุษย์ ทั้งหมด ด้วยมือ [1] หลายสิบปีและหลายสิบล้านดอลลาร์ผ่านไป โลกได้บทเรียนราคาแพงที่เรียกว่า "knowledge acquisition bottleneck": การป้อนความรู้ด้วยมือไม่มีวัน scale
🧬 DNA ที่ตกทอดสู่ OKF: การแยก "ความรู้ (ไฟล์)" ออกจาก "เครื่องที่ใช้ความรู้ (agent)" — โครงสร้าง producer/consumer ของ OKF คือลูกหลานโดยตรงของแนวคิดนี้
องก์ที่ 2 — ยุคที่เราพยายามให้ "ความหมาย" แก่เว็บ
ปี 2001 ผู้ให้กำเนิดเว็บอย่าง Tim Berners-Lee เขียนบทความใน Scientific American ฝันถึง Semantic Web [2] — เว็บที่ไม่ใช่แค่เอกสารให้คนอ่าน แต่เป็นข้อมูลที่ เครื่องเข้าใจความหมาย ได้ เขา เสนอให้เก็บความรู้เป็น triple สามส่วน (subject–predicate–object) ซึ่งก็คือ "เส้นเชื่อมในกราฟ" นั่นเอง:
@prefix ex: <http://example.org/> .
ex:TimBernersLee ex:invented ex:WorldWideWeb .
ด้วยภาษา RDF, OWL, SPARQL เครื่องจะอนุมานข้อเท็จจริงใหม่จากกราฟได้เอง [2] มันงดงามในทางทฤษฎี — แต่การเขียน ontology ให้ถูกต้องนั้นยากเกินกว่าคนทั่วไปจะทำไหว ปี 2013 มีเว็บใช้ markup เชิงความหมาย ไม่ถึง 2% สิ่งที่รอดและเฟื่องฟูแทนคือทายาทที่ "ใช้ง่ายกว่า" — linked data, schema.org (2011), และ knowledge graph [2]
🧬 DNA สู่ OKF: ความรู้ที่เชื่อมโยงเป็นกราฟมีค่ามหาศาล — แต่ OKF เลือก "ลิงก์ Markdown ธรรมดา" (untyped) แทน RDF/OWL ที่เข้มงวด เพื่อให้คนเขียนได้จริง
องก์ที่ 3 — ยุคที่เราเรียนรู้จะ "ค้น" อย่างชาญฉลาด
ระหว่างที่ AI ฝันใหญ่ อีกสายหนึ่งทำงานเงียบ ๆ แต่เปลี่ยนโลก ปี 1970 Edgar Codd แห่ง IBM เสนอ relational model ทำให้ข้อมูลเก็บเป็นตารางและ query ด้วย SQL ได้ [3] แต่มันจับคู่แบบตรงตัว ค้นข้อความ อิสระแล้วจัดอันดับความเกี่ยวข้องไม่ได้
คำตอบมาจาก Karen Spärck Jones (1972) ผู้เสนอ IDF — ความคิดเรียบง่ายแต่ลึกซึ้ง: คำที่พบในเอกสาร น้อยชิ้น คือสัญญาณที่ทรงพลังกว่าคำที่พบทุกที่ [3] รวมกับ term frequency กลายเป็น TF-IDF และต่อมา BM25 (~1994) ที่ยังเป็นมาตรฐาน lexical search ถึงวันนี้ ลองดูตัวอย่างจิ๋ว — คำว่า "the" อยู่ทุกเอกสาร จึงไร้ค่าในการแยกแยะ แต่คำว่า "dog" ที่อยู่เอกสารเดียวกลับโดดเด่น:
| คำ | เอกสาร | ค่าความเด่น |
|---|---|---|
| the | D1, D2, D3 | 0 (ไร้ค่า) |
| dog | D3 | สูง |
เมื่อ Doug Cutting ปล่อย Lucene (1999) และต่อมา Elasticsearch (2010) full-text search ระดับอุตสาหกรรมก็อยู่ในมือทุกคน [3] ข้อจำกัดเดียวที่ยังค้างคา: มันเป็น lexical — ค้น "car" จะพลาด "automobile" เพราะไม่เข้าใจความหมาย
🧬 DNA สู่ OKF: BM25 ยังทรงพลังและเบามาก —
tools/okf-index.pyใช้มันเป็น search หลัก
องก์ที่ 4 — ยุคที่ความรู้กลายเป็นของทุกคน
ปี 1995 Ward Cunningham สร้าง WikiWikiWeb เว็บแรกที่ใครก็แก้ได้ [4] หกปีถัดมา Wikipedia (2001) พิสูจน์ว่าความรู้ของมวลมนุษย์เติบโตได้ด้วยการเปิดให้ทุกคนร่วมเขียน [4]
แต่เรื่องที่น่าทึ่งที่สุดเกิดก่อนหน้านั้นบนโต๊ะของนักสังคมวิทยาชาวเยอรมัน Niklas Luhmann ผู้สะสมกล่อง บัตร Zettelkasten ราว 90,000 ใบ แต่ละใบเชื่อมโยงถึงกัน เขาผลิตหนังสือกว่า 50 เล่มจากมัน และทิ้ง หลักการอมตะไว้: "คุณค่าไม่ได้อยู่ที่ตัวโน้ต แต่อยู่ที่ลิงก์ระหว่างโน้ต" [4]
ยุคดิจิทัลค้นพบหลักการนี้ใหม่ราวปี 2016–2020 ผ่าน Notion, Roam, Obsidian — ทั้งหมดวางอยู่บน
Markdown + [[wikilinks]] ที่ชนะสงครามฟอร์แมตเพราะเหตุผลทบกัน: คนอ่านออกโดยไม่ต้อง render และ
เครื่องอ่านออกโดยไม่ต้อง parser พิเศษ [4]
---
title: "Zettelkasten Principle"
tags: [pkm]
---
คุณค่าของกล่องบัตรอยู่ที่ **ลิงก์ระหว่างโน้ต** — ดูเพิ่ม [[Obsidian]]
🧬 DNA สู่ OKF: นี่คือพันธุกรรมที่ตรงที่สุด — Markdown + YAML frontmatter + ลิงก์ระหว่าง concept คือหน้าตาของ OKF เป๊ะ ๆ
องก์ที่ 5 — ยุคที่ "ความหมาย" กลายเป็นเรขาคณิต
ปี 2013 ทีมของ Tomas Mikolov ที่ Google เปิดเผยสิ่งที่ดูเหมือนเวทมนตร์: word2vec แปลงคำเป็น เวกเตอร์ที่ "ความหมายใกล้ = ตำแหน่งใกล้" จนทำเลขคณิตของความหมายได้ [5]
flowchart LR K["king"] -- " − man + woman " --> Q["≈ queen"]
ปีต่อ ๆ มาเร่งเร้า: Google Knowledge Graph (2012, "things, not strings"), FAISS (2017) ค้น เวกเตอร์ระดับพันล้านตัว, BERT (2018) ที่ทำให้คำเดียวกันมีความหมายต่างกันตามบริบท [5] แล้วปี 2020 RAG (Lewis และคณะ) ก็มาแก้จุดอ่อนใหญ่ที่สุดของ LLM — การแต่งเรื่อง — ด้วยการดึงหลักฐานจริงมา ground คำตอบ [5]:
flowchart LR D["เอกสาร"] --> C["Chunk"] --> EM["Embed"] --> S["Vector store"] Q["คำถาม"] --> R["Retrieve top-k"] S --> R --> G["LLM generate
คำตอบที่อ้างอิงได้"]
และเพื่อรวมพลังของ "จับคำตรงตัว (BM25)" กับ "จับความหมาย (vector)" โลกก็หยิบ Reciprocal Rank Fusion (RRF, 2009) มาใช้ เกิดเป็น hybrid search ที่เป็นค่าเริ่มต้นของวันนี้ [5]
🧬 DNA สู่ OKF: wiki = Layer 1 (สังเคราะห์ไว้แล้ว), RAG/vector = Layer 2 (ขุดของดิบ);
okf-search.pyรวม BM25 + semantic ด้วย RRF พอดี
องก์ที่ 6 — ปัจจุบัน: เมื่อ AI ลงมือดูแลความรู้เอง
เมษายน 2026 Andrej Karpathy โพสต์แนวคิดสั้น ๆ ที่จุดประกายทั้งวงการ: "LLM wiki" [6] — แทนที่จะ ดึง chunk ดิบทุกครั้งที่ถาม (อย่าง RAG) ให้ agent คอมไพล์แหล่งดิบเป็น Markdown ที่จัดระเบียบ เชื่อมโยง และดูแลต่อเนื่อง สังเคราะห์ครั้งเดียวตอน ingest ความรู้จึง ทบต้น — ยิ่งใช้ยิ่งรวย ไม่ใช่เริ่มจากศูนย์ทุกครั้ง
สองเดือนถัดมา 12 มิถุนายน 2026 Google Cloud (Sam McVeety, Amir Hormati) ทำให้ pattern นี้เป็น
มาตรฐานเปิดในชื่อ Open Knowledge Format (OKF) v0.1 [6] — ไดเรกทอรีของ Markdown + YAML
frontmatter บังคับแค่ฟิลด์ type, แยก producer/consumer, พกพาข้ามคลาวด์และเฟรมเวิร์ก
ก่อนหน้านั้น MemGPT/Letta (2023) ได้แสดงให้เห็น "LLM as OS" — จัดการความจำแบบ tiered (in-context = RAM, external = disk) ปูทางให้ agent มีความจำถาวร [6]
บทส่งท้าย — และอนาคตที่กำลังมา
ทิศทางต่อไปคือ knowledge base ที่ดูแลตัวเอง: agent ไม่ใช่แค่ "ถาม" ความรู้ แต่คอย ดูแล — ตรวจว่า
ข้อมูลเก่าไหม (ผ่าน timestamp/log.md), ปรับข้อขัดแย้งข้าม concept, และเสนออัปเดตให้คนอนุมัติก่อน
commit [6] ชั้นถัดไปน่าจะเป็น hybrid wiki + RAG: wiki ที่สังเคราะห์ไว้เป็น index เร็ว ส่วน RAG เติม
ช่องว่างของข้อมูลที่เปลี่ยนบ่อยเกินจะ precompile โดยมี agent memory เป็น runtime และ multi-agent ที่
แบ่งหน้าที่กันดูแล/บริโภคความรู้ — มุ่งสู่สิ่งที่เริ่มเรียกกันว่า "compiled-knowledge generation"
ทำไม OKF คือผลรวมของทั้งหกองก์
OKF ไม่ได้คิดใหม่หมด แต่ หลอมรวมชิ้นที่ดีที่สุดของทุกยุคเข้าด้วยกัน — หกสายธารไหลมาบรรจบเป็นหนึ่ง:
flowchart TD A["Expert systems
แยกความรู้ออกจากเครื่องคิด"] --> OKF B["Semantic Web
ความรู้เป็นกราฟเชื่อมโยง"] --> OKF C["IR / BM25
ค้นเร็วและเบา"] --> OKF D["Wiki / PKM
Markdown + links อ่านออก version ได้"] --> OKF E["AI / RAG
embeddings + AI สังเคราะห์"] --> OKF OKF["✦ Open Knowledge Format ✦"]
ต่อไปเจาะแนวคิดพื้นฐานที่ต้องรู้ (พร้อมตัวอย่าง) ที่กล่าวถึงในบทนี้