中介資料
從Dictionary.com來的定義:『對資料處理而言,中介資料是一種用於定義的資料,能夠提供其他被某種應用軟體或環境所管理的資料之相關資訊或者說明。例如,中介資料可以替資料說明其元素或屬性(名稱、大小、資料類型等等),或者其紀錄或結構(長度、欄位、資料欄等等),或者其相關資料(位於何處、如何繫結、擁有者等等)。中介資料可能包含描述性資訊,說明資料的情境,品質和狀態,或者特質。』
另一種實用的說法就是,『中介資料的標記(tag)是用於描述文件、網頁、影像、軟體、視訊檔、音效檔、以及其他可以改進導覽和取出的內容物件。很多網站都用到HTML的關鍵字<META>標記,這就是一簡單實例。』這簡單的應用,再工作達人上非常方便設定,你真的不需會用到程式及HTML,但是在ㄚ琪琪的家則是有點小麻煩,而且花的時間卻也比較多。
控制詞彙
看起來有很多的定義方式,從這個剪圖可以看出類似的定義和關係,『控制詞彙是一份對等術語(equivalent term)清單,按同義詞環圈(synonym ring)的形式排列,或者是一份優先術語(preferred term)清單,儲存權威檔案(authority file)中。定義術語之間的階層關係(如較寬、較窄),就有了分類體系。建立概念之間聯想關係的模型(如另見(see also)、參見(see related)),就是在做彙編詞彙。』這裡頭字看得很清楚,但是卻感覺很模糊,如果說對等術語,這個ㄚ琪比較有概念,但是如果談到優先術語這就有考驗了,而且還什麼較寬或較窄,簡直進入模糊科學的範疇中,但是到了聯想關係,就又彷彿有一種親切感,親切的感覺是來自於中工作達人有安裝WordPress 相關日誌插件,到目前為止還用的不錯。
同義詞環圈
首先,要注意的是,同義詞環圈不一定是同義字。基本上這好像來自於溝通的問題,就像我懂JavaScript的語法,可是有些新手,他會習慣說成Java之類的,但其實他要談的就是JavaScript,所以有時可能又會涉及到是否真的是Java的術語。
書裡頭有提到,如果將同義詞環圈用在檢索中,那麼就會發生Yo!Search Systems裡說的檢索和精準的問題,但是在Thomas K. Landauer 著的The Trouble with Computers: Usefulness, Usability, and Productivity,(MIT Press)的研究中顯示,『在一小資料庫中使用同義詞環圈,可以增加20%~80%的檢索量。…但是也會降低精準度。…對超大型網站而言,實在沒有藉口不提供同義詞環圈功能。』嗯,ㄚ琪在想那我的工作達人是否應提供這樣的功能?ㄚ琪好奇地Google了一下,這個idea在一年多前曾被提出過說,不過目前看起來WordPress中沒有這功能,或許ㄚ琪懂的話,就可以開發這個功能。
權威檔案
『精確的講,權威檔案放的就是一份優先術語或是可接受值的清單,不含有變異詞或同義詞。圖書館和政府單位以前都用權威檔案替某個領域的東西定義專有名稱。』
像這一份Utah State Archives & Records Service提供的權威檔案,ㄚ琪查到的是2011/7/29更新的,比起書中舊版的來說看起來是更多了,且索引從A-S、T-Z的分類進步到每個字母的分類了。
書中另外指出,『權威檔案通常包含優先術語和變異術語。』
正如書中提到的問題,我們真的需要去定義優先術語嗎?或者同義詞環圈本身就能把事情辦好?
這裡提到答案,『權威檔案對內容作者和索引者而言都是有用的工具,可以讓他們有效而一致的使用眾所任可的術語。此外,從控制詞彙管理的角度來看,優先術語可以事唯美一組對等術語中的唯一識別字,這樣在對變異術語進行新增、刪除,和修改時更有效率。』以溝通的角度來看,這似乎是有其必要性,而這一塊在WordPress中看起來也是缺乏的。
分類體系
『所謂的分類體系(classification scheme),指的就是優先術語的階層式排法。最近,很多人喜歡改用分類法這個詞。無論是哪一種說法,瞭解這些階層分法有好幾種形式,而且有很多種用途,是很重要的。如下所示:
- 前端可瀏覽類似Yahoo作法的階層系統,是操作介面中可看見而不可或缺的一部分。
- 由資訊建築師、作者,以及索引者使用的後端工具,可以組織文件,替文件定標記。
』
最有名的杜威十進制圖書分類法,請自行參考維基解釋。
彙編詞彙
彙編詞彙(thesaurus),這在在維基翻成索引典,也稱為類語辭典,是主題分析的一種實作方法,你也可以參考Dictionary.com的解釋。
但是我想從書中的定義來引用,『彙編詞彙是整合在網站或企業網路內,用以改善導覽和取出作業,這和參考書有相同的傳統,但是,具有不同的形式和功能。和參考書類似的是,彙編慈會是一種觀念的語義網,把字和同義字、同音意義字、反義字、較寬術語和較窄術語,以及相關術語連接起來。』說到這裡,ㄚ琪還滿恨Google把字典功能關起來的說,因為他的字典功能確實就像這裡所提的彙編詞彙這樣的功能說。
但從書中的目的,所謂的彙編詞彙:『一種控制詞彙,其中的對等、階層和聯想關係會被識別出來,以改善資訊的擷取。…
彙編詞彙建構在較簡單的控制詞彙之上,建立這三種基本類型的語義關係之模型。』
上面的解釋可以參考Guidelines for the Construction, Format, and Management of Monolingual Thesauri. ANSI/NISO Z39.191993 (R1998)。
並且可以參考下面這個剪圖:
技術行話
優先術語(perferred Term,PT)
也稱為可接受術語、可接受值、主題標頭,或描述語。所有的關係都是根據優先術語定義的。
變異術語(Variant Term,VT)
也稱為入門術語(entry term)或非優先術語。變異術語的定義是對等於優先術語,或者大致上和優先術語同義。
較寬術語(Broader Term,BT)
較寬術語是優先術語的上層術語,在階層中的較高一層位置。
較窄術語(Narrower Term,NT)
較窄術語是優先術語的子術語,在階層中的較低一層位置。
相關術語(Related Term,RT)
相關術語是透過聯想關係與優先術語相連結。這種關係通常是用「另見」(See Also)的方式說明。
指(Use,U)
傳統的彙編詞彙,時常採用下面的語法作為索引者和使用者的工具:變異術語指優先術語。
慣用(Used For,UF)
這是指優先術語慣用變異術語的相互關係。這是用來列出在優先術語的紀錄上所有的變異詞。
範圍註解(Scope Note,SN)
範圍註解本質上是優先術語定義的特定型態,用來限制術語的意義,儘可能把模糊性消除掉。
原來較寬跟較窄是專業術語,跟模糊不同義,呵呵,誤會大了。
彙編詞彙實例
ㄚ琪一直想在WordPress上找到有這一類的外掛,但是正如書中所說的,網站有用到這個彙編詞彙的真是少,而且也不易察覺的出來,書中有提到PubMed的功能,看起來醫學界常用這個資料庫,不錯。
彙編詞彙的種類
『決定要替網站建立彙編詞彙時,有三種可以選:經典式彙編詞彙(Classic Thesaurus):高階、全功能工具,索引式彙編詞彙(Inedexing Thesaurus):賦予可瀏覽式索引的價值,以及搜尋式彙編詞彙(Searching Thesaurus):不加標記的內容可以豐富查詢。』
這裡貼出英文的分類圖給大家瞧瞧。
經典式彙編詞彙
『經典式彙編慈會是用於索引和搜尋的時刻。索引者對文件做索引時,以彙編詞彙把變異術語對照到優先術語。進行搜尋者以彙編詞彙取出資料,而無論是否瞭解彙編詞彙在他們的搜尋經驗中所扮演的角色。查詢的術語會和彙編詞彙的豐富詞彙進行比對,因而得以獲得同義詞管理、階層式瀏覽,以及聯想式連結。
索引式彙編詞彙
採用索引式彙編詞彙有一些理由:『
- 索引式彙編詞彙會將整個做索引的過程結構化,提昇一致性和效率。其各所引者做事時,就像是整合一體的單位,彼此都瞭解優先術語和索引的原則。
索引式彙編詞彙,可以讓你建立優先術語的可瀏覽式索引,賦予用戶經由單一管道就找到某個主題或產品的所有文件。
』
搜尋式彙編詞彙
看起人前面的人工成本很高,所以採用搜尋式彙編詞彙,相形之下變得容易,並且有很多的參考資料:
-
Anderson, James D. 跟 Frederick A. Rowley. "Building End User Thesauri From Full Text." In Advances in Classification Research, Volume 2; Proceedings of the Second ASIS SIG/CR Classification Research Workshop, October 27, 1991, eds. Barbara H. Kwasnik and Raya Fidel, 113. Medford, NJ: Learned Information, 1992.
-
Bates, Marcia J. "Design For a Subject Search Interface and Online Thesaurus For a Very Large Records Management Database." In American Society for Information Science. Annual Meeting. Proceedings, v. 27, 2028. Medford, NJ: Learned Information, 1990.
-
是英文的技術性論文,ㄚ琪就跳過了。
-
彙編詞彙的標準
-
1993年David A. Krooks 跟 F.W. Lancaster在"The evolution of guidelines for thesaurus construction,"這篇文章裡說『建造彙編詞彙的主要基本問題已在1967年找出來並獲得解決了。』
-
這裡頭列出了一些標準:
這看起來就讓人頭大了不是嗎?還好書中講到這些標準的問題,我們不一定要全用這些標準,當然善用這些標準也有優點如下:
- 這些原則中有很多考量和智慧在內。
大部分彙編詞彙管理軟體的設計都是相容ANSI/NISO,所以,從技術整合觀點來看,和標準走在一起是有用的。
和標準相容可以提高跨資料庫相容的機會,所以,當你的公司和競爭者合併時,你就有從容的時間把兩種詞彙合併起來。
說到這裡ㄚ琪對於竹南一位要離職的同事一直不開放某資料庫的管理權限給我,想必是要給我好看就對了,看來我要自力救濟了。
語義關係
對等
『對等關係是連接優先術語和變異術語(見下圖)。我們可泛稱此為「同義詞管理」,但是,對等是比同義詞更寬的術語。』
『目標是把術語群集起來,定義為「取出用的對等術語」。其中可能包含同義詞、近似同義詞、反義詞、縮寫、詞語變異詞,以及常見的錯誤拼法。』
階層
『階層關係把資訊空間分成類別和子類別,經由父子關係把較寬和較窄的觀念連接起來。』(見下圖)
『階層關係有三種子類型:
屬(Generic)
這是我們從生物分類法中傳統的「綱-種」關係借用過來的。
整體-部份
在此階層關係中,B是A的一部分。
實體
就此例而言,B是A的實體或實例。
』
這後面還會有面向式彙編詞彙(faceted thesaurus)能夠滿足多階層的常見需求,而多階曾在這裡其石臼是個很大的問題,另外還有階層粗細的問題,要解決這個問題還有卡片排序法。
聯想
『聯想關係通常比較難處理,但是,當其他兩種關係有好的開始,通常也有必要開發聯想關係。』(見下圖)。『在彙編詞彙建造上,聯想關係通常是定義為強烈暗示其語義的連接關係,但是,它們無法在對等關係或階層關係中看出來。』
這個工具可以讓行銷人員進行所謂的「交叉銷售」,讀來這裡ㄚ琪會發現這本書真的是很像是ㄚ琪需要的說。
優先術語
術語形式
這裡遵循標準有一些建議,以前ㄚ琪在標籤上也是如此進行,只是從沒想到這裡有一些標準:
文法形式:標準非常鼓勵以名詞作為優先術語。
拼法:標準建議選擇「明確的權威資料」,像是特定的辭典或小辭典,或者,你也可以用自己的風格。
單數和複數:標準建議對「可數名詞」採用複數。對觀念性名詞應保留單數。
簡寫和縮寫:原則建議採用最常見的寫法。
這裡對單數和複數的建議,ㄚ琪本以為都是以單數為原則,沒想到還分可數不可數的,不過這在華文裡頭沒有差別。
術語選擇
ANSI/NISO標準這樣說:
第3.0節:「文件中出現的術語是選擇優先術語的主要原則。」
第5.2.2節:「優先術語的選擇應能滿足多數用戶的需求。」
術語定義
『括號式術語限定詞(parenthetical term qualifier)提供了一種方式控制同形異義字。』
這個方式ㄚ琪偶而會做。
術語精確度
『術語精確度(specificity)是所有彙編詞彙設計者必須要面對的另一難題。例如,「knowledge management software」代表一個術語、還是兩個或是三個』。
標準這樣說:
ANSI/NISO Z39.19:「每一描述詞…應該代表單一概念。」
ISO 2788:「通則是…複合術語應該拆解程簡單元素。」
原來這裡頭牽涉到標準,不過ㄚ琪以前在論文中所採用的方式,倒不是這樣去做的,而是在具有同類性直的文件中,根據術語的統計結果予以叢集來自動判斷是一個術語還是兩個術語抑或是分成三個術語的方式來看待,結果顯示倒是令人滿意的,所以不一定要使用標準吧。
複合階層系統
『在嚴格的階層系統中,每一個術語出現在一個且只能出現在一個地方。』這個規定,ㄚ琪從來沒遵守過,而且也覺得不可能就這樣簡單的分類成這樣的階層關係。
不過就像書中所提到的挑戰,『如何表達導覽情境。大部分的系統都允許在階層中有主位置和次位置的觀念。』有時候還滿令人兩難的說。
面向式分類法
Faceted Classification這個術語用英文很好找,但是用面向式分類法則無法找到很多資料,反倒是層面分類法是華人常用的翻譯,ㄚ琪從林雯瑤的層面分類的概念與應用看到了很多說明,像是層面分析、多面向分析、分面分析、截面分析、面向分析、不同面分析、層面分析也是指同樣的事情。
許多文獻都將S. R. Ranganathan於1933年出版的「冒號分類法」(Colon Classification, CC)視為層面分類法的濫觴(參考Broughton, V. (2001). Faceted classification as a basis for knowledge organization in a digital environment; the bliss bibliographic classification as a model for vocabulary management and the creating of multidimensional knowledge structures. The New Review of Hypermedia and Multimedia, 7(1) : 67-102.,以及陳敏珍(1995)。綜合分類。在胡述兆編著,圖書館學與資訊科學大辭典(頁2123)。台北市:漢美),或認為層面分析起源於Ranganathan的作品(參考Kwasnik, B. H. (1999). The role of classification in knowledge representation and discovery.Library Trends, 48(1), 22-47.)。然而實際上,層面分類概念的提出與使用卻遠早於此(參考Taylor, A. G. (2000). Wynar’s introduction to cataloging and classification. Englewood, Colo.:Libraries Unlimited.)。
當然討論歷史看起來是較沒意義的,倒是怎麼用,比較是王道。
關於層面分類的定義為,廣義來說,對任何系統(system)其文獻描述的方式可以用文字或標記來表現其要素,並且加以組合,這樣的技術即是層面分類(Broughton, 2001)。狹義地從文獻主題分析角度而言,層面分類是將主題概念分解為數個簡單、個別的概念(或概念因素),按照它們所屬的方面或範疇,分別編列成表,標引時使用兩個或多個簡單概念的分類號(或各種標記)的組合來表達一個複雜的主題概念(參考白國應(1993)。分面組配式分類法。在中國大百科全書智慧藏。上網日期:2004年5月20日,檢自:http://edu1.wordpedia.com/Cpedia/Content.asp?ID=249)。通常在形成層面分類的架構前,必先進行層面分析,Ranganathan對層面分析的定義則為「是以主題類別為基礎,列舉一連串可能特質的心智歷程,特質的相關屬性之衡量則伴隨著主題而定」(參考Foskett, D. J. (1972). Facet analysis. In A. Kent & H. Lancour (Eds.), Encyclopedia of library and information science (pp. 338-346). New York: Marcel Dekker.)。如果進一步從層面分類的技術再推進到層面分類法,通常其結構會更嚴謹。層面分類法常用於文獻的組織,是一種有標準詞彙可用以描述文件主題的類表。首先這些詞彙被依其主題特質區分開,某個特定的類別則含括不同主題。在每個類別之內,詞彙再被區分成不同的層面,每個層面在類表中可能以階層的方式排列。這些層面可以再從不同的類別中被挑選出來,然後依照事先規定好的順序重新組合(參考
Vickery, B. C. (1960). Faceted classification: A guide to the construction and use of special schemes. London: Aslib)。
全文很多,ㄚ琪建議你直接研讀這份論文會對瞭解面向式分類法很有幫助。
文末提了很多參考資料:
Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabularies. Completely rewritten (and renamed) in 2005; http://www.niso.org/standards/standard_detail.cfm?std_id=814
Controlled Vocabularies: A Glosso-Thesaurus
Written by Fred Leise, Karl Fast, and Mike Steckel; http://www.boxesandarrows.com/view/controlled_vocabularies_a_glosso_thesaurus
Dublin Core Metadata Initiative
Glossary of Terms Relating to Thesauri
http://www.asindexing.org/site/thesonet.shtml
只能說哇,怎麼這麼多啊,慢慢看吧。