Formosan Language Archive

語料庫查詢 語言地理查詢 書目查詢 使用說明 相關連結 回首頁

簡介

台灣南島語數位典藏
(The Formosan Language Digital Archive) 是「中央研究院國家典藏數位化計畫」下分項主題「語言典藏」的子計畫之一。「台灣南島語數位典藏」的整體建置作業之規劃暨主持人為齊莉莎。此計畫之建置目的在於建立一虛擬圖書館,用以收集、保存、編輯及透過網路散播語言資源,供使用者存取已錄製及記音的南島語。

台灣原住民語言屬於一個分佈廣,語言現象又很豐富的語族,我們稱為「南島語族」。南島語族現今分佈於整個太平洋及印度洋,包括馬達加斯加、印尼、菲律賓、台灣、新幾內亞、紐西蘭、夏威夷、麥可羅尼西亞、麥拉尼西亞、玻利尼西亞等各地島嶼的語言。此外,還有馬來半島上的馬來語、中南半島上越南與高棉的查姆語。

台灣的南島語言類型極為豐富,而且各種語言與方言之間的差異也相當大。但是一直到最近,台灣南島語才受到國內人士的重視,並吸引來自不同語言學背景的語言學家、研究生以及原住民人士,分別從不同理論架構來探討這些語言,形成台灣南島語言學術上發展的新氣象。

然而台灣南島語不同於漢語,主要在於前者並沒有文字的記載,因此一旦語言或方言的使用者不復存在,則這個語言或方言也就跟著消失,而毫無紀錄可循。台灣平埔族群如凱達格蘭、西拉雅等即是活生生的例子。而現存大部份的台灣南島語因為人口外移、國語教育普及等種種原因,目前能使用流利母語的皆為年老長者,而很多年輕人卻不會說自己的母語。這樣的情形使許多台灣南島語瀕臨滅絕的危機,而被歸類為即將消失的語言。

目前我們除了以各種方式延續語言的生命外,更實際的作法即是蒐集和保存現有的語料,至少為後代留下寶貴的遺產。我們建立台灣南島語言語料庫是希望提供給專家學者及民間更方便的查詢方式。但是為了達到我們的目標,我們需要更多人的投入,請大家一起努力!


建置宗旨

建置「台灣南島語語料庫」不僅能使所蒐集的語料彙整、流通,並且在民族、文化、教育等各方面都將具有相當重要的參考價值。

台灣南島語語料庫達成以下重要的動機與意義:  

  1. 在語言上,語料庫可保證語言消失後,仍可以保存語言的面貌。
  2. 在學術上,語料庫可以作為語音、詞彙、語法、語意等研究的素材,並提高此領域的研究及發展。臺灣南島語族本無文字,我們對早期的語言亦不清楚;藉著語料庫的建立,可以很快的進行不同時代語言的對比研究。
  3. 在文化上,母語之保存可以促進原住民文化的復甦及維持民族文化的多元。
  4. 在教育上,由語料庫的建構,將有助於保存、推廣原住民語言,及編寫第一流的文法專書或詞典等。
台灣南島語語料庫最終之目標為建立所有台灣南島語的語音、詞彙、單句和長篇故事語料等,並加以中、英文翻譯。在應用上,建構介面程式,讓使用者可以依語言、主題等參數界定語料庫範圍,做統計及比較研究。另一個應用方式則是建構地理資訊系統(GIS),讓使用者可以依地圖查詢各語言在詞彙、語音、語法上的異同。同時亦將建立有聲檔案(voice files),使所紀錄之語言資料更為生動活潑。總括而言,台灣南島語語料庫完成後,將有以下四項具體之成果;
  1. 提供基礎台灣南島語言之語料庫;
  2. 提供為資訊及知識工程研發之共同基本架構和基本資料來源;
  3. 提供語言地圖之地理資訊系統;
  4. 提供教育界作為語文出版之基本素材。


未來展望

台灣南島語語料庫最終之目標為建立所有台灣南島語的語音、詞彙、單句、長篇語料、甚至詞典等的數位系統,並在應用上建構介面程式,讓使用者可以中文或英文介面查詢。另外,語料庫將提供其他兩種應用功能,(一)完整的地理資訊系統(GIS),讓使用者可以看到台灣南島語的同源詞與非同源詞的分佈情形,(二)其他相關資訊,包括相關書目、語法、地名、文化等相關查詢。

在2001年我們已經以實驗的角度來進行數位典藏計畫,建立子資訊架構,並完成一個語言(魯凱語)的語料庫。在未來幾年,我們預期將會有以下成果:

一、語料編輯

預期成果
2002 (一)繼續擴大魯凱語語料庫
(二)完成另一個語言(雅美語)的語料庫
2003 (一)繼續擴大前兩年的語料庫;
(二)多完成三個語言(賽夏語、鄒語及泰雅語)的語料庫
2004 (一)繼續加強現有語料庫
(二)多完成兩個語言(阿美語及布農語)的語料庫
2005 (一)繼續加強現有語料庫
(二)多完成一個語言(排灣語)的語料庫
2006 (一)繼續加強現有語料庫
(二)多完成一個語言(卑南語)的語料庫

二、相關資料庫

我們計畫繼續建立下列新的資料庫,進度與預期成果如下所示:
預期成果

2007-2011

專有名詞資料庫(Technical terms and definitions)

2007-2011

文法資料庫 (On-line grammar)

2007-2011

地名資料庫(Topological database)

另一方面,對於已建立的資料庫,將繼續維護並不斷更新資料內容:
預期成果
2007-2011 台灣南島語言學書目資料 
台灣原住民鄉土文化及母語教材
台灣原住民文學相關書目資料
台灣原住民音樂相關書目資料

三、地理資訊系統(2007-2011)

空間資訊系統(GIS)在各類學科及應用領域均迅速發展,其整合及分析空間資料的能力與潛力受到相當的肯定與重視。應用空間概念到台灣南島語言,語言地圖藉由地理系統,來描述台灣南島語各族語言區及方言區地理上的分佈,以及從「語音」「詞彙」「句法」三層面進一步的呈現及比較台灣南島語各種語言及方言之間的相差。不但可以查詢到台灣南島語詞彙,得知同源詞與非同源詞的分佈情形,也可以看出語音、句法結構分析於空間上的分佈,來觀察台灣南島語言內外部之關係。

四、發展母語教學

為發揚南島語的應用與教學,我們將利用得來不易的研究成果來發展南島語的教學素材和研究方法,以期讓一般民眾有更多的管道了解並學習南島語言及文化。


台灣南島語言名稱中英文對照表

中文

英文

中文

英文

南島語言

Austronesian

貓霧

Babuza

台灣南島語言

Formosan

鄒語

Tsou

凱達格蘭

Keta(n)galan

卡那卡那富

Kanakanavu

泰雅語

Atayal

沙阿魯阿

Saaroa

賽夏語

Saisiyat

西拉雅

Siraya

道卡斯

Taokas

魯凱語

Rukai

洪雅

Haonya

排灣語

Paiwan

巴宰語

Pazih

卑南語

Puyuma

邵語

Thao

阿美語

Amis

布農語

Bunun

噶瑪蘭

Kavalan

賽德克

Seediq

雅美語

Yami

巴布拉

Papora

  -

  -

 

工作小組

工作內容 人員
計畫主持人 齊莉莎
語言分析
  • Rukai: 齊莉莎、林惠娟、邢天馨
  • Saisiyat: 朱黛華
  • Atayal: 葉郁婷
  • Amis: 齊莉莎
  • Bunun: 林聖賢、劉秋雲、 齊莉莎
  • Paiwan: 華加婧 
語言翻譯 劉秋雲、黃克文、吳貞慧
地理資訊系統 (GIS) 華加婧、 白璧玲
系統工程師 余清華 (MCSD)
資料數位化 林志憲(Bunun, Tsou, Pazih, Siraya, Kanakanavu, Rukai, Amis, Paiwan)
林翠緯(Amis)
華加婧(Paiwan)
後設資料 齊莉莎、余清華、翁翠霞 
書目資料庫 齊莉莎 & 劉秋雲 (Linguistics)劉秋雲 (Teaching materials) 華加婧 (Music and Literature)


誌謝

我們非常感謝下列機構及人士,在本計畫的第一年期間,協助建構台灣南島語數位典藏。 

國家科學委員會 補助魯凱語萬山方言的語料收集
中研院語言學研究所 補助資料庫建置以及魯凱語茂林方言、賽夏語、泰雅語、布農語及阿美語的田野調查
余昱瑩 中文編輯
John Kinshnieck 英文編輯


中央研究院語言學研究所. All Rights Reserved.

 

簡介
建置宗旨
未來展望
台灣南島語言名稱中英文對照表
工作小組
誌謝

 


中央研究院國家典藏數位化計畫語言典藏計畫 版權所有