書香江蘇在線

搜索
熱搜: 活動
微信
qq
weixin
書香江蘇在線 首頁 各地動態(tài) 南京 南農研究團隊發(fā)布國內首個“古籍版ChatGPT”

南農研究團隊發(fā)布國內首個“古籍版ChatGPT”

2024-1-31| 發(fā)布者: shiyun| 查看: 2009| 評論: 0|原作者: 楊頻萍 許天穎|來自: 新華日報

摘要: 近日,南京農業(yè)大學信息管理學院王東波教授研究團隊研發(fā)的“荀子”古籍大語言模型發(fā)布,這是國內首個專門應用于古籍處理與研究的智能工具,包含了《四庫全書》在內的古籍文獻超20億字大型語料庫,能夠實現自然語言理 ...
  近日,南京農業(yè)大學信息管理學院王東波教授研究團隊研發(fā)的“荀子”古籍大語言模型發(fā)布,這是國內首個專門應用于古籍處理與研究的智能工具,包含了《四庫全書》在內的古籍文獻超20億字大型語料庫,能夠實現自然語言理解、自動翻譯、詩歌生成、自動標引等多項功能,作為開源的、公益的研究成果,該模型已在GitHub(https://github.com/Xunzi-LLM-of-Chinese-classics/XunziALLM)、ModelScope(https://modelscope.cn/models/Xunzillm4cc/Xunzi-Qwen-Chat)等網站開源。
  為何取名“荀子”?王東波介紹,荀子不僅是我國先秦時期偉大的樸素唯物主義的思想家,也是一位散文大家。在對他作品的深入研討中團隊發(fā)現,其在語言學理論的闡述上也是一位開拓者,命名為“荀子”是為了紀念這位中國歷史上的語言學先驅。對于普通受眾而言,想要走近繁體、豎版、未添加句逗的古文不是一件容易的事,而“荀子”的上線意味著在智媒時代和古籍對話成為可能。
  “咱們請它以金陵為主題,生成一首五言絕句。”王東波現場演示了“荀子”的智能寫詩功能,指令一輸入,系統(tǒng)便生成了一首堪稱絕妙的原創(chuàng)古典詩:“秦淮佳麗地,城闕望中迷。柳暗青絲發(fā),花香碧玉衣。歌樓留夜色,畫閣斂春暉。細雨輕舟去,雙魚夢澤飛?!?/div>
  除此之外,古文的閱讀理解、標點添加,以及將古漢語翻譯為現代漢語,這些讓受眾難啃的“硬骨頭”,“荀子”都可以輕松拿下。
  對于領域專家而言,他們可以借助“荀子”完成古籍詞法分析、實體識別、關系抽取、文本分類與匹配、文本摘要等專業(yè)古籍研究處理場景。同時發(fā)布的基座模型,還可以讓用戶根據自己的需求,使用本地的訓練語料微調“荀子”基座模型,使其在古籍下游處理任務上取得更優(yōu)越的處理性能。
  盡管目前有200多個通用模型在各領域得到應用,但古籍領域仍缺乏專業(yè)的大語言模型。功能強大的“荀子”到底是怎么做到化繁為簡、通讀古今的呢?“首先是‘算力充足’并且‘飽讀經書’!”王東波介紹,“荀子”的順利問世離不開南京農業(yè)大學提供的高性能算力基礎設施支持,以及團隊長期積累的大量標注、精加工語料庫,團隊給“荀子”投喂了40億字大型混合語料數據。
  “模型的構建受算力、場景應用等多方面影響,但精準度較高的優(yōu)質數據,是最為關鍵的?!睋鯑|波介紹,團隊從2008年開始接觸古籍,2013年至今一直專注于人工精標注數據的工作。“比如《岳陽樓記》,要訓練機器標注該典籍中的形容詞,就要首先訓練相關人員標注形容詞,在大量人工標注的基礎上,再讓機器學習?!边@項坐冷板凳的基礎標注工作一做就是10年之久。
  王東波表示,我們期待能將古籍的智能化研究與跨學科的人才培養(yǎng)相結合,讓學生既有前瞻的科研視野,又能積累較為深厚的人文底蘊,同時讓更多受眾接觸古籍、品讀古籍、傳播古籍,真正地煥活“故紙堆”,共同推動中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉化和創(chuàng)新性發(fā)展,賡續(xù)傳承中華文脈。
  聯合發(fā)布荀子古籍大語言模型的中華書局古聯公司則主要致力于未來的場景應用和領域推廣,荀子大模型除讓大眾用戶能夠順暢利用古籍內容、在專業(yè)領域推動古籍整理、古籍數字化、古籍活化利用與傳播之外,未來還可廣泛應用于AI寫作、AI教學、數字文娛等領域。
  該成果依托國家社科基金重大項目“中國古代典籍跨語言知識庫構建及應用研究”實施。在同步舉行的古籍智能化研究與產業(yè)應用研討會上,來自高校、出版界和互聯網企業(yè)的與會專家學者分別立足于各自領域,圍繞大模型在古籍整理、傳統(tǒng)文化傳承、數字化轉型等方面的工作進行了深入探討。

鮮花

握手

雷人

路過

雞蛋
版權所有:江蘇現代快報傳媒有限公司 指導單位:江蘇省新聞出版局 江蘇省全民閱讀辦 主管單位:江蘇鳳凰出版?zhèn)髅郊瘓F 主辦單位:江蘇現代快報傳媒有限公司  協辦單位:江蘇省全民閱讀促進會
備案號:蘇ICP備10080896號-8  地址:南京市洪武北路55號置地廣場 郵編:210005 電話:025-84783597 傳真:025-84783531 技術支持:江蘇現代快報傳媒有限公司   隱私政策
返回頂部