新時代人民日報分詞語料庫(NEPD)向學術界免費開放

來源: 發布時間 : 2021-01-18 點擊量:

語料庫是由人工或機器标注好的真實語言材料組成的數據集，是開展與自然語言有關研究的有效工具和手段，在當前同時也是人工智能算法的訓練集，直接決定了機器學習的運算效果。

在漢語通用語料方面，由北京大學計算語言研究所俞士汶先生主持構建的1998年1月人民日報語料為精加工人工語料，在業内最具代表性，影響力也最大，曾獲得過包括國家科技進步二等獎在内的一系列獎項。但是，随着20多年時光的流逝，業界迫切需要與時代發展同步的新語料。在此背景下，南京農業大學人文與社會計算研究中心以2015上半年（1-6月）及2016年1月、2017年1月、2018年1月共9個月的《人民日報》發表的全部文章為對象，構建了新版人民日報語料——新時代人民日報分詞語料（簡稱New Era People's Daily Segmented Corpus，NEPD）。NEPD規模現已超過2300萬字，全部由人工标注，是目前世界上規模最大的漢語精加工通用語料庫。

NEPD免費向學術界開放共享，并且還将持續補充最新語料，進一步詳細信息請訪問：http://corpus.njau.edu.cn/。

上一篇：我校獲批首批國家智能社會治理實驗基地

下一篇：喜報：黃水清教授團隊獲批江蘇高校哲學社會科學重點研究基地

首頁

學院

人才培養

科學研究

師資隊伍

學生管理

招生就業

MEM培養

科學研究

科研動态

科研成果

科研平台

新時代人民日報分詞語料庫(NEPD)向學術界免費開放

來源: 發布時間 : 2021-01-18 點擊量: