語料庫是由人工或機器标注好的真實語言材料組成的數據集,是開展與自然語言有關研究的有效工具和手段,在當前同時也是人工智能算法的訓練集,直接決定了機器學習的運算效果。
在漢語通用語料方面,由北京大學計算語言研究所俞士汶先生主持構建的1998年1月人民日報語料為精加工人工語料,在業内最具代表性,影響力也最大,曾獲得過包括國家科技進步二等獎在内的一系列獎項。但是,随着20多年時光的流逝,業界迫切需要與時代發展同步的新語料。在此背景下,南京農業大學人文與社會計算研究中心以2015上半年(1-6月)及2016年1月、2017年1月、2018年1月共9個月的《人民日報》發表的全部文章為對象,構建了新版人民日報語料——新時代人民日報分詞語料(簡稱New Era People's Daily Segmented Corpus,NEPD)。NEPD規模現已超過2300萬字,全部由人工标注,是目前世界上規模最大的漢語精加工通用語料庫。
NEPD免費向學術界開放共享,并且還将持續補充最新語料,進一步詳細信息請訪問:http://corpus.njau.edu.cn/。