勵志

勵志人生知識庫

chatglm信息提取

ChatGLM是一個預訓練的模型,主要用於非結構化內容提取,包括命名實體識別內容抽取。在信息提取方面,它可以將大段文本轉換成結構化的內容。由於業務場景主要是中文,而且識別的類型經常發生變化,傳統的NER模型可能不適用,因此直接選用清華開源的ChatGLM作為前置數據提取模組。在模型部署方面,如果你的GPU顯存有限,可以嘗試以量化方式載入模型,INT4量化後的模型僅需大概5.2GB的記憶體。在實際套用中,由於短時間內無法獲取高質量樣本,通常會優先使用預訓練模型實現,後期積累高質量數據再進行微調、模型重構。