⽂文史研究中主题模型的分析法
王涛南京⼤大学历史学院
@TSINGHUA,2017年年5⽉月20⽇日
2017年年“数字⼈人⽂文:数字时代⼈人⽂文研究前沿与⽅方法 ”
•时间:7⽉月1⽇日-2⽇日
•地点:南京⼤大学
•欢迎观摩
•数字⼈人⽂文“暑期学校”:时间7⽉月10-15⽇日
提纲
•何为主题模型•实现的⼯工具•如何分析•案例例
如何分析
•MALLET算法导出的⽂文件doc-topics
topic-keys
word-topic-counts
主题与⽂文档之间的关系
•6 recht herr gott hand lass gleich sagen kind geh leben freilich freund gut komm
oh wort genug glueck vergessen sache(法律先⽣上帝朋友遗忘事物)•7 nichts weiss allein ganz liebe koemmt gut lassen lieber immer wahr wissen
wenig einmal kommen gesagt welt erst besser glauben(知道爱永远世界信仰)
•17 gemacht weit einmal augen gleich keinen zeit leben ganzen finden macht wuerden muesste zweifel gluecklich gedanken waeren natur glaube hoeren(眼睛时间⽣活荣誉运⽓思考)
•27 lassen sehen vielleicht ehre halten wissen wenigstens sagen bitte wider reden
kommen moechte himmel nehmen haetten wollten ende verlassen unglueck(看
知道请求读天空离开结束)
案例例:18世纪德语历史⽂文献的挖掘
7
EXAMPLE I:
8。