博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
美食图谱复现指南之依存句法分析
阅读量:5828 次
发布时间:2019-06-18

本文共 2747 字,大约阅读时间需要 9 分钟。

本文代码开源在:

哈工大语言云的官网有一篇名为的文章,里面讲到了借助分词、词性标注和依存句法分析等NLP技术,可以从微博文本内容中提取出用户饮食习惯等数据。

进而可以结合用户性别、地区、发微博时间等不同维度信息,展现出许多有趣的结果,比如下图分别是上海、重庆、以及广东(男性)的特色饮食习惯:

那么如何抽取出上述食物呢?原文给出了由三个条件组成的规则:一条微博里含有词语“吃”+与“吃”相关的句法关系为VOB(动宾关系)+“吃”的宾语为名词,就可以判断发生饮食行为,进而提取出“吃”的宾语就是相关的食物。

作为解释,给出了三个例句:“我刚吃了一块巧克力”、“今天我去电影院看了浓情巧克力”、“我吃了个巧克力味冰淇淋”。

句子经过分词,并在下方标注了词性,依存弧表明每个词语之间的关系,比如主谓关系(SBV)、动宾关系(VOB)等等。

由上述规则可以判断出第二句没有饮食行为,于是进行过滤;而从另外两句中可以分别抽取出“巧克力”和“冰淇淋”(当然第三句更细粒度、更准确地应该是“巧克力味冰淇淋”,如何改进上面的规则,后面再提)。

经过上面的介绍,看起来这条规则还蛮符合逻辑,应该能行的吧?但不知怎的脑海中突然浮现出张学友这张表情包,呼之欲出就是这句……

于是用语言云官方的在线演示试了下:出现“吃”这个字+与“吃”相关的有VOB动宾关系+宾语是名词“n”……过于完美地符合所有条件。

扯回来,总得来看,给出的判断逻辑还是靠谱的,那么该如何实现呢?“章口就莱”甩下一句:Talk is cheap. Show me the code. 然而翻遍原文也没找到实现代码。

很早以前就看过这篇文章,一直不会,重新试了下,发现非常简单,果然是“难者不会,会者不难”,核心代码也就两行。

以下是代码部分(本文代码开源在:),原本不必讲pip install pyltp这种基础安装第三方库的事,但因为windows下可能会出现Microsoft Visual C++等相关错误,所以建议参考:《》一文的方案二,亲测可行。

再是pyltp的入门介绍此处略过,看官方文档一文就够了。

pyltp 是 的 Python 封装,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。

pyltp 安装成功,并下载好相应的 LTP 模型文件后,分别加载分词、词性标注和依存句法分析的模型。

import osfrom pyltp import SegmentorLTP_DATA_DIR = '/path/to/your/ltp_data' # ltp模型目录的路径# 加载分词模型cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')segmentor = Segmentor()segmentor.load(cws_model_path)# 加载词性标注模型from pyltp import Postaggerpos_model_path = os.path.join(LTP_DATA_DIR, 'pos.model')postagger = Postagger()postagger.load(pos_model_path)# 加载依存句法分析模型from pyltp import Parserpar_model_path = os.path.join(LTP_DATA_DIR, 'parser.model')parser = Parser()parser.load(par_model_path)复制代码

对每个句子分别进行分词、词性标注和依存句法分析,并对分词后的每个词语依次提取依存弧的父节点id(Root 的 id 为0,其他按分词结果依次递增)、依存关系以及依存父节点对应的词语。最后写出进行饮食行为判断的核心代码即可。

def extract_food(sentence):    words = segmentor.segment(sentence)    print(" ".join(words))    postags = postagger.postag(words)    for word, postag in zip(words, postags):        print(word + '/'+ postag, end=' ')    arcs = parser.parse(words, postags)    # 例句:我 刚 吃 了 一 块 巧克力 。    # 提取依存父节点id    # 3, 3, 0, 3, 6, 7, 3, 3    rely_id = [arc.head for arc in arcs]    # 提取依存关系    # ['SBV', 'ADV', 'HED', 'RAD', 'ATT', 'ATT', 'VOB', 'WP']    relation = [arc.relation for arc in arcs]    # 匹配依存父节点词语    # ['吃', '吃', 'Root', '吃', '块', '巧克力', '吃', '吃']    heads = ['Root' if id==0 else words[id-1] for id in rely_id]    print("\n")    for i in range(len(words)):        if postags[i] == 'n' and heads[i] == '吃' and relation[i] == 'VOB':            print("找到了一种食物:" + words[i])    print("=" * 30)    复制代码

对依存关系这部分还不太理解的可以看下此文:

接着三个例句进行测试,结果和原文相符。

sentences = ['我刚吃了一块巧克力。', '今天我去电影院看了浓情巧克力。', '我吃了个巧克力味冰淇淋。']for sent in sentences:    extract_food(sent)复制代码

以上算是简单复现了下这篇博客的思路。还有个问题就是,现实中大家讨论饮食的方式可能并不像例句中那么规整简单。

以以前爬取的知乎想法里与“#好吃的杭州#”相关的言论为例(),各种表述方式应有尽有,理想与现实的差距可见一斑。

再者是复现的代码,对于食物宾语的提取逻辑过于简单,以致诸如“巧克力味冰淇淋”、“西湖醋鱼”等带有前缀修饰的词语都无法提取。当然宾语补全也能实现,此处暂且不表。

本文代码开源在:

转载地址:http://fnodx.baihongyu.com/

你可能感兴趣的文章
微软的云策略
查看>>
Valid Parentheses
查看>>
windows下Python 3.x图形图像处理库PIL的安装
查看>>
【IL】IL生成exe的方法
查看>>
没有JS的前端:体积更小、速度更快!
查看>>
数据指标/表现度量系统(Performance Measurement System)综述
查看>>
GitHub宣布推出Electron 1.0和Devtron,并将提供无限制的私有代码库
查看>>
论模式在领域驱动设计中的重要性
查看>>
四、配置开机自动启动Nginx + PHP【LNMP安装 】
查看>>
Linux 目录结构及内容详解
查看>>
OCP读书笔记(24) - 题库(ExamD)
查看>>
.net excel利用NPOI导入oracle
查看>>
$_SERVER['SCRIPT_FLENAME']与__FILE__
查看>>
hive基本操作与应用
查看>>
html5纲要,细谈HTML 5新增的元素
查看>>
Android应用集成支付宝接口的简化
查看>>
[分享]Ubuntu12.04安装基础教程(图文)
查看>>
django 目录结构修改
查看>>
win8 关闭防火墙
查看>>
CSS——(2)与标准流盒模型
查看>>