test

NLP
test

训练基于分类器的分块器无论是基于正则表达式的分块器还是n-gram分块器,创建什么样的分块完全取决于词性标记.然而,有时词性标记不足以确定一个句子应如何分块 12(3) a. Joey/NN sold/VBD the/DT farmer/NN rice/NN ./. b. Nick/NN broke/VBD my/DT computer/NN monitor/NN ./....

Python自然语言处理07 从文本提取信息

NLP
Python自然语言处理07 从文本提取信息

本章回答下列问题:

(1)如何能构建一个系统,以至从非结构化文本中提取结构化数据?

(2)有哪些稳健的方法识别一个文本描述的实体和关系?

(3)哪些语料库适合这项工作,如何使用它们来训练和评估模型?

使用最后两章技术解决分块和命名实体识别的问题

Python自然语言处理 写在前面

NLP
Python自然语言处理 写在前面

这个系列的博客是基于《Python自然语言处理》这本书的学习笔记.

关于整本书的内容中,Python部分和有关机器学习部分的内容我会酌情略过,
(以后有机会整理Python和机器学习相关知识的话再补上引用连接)

关于代码会完整的整理到我的github代码仓库中,并且会做一定的修改以方便复用或展示
所有代码已修改为python3版本,代码运行结果和书中的相关示例结果有可能会不一致,多为训练的随机性造成

在最前面会陆续整理出学习过程中发现的错误,如果有朋友发现任何其他错误或问题欢迎留言告知,谢谢

Python自然语言处理06 学习分类文本

NLP
Python自然语言处理06 学习分类文本

模式识别是自然语言处理的一个核心部分.

以-ed结尾的词往往是过去时态动词(ref 5 chapter)

频繁使用will暗示这是新闻文本(ref 3 chapter)

可观察到的模式(词的结构和词频)恰好与特定方面的含义相关联,如时态,主题等.

我们如何知道从哪里开始寻找,哪一方面的形式与哪一方面的含义相关联?

本章回答如下问题:

  1. 怎样识别语言数据中明显用于分类的特征?
  2. 怎样构建用于自动执行语言处理任务的语言模型?
  3. 从这些模型中可以学到哪些关于语言的知识?

决策树,朴素贝叶斯分类器和最大熵分类

×
  • {title}