深度理解机器学习1-自然语言处理
深度解析机器学习
第1章 自然语言处理
描述自然语言处理及其应用。·解释不同的文本预处理技术。·对文本语料库执行文本预处理。·解释Word2Vec和GloVe的词嵌入功能。·使用Word2Vec和GloVe生成词嵌入。·使用NLTK、Gensim和Glove-Python库用于文本预处理以及生成词嵌入。
1.2 自然语言处理的基础知识
·自然语言是一种有机且自然发展而来的书面和口头交流形式。
·处理意味着使用计算机分析和理解输入数据。
自然语言处理使机器能够理解人类的语言,从而在两者之间建立有效的沟通渠道。然而,自然语言处理的必要性还有另一个原因。那就是,像机器一样,机器学习模型和深度学习模型对数值数据最有效。数值数据对人类来说很难自然产生。很难想象我们用数字而不是语言交谈。因此,自然语言处理与文本数据一起工作,并将其转换成数值数据,从而使机器学习模型和深度学习模型能够适用于文本数据。因此,它的存在是为了通过从人类那里获取语言的口头和书面形式,并将它们转换成机器能够理解的数据,来弥合人类和机器之间的交流差距。得益于自然语言处理,机器能够理解并回答基于自然语言的问题、解决使用自然语言的问题以及用自然语言交流。
1.3 自然语言处理的能力
·语音识别
机器能够识别自然语言的口语形式,并将其翻译成文本形式
·自然语言理解
机器能够理解自然语言的口语和书面语
·自然语言生成
机器能够自己生成自然语言
文本数据被称为语料库(corpora)或一个语料(corpus)
1.4 自然语言处理中的应用
·自动文摘
·情感分析
·信息提取
·关系提取
·聊天机器人
·社交媒体分析
·个人语音助理
·语法检查
文本预处理思想是这样的:机器不需要语料库中的无关部分。它只需要执行手头任务所需的重要单词和短语。因此,文本预处理技术涉及为机器学习模型和深度学习模型以及适当的分析准备语料库。文本预处理基本上是告诉机器什么需要考虑、哪些可以忽略。