基于NLP自然语义处理的机器学习算法
近日,武汉大学经济与管理学院珞珈论语《基于NLP自然语义处理的机器学习算法》研讨会在线上成功举办。
本次论坛由武汉大学2020级MEM商业/金融数据分析工程管理专业研究生尹俊主讲,来自武汉大学2020级MEM商业/金融数据分析工程管理专业部分研究生参加了研讨会。
论坛讲了四个部分:
NLP是什么
NLP(Natural Language Processing)是人工智能(Al)的一个子领域。机器,人,动物都有自己的沟通语言,不同的语言之间无法直接沟通。
不同人类语⾔之间可以通过翻译互相理解,⼈类和机器之间也可以通过“翻译”的方式来直接交流。NLP 就是⼈类和机器之间沟通的桥梁。
人类的语言,文章文本是非结构化数据,NLP是通过算法处理让机器能够理解和处理非结构化的人类语言和文字文章。
NLP处理的过程和算法介绍
2.1、文本预处理
文本分类的处理大致分为文本预处理、文本特征提取、分类模型构建等。
英文文本预处理:英文文本的分词处理相对简单,语义单元可以是单词,谚语,短语。
中文文本预处理:中文文本分词,文本切分成构成文本的基本语义单元:可以是句子、成语、短语、词语或单个的字。
分词方法:基于词典的中文分词,基于统计的中文分词方法,基于理解的分词方法:基于理解的分词。
2.2、去除停用词
停用词包括一些连接词、副词、形容词。去除这些词可以改善机器学习效果:(在英文中例如: “for”、“with”、 “as”、“to” 、“the”、“of”等,在中文中例如:“的”、“得”、“啊”、“了”、“哦”、“因此”等)。
2.3、文本特征提取
1、词袋模型(BOW):
思想:用无序的单词序列来表达一段文字或者一个文档,按照词语出现的次数来表示文档。
问题:(1)维度太大,语料库太大,导致计算困难。(2)仅考虑词语出现的次数,语义信息未考虑
2、TF-IDF文本特征提取
TF-IDF 由两部分组成:TF(Term frequency,词频),IDF(Inverse document frequency,逆文档频率)两部分组成,TF 是词频,每一个文档中出现的词语的次数越多词语的重要性更大。IDF是体现词语在文档间的重要性即如果某个词语出现在极少数的文档中,说明该词语对于文档的区别性强,对应的特征值高,IDF值高。
3、特征选择和分类器
NLP任务非常重要的一步就是特征提取(降维)。常用的word2vec主要是CBOW和skip-gram两种模型。word2vec通过训练大量的语料最终用定维度的向量来表示每个词语,词语之间语义和语法相似度都可以通过向量的相似度来表示。
● 基于特征工程 + 分类算法 :
机器学习算法中能用来分类的模型常见的有:聚类算法(kmeans,optics,DBSCAN),随机森林模型(RF),朴素贝叶斯分类器(Naive Bayes),SVM分类模型,KNN分类模型模型,Logistic regression (逻辑回归),梯度提升决策树(GBDT)等。
● 基于词向量 + 神经网络:
词向量技术是将自然语言中的词转化为稠密的向量,语义相似的词会有相似的向量表示。生成词向量的方法从一开始基于统计学到基于神经网络的语言模型,比较经典的语言模型:word2vec、FastText、TextCNN、TextRNN、RCNN、HAN、Bert(Google发表的BERT模型,目前为止,在NLP大赛中有最好表现)。
NLP的4个典型应用
舆情分析
舆情行业是个新兴行业,近年来发展特别迅猛,各级机构,企事业单位,KOL个人都非常关注网络舆情。互联网上有大量的文本信息,评论数据。通过NLP机器学习算法进行分析,可以快速了解和预测网络舆论走向。电商网站评价的情感分析也是舆情分析的一个方向,对于指导产品更新迭代具有关键性作用。
语⾳指令
目前计算机已经可以理解人的简单语音指令。比如汽车里面的语音导航,百度智能音响指令。机器识别人的复杂语音指令,通过人的语音识别人的情绪,识别人的讽刺反话语义将成为可能。未来语音搜索将应用更加广泛。
机器人客服
人的意图被识别以后,自然的对话就可以借此实现了。人类意图识别本质上也是一个分类问题,意图识别工作最大的难点其实是在于标注数据的获取。目前标注数据的获取主要是专门的数据标注团队对数据进行标注,未来通过半监督的方式自动生成标注数据的方式将越来越多。机器人客服上线之后有很多人用,得到了有很多人的反馈,在与客户互动中,不断学习并更新迭代。
机器翻译
目前Google 翻译基本比较准确了。虽然在专业技术论文翻译,高端商务活动方面机器翻译暂无法完全准确,但是可以作为非常给力的辅助。随着技术的发展,机器翻译的应用也将更加广阔。
NLP可以应用在各行各业
只要有文本的地方,就有NLP技术的用武之地。当前社会以文本形式积累了海量数据,使得NLP不仅仅是一种计算机技术,而是一个可以融合应用在全部社会科学和自然科学领域的技术。
金融领域:上市公司财报,金融新闻,股吧的评论数据的提取和分析。
工商领域:利用工商总局公开信息,数据提取和分析相关公司信息。
法律领域:裁判文书网上海量的裁判文书的读取和分析。
数字健康领域:病例数据,体检数据的读取和分析。
制药行业:从海量研究文档中提取信息,以查证过去的实验结果。
NLP自然语义处理是⼈工智能领域皇冠上的明珠。NLP也是人工智能未来应用最为广泛的领域之一。NLP自然语言处理未来将应用在社会生活中的方方面面,提高社会生产和协作效率,造福我们的生活。
《珞珈论语》理事会招募会员+志愿者15名,有意向同学可以联系,理事会会长尹俊的邮箱:yinjun20@whu.edu.cn
版权声明
1、凡本网注明“来源:专硕神州”(即作者为专硕神州;下面的来源也是同样的道理)、“来源:MBAHOPE”、“来源:EMBAHOPE”、“来源:MEMHOPE”、“来源:MPAHOPE”、“来源:MPAccHOPE”的所有作品(或者专硕神州用其他转悠名义发布的作品),均为专硕神州网合法拥有版权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:专硕神州网”。违反上述声明者,本网将追究其相关法律责任。
2、来源于专硕神州网的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有任何侵权或者不同意发布,请及时与我们联系,我们将及时处理。邮箱:yes@zhuanshuocn.com
3、本网不保证向用户提供的外部链接的准确性和完整性,该外部链接指向的不由本网实际控制的任何网页上的内容,本网对其合法性亦概不负责,亦不承担任何法律责任。";