江苏机械门户网
 
用户名: 密码: 注册账号
 
文章查询:
 现在的位置:首页 >> 资讯
  最新图文
  资    讯 更多..
4 国家出台首个促进政府投…
4 国家出台首个促进政府投…
4 政策加码 未来5年数字经…
4 客旺货畅彰显经济持续向好
4 新收集农作物资源13.9万…
4 铁路发展交出亮眼成绩单
4 关于2025年加力扩围实施…
4 海洋水产品总量稳定增长…
4 换车换家电、买手机平板…
4 在华跨国企业看好中国经…
  法律法规 更多..
4 李强主持召开国务院常务…
4 办法公布!2025年起弹性退…
4 李强主持召开国务院常务…
4 中国出台能源法 专家称多…
4 江苏省工程机械产业高质…
4 省工业和信息化厅等七部…
4 省工业和信息化厅关于印…
4 三部门关于印发《制造业…
4 国务院常务会通过《制造…
4 关于印发江苏省机器人产…
想入门人工智能?数据挖掘、机器学习、NLP还傻傻分不清,你OUT了。

内容来源:搜狐网      浏览次数:1184      更新时间:2021-08-26

人工智能的火热程度随着一场场国家会议的召开不断攀升,全民AI的进程也在不断推进。智能应用在我们身边如春笋般破土而出,各行各业也或多或少的面临着AI的冲击。

如何在这种环境中尽早适应,尝试去思考人工智能的出现对当前自己所在行业的冲击,不失为一种未雨绸缪。

但是可能这些专业的名词对很多没有接触过的人来说,显得相对繁杂了,想去了解想去学习却又觉得无从下手。

其实不管我们学什么东西,首先要清楚的便是这个名词的概念。

就好像一个小学的孩子问你:等式、不等式、微分方程这三者是什么关系?要怎么学习?

你总要先去给他讲解概念性的东西,从概念入手在应用中谈区别,至于怎么去学,在清楚了概念以后,了解其是解决什么问题的,学习对应解决问题的方法就行了。

所以针对这个问题我同样从定义入手聊聊三者的概念,从应用角度、解决问题的角度入手聊聊三者的区别和联系,以及关于入门我个人听过的一些课程和学习的一些经验。

定义概念

1、数据挖掘:

数据挖掘(英语:data mining)是一个跨学科的计算机科学。它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。

2、机器学习:

机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。

显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。

3、自然语言处理:

自然语言处理(英语:Natural Language Processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。

自然语言认知和理解是让电脑把输入的语言变成有意思的符号和关系,然后根据目的再处理。

上面的引用都来自于维基百科,如果大家看完概念大家还是一头雾水的话,只要先去注意几个特定的词就好了。

我先根据概念给出一个简单的定义:数据挖掘是一种计算过程、机器学习是一种处理人工智能问题的手段和方法、自然语言处理是涉及到人工智能和语言学领域的一个方向。

区别和联系

区别和联系我们具体来看其包含的方法和主要的使用场所。

数据挖掘的目的一方面是为了描述数据,一方面也是为了能提供预测,其主要意义在于从大量的、有噪声的、随机的数据中找到潜在的信息和知识,主要的方法包括监督式、非监督式、增强学习等等,其中监督式学习包括分类、估计、预测,非监督式学习包括聚类、关联规则等。

数据挖掘一个最常见的例子,就是在零售行业中零售公司跟踪客户的购买情况,发现客户经常购买某类产品,于是数据挖掘系统就在客户与产品之间创建了关系,之后便可以根据市场行情,将所有关于该产品的信息资料发送给该客户。

线上应用同样可以利用埋点来跟踪得到相应的信息,为产品运营提供优化和数据支持。

机器学习的目的是为了解决人工智能中的问题,其理论和算法的主要意义在于从数据中自动分析获得规律,并利用规律对未知数据进行预测。机器学习分类包括监督学习、无监督学习、增强学习等等。

到这里可能大家觉得这不是跟数据挖掘一样嘛,Binggo~,数据挖掘的方法与机器学习的分类相同,那么也就是说机器学习是数据挖掘过程中的一种方法。

于是到这里我们根据应用场景来扩充最开始数据挖掘的定义:数据挖掘是一种计算过程,它可以通过机器学习的方法实现、机器学习偏向于理论和算法,数据挖掘偏向于针对数据的应用和操作。

自然语言处理相对于数据挖掘和机器学习的关系来说就没有那么不好区分了。

自然语言处理是人工智能的一个分支,其主要是在探讨如何处理以及应用自然语言,处理的步骤基本包括对语言的认知、理解和生成。

自然语言处理最常用的地方就是舆情处理或者情感分析。

就像上面例子说的那样,不管是想去了解客户对产品的意见还是希望在量化投资中参考股民对市场的情绪,都可以利用nlp去处理分析,我们看一下基本的文本分析流程。

这个过程明显包含了数据挖掘、机器学习的工作。

像提取原始数据,对原始数据进行进行清洗、标准化,这些属于基本的数据挖掘;而后便是机器学习中重要的特征提取工作,再对提取出的特征采用相应的算法建立模型,以此完成舆情分析的工作。

同样像我们所熟知的聊天机器人也是自然语言处理的一种应用案例,仔细思考一下聊天机器人实现的过程就能知道,支撑自然语言处理的方法毋庸置疑包含了对输入数据的处理、某种学习算法等等,自然语言处理算是结合了数据挖掘和机器学习的知识在语言学这个特定领域上的应用。

如何入门?

数据挖掘&机器学习

就像上面介绍的关系说的那样,这两者其实是交织在一起的,机器学习是数据挖掘的一种方法,关于如何入门就放在一起说。

想入门数据挖掘,你首先可能要清楚数据的概念,数据能反映出什么信息?其次是了解获取数据的方法、掌握处理数据的工具、搞明白分析方法等等。

我们先来看一张广为流传的 Becoming a Data Scientist 的学习路线图

乍一看是不是觉得内容很多,但是我们并不需要把这些全部掌握,可以根据不同的发展阶段去点亮自己的技能点。

基础的数据科学工作涉及到的知识主要包括以下几类:

1. 用Python或者R编程

2. 熟练的使用上述编程工具的各种工作包,比如Python中的Numpy、Pandas等

3. SQL查询语句

4. 统计知识与方法

5. 基本的机器学习和建模能力

6. 业务能力和工作交流能力

关于Python编程的教学知识网上已经有很多了,我就不去推荐了。但是不管你是去看书也好,去听课也好,一定要注意不能只看不写,代码的知识只有在不断运用之中才能逐渐熟练。

这里给大家推荐一个用R编程的课程,是Coursera上的 Data Analysis。通过这门课程的学习我们可以学到使用R来清洗、分析、可视化数据,以及如何使用 Github 管理数据科学相关的项目。

SQL查询语法涉及到数据库的知识,Mysql 是很多网站后端存储数据的管理软件,可以简单的学习一下基本操作,像是如何创建数据库、对数据如何增删改查等等。

这个用到的时候去查也ok,推荐看看W3school或者菜鸟教程相关的教程

关于统计学知识,如果没有数学基础学起来可能会比较吃力。

在数据挖掘的过程中我们需要对数据进行描述性分析、诊断性分析、预测性分析等一些列的操作。

像描述性分析中,我们可能会计算相关数据的均值、方差、标准差,预测性分析中我们可能会运用回归分析、逻辑分析等等。

这都需要我们去了解背后的统计学知识,这里推荐一个网易公开课上的统计学课程

机器学习的入门课程比较多,首当其冲的就是吴恩达在Coursera上的Machine Learning,推荐看b站翻译的中文字幕吧,不然英文不好挺头大的,这个课程已经有很多人听过了,相关的作业资源也可以在网络上找到,编程方面用到的是Octave,课程会教授一些Octave的使用方法。沉下心来听一遍跟着作业做下来是会有很多收获的。

Ng的课程编程环境是Octave,但是现在大家一提起机器学习就是Python,所以如果能够结合前辈们的Python代码去用Python完成作业,效果会相对好一点。

如果能把这些东西都学完,也算是能入门了。但是大家可能会觉得按照这个知识路线学,东西好散乱,特定的知识要跑去特定的地方学习,很麻烦不说,还会这让本就枯燥的学习过程变得更加繁杂,而且我还没有说到要去哪里找些项目做。

的确,先不说能不能把知识串联下来,就是把这些挨着听一遍可能对大多数人来说都很困难。

我目前也在学数据分析的课程,我学数据分析的原因是因为前段时间学机器学习的缘故,在做项目实操的时候发现自己特征工程的处理能力比较薄弱,其实这归根到底算是数据处理能力的基础不扎实,所以又回过头来在学习数据分析的课程。

我学习的这个网课是贪心科技腾讯认证的数据分析课程,是收费的。目前刚听了两周,课程的目的主要是培养数据分析师,面向没有python基础的小白人士吧,有python基础的可能在项目实操方面的受益会更大一点。

像上面说的编程知识、Sql知识、统计学知识、数据分析师的业务逻辑能力培养等等,这套课程里都有。

上面这张图是我听完第一周数据分析导论写的blog,可以看到第一周第一节的课程主要是在介绍概念性和素养性的知识。

然后紧跟着概念性知识后面就是一个探索性的员工薪水分析项目,在项目里面教有关Pandas的使用,真的是怕小白不会从导入包的命令开始的。

毕竟是在百度做过数据分析、大数据、人工智能相关工作的周景阳老师在授课,站在业务角度聊实操的感觉还是挺有feel的,就算有编程基础的听着也不会枯燥,流量时代了解了解广告业务、电商业务、用户画像建立的过程也受益匪浅的。

可以稍微看一下它某些周的课程结构,我是喜欢学完知识可以直接上手实操案例的人,所以我很喜欢课程中涉及到如此多的项目,比如像亚马逊Kindle电子书的数据化商业分析、用户画像体系、以数据分析为基础搭建运营系统等等,用学到的知识完成项目的成就感很酷。

课程一共是10周,内容涉及很广泛,比如数据分析师的职业素养、Excel和Python的各种应用领域、Excel的部分图表可视化知识、Panads处理数据的各种编程知识、电商平台订单报表、用户画像的业务逻辑、产品关联分析,后面三周还会涉及到Sql和Mysql数据库的知识等等。

我最开始以为课程只是会去讲解些数据分析的知识,但是我听到第二周,发现课程里面还有线性回归、逻辑回归的知识讲解,后面在第七周还提到了KMeans聚类分析等等,我就知道这后面还藏着点基础的机器学习知识呢。

我已经听了两周了,也在不断的做笔记、梳理知识框架,我觉得这一个课程让我入门数据挖掘足够了,而且其中对于各种电商业务、广告业务等的实操案例能让我更清楚数据挖掘的某些应用方向。

自然语言处理

这个方向算是人工智能的一个应用领域。

当你数据分析的能力已经ok了,机器学习常用的理论知识、算法原理也学的差不多了,甚至也掌握了些深度学习的算法,就可以根据自己的兴趣再去选择这些更上一层楼的应用领域了,不单单限于自然语言处理,也可以结合图像做人脸识别,结合语音做音频识别、降噪处理等等。

不管是数据挖掘、机器学习还是自然语言处理,都是在人工智能的大树下发芽的东西,要想在这其中的某些或者某一个领域有所建树,要有长久钻研不断学习的心理准备。

分享到:

 
版权所有:江苏机械门户网  苏ICP备14020118号-1

该网站由小贝网络工作室提供技术支持

 
360网站安全检测平台