机器学习|引介
· · · 阅读需 16 分钟
机器学习
(Machine Learning
,ML
)是一种人工智能
(AI
)的分支,让计算机无需进行明确编程,就具备从数据学习的能力。
1. 什么是机器学习
机器学习
(Machine Learning
,ML
)是一个研究领域,让计算机无需进行明确编程,就具备从数据学习的能力;
一个计算机程序利用经验 E 来学习任务 T,性能是 P,如果针对任务 T 的性能 P 随着经验 E 不断增长,则称为机器学习
;
垃圾邮件过滤器
,根据垃圾邮件(用户标记为垃圾)和普通邮件学习标记垃圾邮件;任务 T 就是标记新邮件是否是垃圾邮件,经验 E 就是训练数据,性能 P 需要定义(如准确率:正确分类的邮件比例);
训练集
,系统用来进行学习的样例;训练实例
(样本
),每一个训练样例;
2. 引入机器学习
垃圾邮件过滤器(传统规则系统)
研究问题
:看垃圾邮件一般是什么样子;比如垃圾邮件会频繁出现一些固定模式
的词或短语(4U、credit card、free、amazing 等);编写规则
:为每个模式各写一个检测算法,程序在邮件中匹配到一个模式(规律),就将之标记为垃圾邮件;评估
&分析错误
:测试程序匹配正确性,重复迭代,直到匹配效果足够好 ;
传统规则系统应对这类需要大量人工微调或大量规则的问题,很难维护
大量复杂的规则;
ML 技术的垃圾邮件过滤器会自动学习词和短语(预测因素
),通过与非垃圾邮件比较,检测垃圾邮件中反复出现的词语模式;更易维护,也更精确;
-
更新数据
:用户手动标记垃圾邮件,此时 ML 算法会自动完成垃圾邮件标记,无须人工干预; -
数据挖掘
,在训练了足够多的样本后,就可以列出模型的特征,这有时可能发现不引人注意的关联或新趋势,有助于更好的理解问题;这种使用机器学习方法挖掘大量数据来发现不明显规律的方式,就是数据挖掘;
ML 适用场景
- 有解决方案,但需要大量人工微调或准信大量规则的问题,机器学习通常可以简化代码,相比传统方法有更好的性能(如
垃圾邮件过滤器
); - 传统方法难以解决的复杂问题,最好的 ML 自我学习算法也许可以找到解决方案(如
语言识别
); - 环境有波动的问题,ML 算法可以适应新数据;
- 帮助人类洞察复杂问题和大量数量(
数据挖掘
);