k-近邻算法概述

  • 优点

    • 精度高、对异常值不敏感、无数据输入假定
  • 缺点

    • 计算复杂度高、空间复杂度高
  • 适用数据范围

    • 数值型和标称型

工作原理

  1. 样本数据集,每个数据都存在标签状态
  2. 输入新的没有标签状态的数据,将新数据的每个特征与样本集中数据对应的特征比较
  3. 算法提取样本集中特征最相似(最近邻)数据的标签; 一般选取样本数据集中前k个最相似的数据; k通常是不大于20的整数

一般流程

  1. 收集数据:可以使用任何方法
  2. 准备数据:距离计算索需要的数值,最好是结构化的数据格式
  3. 分析数据:可以使用任何方法
  4. 训练算法:不适用于k-近邻
  5. 测试算法:计算错误率
  6. 使用算法:首选需输入样本数据和结构化的输出结果, 然后运行k-近邻算法判定输入数据分别属于哪个分类, 最后应用对计算出的分类 执行后续的处理


Artificial Intelligence   Machine Learning   Algorithm      Machine Learning Algorithm k-近邻

本博客所有文章除特别声明外,均采用 CC BY-SA 3.0协议 。转载请注明出处!