机器学习

我们将整个副本专门用于AI和机器学习对企业的好处。他们全都归结为一件事:做出更好的决定。

这些决策通常与产品或服务面临的问题有关,例如减少客户流失,启动新产品系列或改善营销策略。在其他时候,将机器学习和AI引入组织可以通过取代人工密集和重复的任务来提高效率。

如果您已经确信ML和AI不仅仅是流行语,您可能想知道如何在公司中启动成功的人工智能和机器学习项目。这不是一件容易的事,但我们已经采取了一些步骤,可以减少浪费资源和资金的可能性,并为您的公司创造更多价值。

步骤1:找出主要挑战

这一步是 为业务制定机器学习策略。它决定了您如何解决所有后续步骤 –从您收集的数据类型到您选择衡量的指标。

毕竟,在尝试消除痛点之前,您需要先了解一下这些痛点。

许多小型企业希望通过人工智能和机器学习解决许多问题。追寻他们不是’在资源和预算方面是可行的。最好从小事情开始–最紧迫问题的简化版本–然后再扩展。

如果您要处理的业务挑战似乎太大,请尝试将其分解为较小的部分。通过此过程,您可以分析问题组成的不同方面,并找到解决问题的方法。

如果发现自己被卡住了,有很多 小型企业的机器学习创意。我们不建议直接复制另一个项目。但是,探索您所在行业的其他公司在ML领域所做的工作可能会有所启发。

步骤2:了解机器学习的可能性

解决了您的业务将要解决的问题后,请花一点时间来了解ML和AI的含义。要了解这些字段可以为您做什么,您首先需要了解您可以使用的特定功能。

这对于以后将与数据科学团队紧密合作的管理人员而言尤其重要。有很多的 可用的大量资源 关于机器学习和AI的基本概念。

第3步:收集数据(或使用现有数据)

第三步 从人工智能开始 面向企业的机器学习正在收集相关且全面的数据。您在第一步中定义的问题将指导您完成此步骤,但是没有神奇的公式可以说明多少数据就足够了。

数量将取决于问题的复杂性以及将在项目稍后使用的ML算法。您收集的数据类型将直接影响算法的性能,因为这些数据就是所谓的学习材料。

将控制因素和噪声因素纳入您的数据中,以提高数据质量,进而提高算法的鲁棒性。如果有问题,请不要回避近实时或实时数据,但不要觉得有必要将其包括在内。此类数据域’t always superior.

专注于最能代表您的问题的数据类型。例如,如果您要预测客户流失,则客户的实际位置数据可能对您没有太大价值。

最重要的是,不要忘记公司中已有的数据。您的公司的日常运营很可能已经产生了大量可以利用的数据。范围从客户服务数据库等明显来源到公司所在域的网站分析。

步骤4:测试您的数据

收集完所有必要的数据后,请查找趋势,异常值,异常,不正确,不一致,丢失或偏斜的信息。这听起来可能类似于下一步– data preparation –但主要区别在于,此步骤本质上是更具分析性的。

在数据探索阶段,您要确保您的数据不包含任何可能影响您未来发现的偏见。如果没有适当的数据探索,您可能最终将错误的数据输入到机器学习算法中,并获得了不良结果。毕竟,即使使用完美的算法,不良数据也会导致不良结果。

例如,如果您尝试构建一种用于公正招聘的算法,则该数据必须包含相等数量的女性和男性候选人数据点。否则,模型将在偏向多数的情况下进行训练。

根据 卡内基梅隆大学的研究,任何数据探索过程都应查看数据中的以下内容:

  1. 离群值。 与数据集的平均值相比,值太大或太小。
  2. 相似的方差。 数据变量的方差必须是均匀的。
  3. 正态分布的数据。 想想传统的钟形曲线。
  4. 没有丢失的数据。
  5. 变量之间的相关性。 数据集中几个变量的变化将影响其他变量。
  6. 独立数据集。 不同的数据集互不依赖。

此过程在很大程度上依赖于统计分析和数据可视化中的常用技术。尽管繁琐且数学繁重,此步骤还将帮助您确定最适合您的项目使用的模型或算法,并帮助您为业务制定机器学习策略。

步骤5:整理数据(数据准备)

数据准备是ML项目的关键部分。这也是最耗时的。连同上一步,此数据准备可能 占79% 您的机器学习之旅。

但是,此步骤可确保以最适合您的模型的方式一致地格式化数据。您用于AI和机器学习项目的数据源越多,您可能发现的异常就越多,数据需要的工作也就越多。

数据准备包括但不限于:

  • 数据清理
  • 标记数据
  • 处理丢失的数据
  • 处理不一致的数据
  • 正常化
  • 分割
  • 数据展平
  • 数据不平衡

特征提取也可能是数据准备的一部分。当您需要处理带有大量变量的大量数据(这需要大量的计算能力来处理)时,此功能特别有用。特征提取技术通过将两个或多个变量组合成特征而不会丢失它们所拥有的有价值的信息,从而降低了数据的维数。它还消除了您可能拥有的任何冗余数据。

第6步:训练模型以告诉未来

这是您选择,训练和验证机器学习模型或众所周知的机器学习系统的步骤。数据建模本质上是一个过程,在该过程中,算法会尝试了解数据内的关系。这是数据量及其质量发挥作用的地方。

训练完算法后,应将其引入新的数据集并根据数据生成见解和预测。这些见解将为您在第一步中确定的问题提供答案。

不幸的是,没有人可以遵循一套蓝图来确定哪种模型适合您的业务问题。常见的方法是尝试不同的算法并比较它们的性能。

用于性能评估的一些好的指标是低偏差,这意味着模型产生的结果与历史数据非常吻合。另一个是低方差,在这种情况下,分析结果不会因异常变量而过分扭曲。

步骤7:评估流程

在完成所有其他六个步骤之后,请确保您正在有效地利用自己的时间。这意味着您不应花太多时间尝试选择理想的ML算法,而应进行快速测试以确保与您的业务问题兼容。

首先,选择一部分数据,这些数据将用于测试经过全面训练的算法。对于算法,数据的选择需要是新的。如果您要在AI和机器学习中针对业务测试多种算法,请对所有算法使用相同的测试数据。

您选择的绩效指标将完全取决于您的业务问题和团队使用的算法。大多数算法都有您可以使用的标准性能指标。例如,将针对分类精度来测量分类算法。

小型企业的其他机器学习想法

记住,ML和 人工智能应用 不要止步于您的产品和服务。它们还可以使您开展业务变得更加容易。

研究您的业务流程,并确定可以将哪些内部业务流程移交给ML。寻找可重复,耗时且手动的过程。通常,任何需要查看数据的简单流程都可以在AI和机器学习的帮助下实现自动化。

正如我们在一开始提到的,在您的企业中开始执行ML项目可能会令人生畏。但是关键是要从小做起。此外,不要感到每次都遵循每个步骤的压力。您和您的机器学习团队可能会跳过这些步骤,或者一次执行多个步骤。

资源 : InData实验室 (机器学习和AI咨询公司)。

机器学习 stock photo by  Elnur /快门