利用基于 ML 的反常检测进行 4G 网络优化
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">关注留言点赞,带你<span style="color: black;">认识</span>最流行的软件<span style="color: black;">研发</span>知识与最新科技行业趋势。</strong></p>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">最新技术<span style="color: black;">怎样</span><span style="color: black;">帮忙</span>蜂窝<span style="color: black;">供给</span>商改进<span style="color: black;">她们</span>的服务。</h1>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">人工智能和<span style="color: black;">设备</span>学习<span style="color: black;">已然</span>为零售、银行或运输等行业<span style="color: black;">供给</span>了<span style="color: black;">有些</span>令人印象深刻的用例。虽然这项技术远非完美,但 ML 的进步<span style="color: black;">亦</span>让其他行业受益。在本文中,<strong style="color: blue;"><span style="color: black;">咱们</span>将审视<span style="color: black;">咱们</span>自己关于<span style="color: black;">怎样</span>使 Internet <span style="color: black;">供给</span>商的运营更有效的<span style="color: black;">科研</span></strong>。 </p>
<h1 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">经过</span><span style="color: black;">反常</span>检测改进 4G 网络流量分配</h1>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">前几代蜂窝网络在网络资源分配方面效率不高,始终为所有地区<span style="color: black;">供给</span>均匀覆盖。例如,您<span style="color: black;">能够</span>设想一个<span style="color: black;">持有</span>大城市、小镇或绵延数英里的森林的广阔区域。所有这些地区都<span style="color: black;">得到</span>了相同数量的覆盖——尽管城镇需要<span style="color: black;">更加多</span>的互联网流量,而森林需要的很少。 </p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">思虑</span>到现代 4G 网络的流量更高,蜂窝<span style="color: black;">供给</span>商能够<span style="color: black;">经过</span>优化频率资源的利用来实现可观的节能效果并改善客户体验。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">基于<span style="color: black;">设备</span>学习的<span style="color: black;">反常</span>检测<span style="color: black;">能够</span>预测网络各个部分的流量<span style="color: black;">需要</span>,<span style="color: black;">帮忙</span>运营商更<span style="color: black;">恰当</span>地分配流量。本文基于<span style="color: black;">咱们</span>对来自公共<span style="color: black;">行业</span>的信息的分析,并实施了 ML 算法,以一种可能的<span style="color: black;">办法</span>有效地<span style="color: black;">处理</span>了这个问题。 </p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">这个特定问题有多种<span style="color: black;">处理</span><span style="color: black;">方法</span>。最有趣的<span style="color: black;">包含</span>:</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">运用</span>自动标记技术在蜂窝网络中进行<span style="color: black;">反常</span>检测和<span style="color: black;">归类</span>,以应用适用于 2G/3G/4G/5G 网络的监督学习。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">CellPAD 是一个统一的性能<span style="color: black;">反常</span>检测框架,用于<span style="color: black;">经过</span>回归分析检测蜂窝网络中的性能<span style="color: black;">反常</span>。</p>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">数据概览</h1>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">该<span style="color: black;">科研</span>是<span style="color: black;">运用</span>从<span style="color: black;">实质</span> LTE 网络中提取的信息完成的。该数据集总共<span style="color: black;">包括</span> 14 个特征,其中 12 个是数值特征,2 个是<span style="color: black;">归类</span>特征。<span style="color: black;">咱们</span>有将近 40,000 行<span style="color: black;">无</span>缺失值(空行)的数据记录。数据分析团队将信息分为两个标记类别:</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">正常或 0:数据不需要任何重新配置或重新分配</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">反常</span>或 1:<span style="color: black;">因为</span><span style="color: black;">反常</span>活动需要重新配置</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">标签是<span style="color: black;">按照</span>网络特定部分的流量手动执行的。<span style="color: black;">然则</span>,<span style="color: black;">能够</span><span style="color: black;">选取</span>利用神经网络进行自动数据标记。<span style="color: black;">查询</span>此功能的 Amazon SageMaker Ground Truth,或来自 Google AI 平台的数据标签服务。</p>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">数据分析结果</h1>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">对标记数据的分析向<span style="color: black;">咱们</span><span style="color: black;">显示</span>,<span style="color: black;">全部</span>数据集是不平衡的。<span style="color: black;">咱们</span>有 26,271 个正常值(0 级)和 10,183 个(1 级)<span style="color: black;">反常</span>值:</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://p26-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/bcd0c46f77d941848e08f647b637f72b~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725617208&x-signature=SR0O5jkaKwsgRqarYQAVhOk02l8%3D" style="width: 50%; margin-bottom: 20px;"></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">按照</span>数据集,<span style="color: black;">创立</span>皮尔逊<span style="color: black;">关联</span>矩阵:</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/3353712de27245e799983efb07750566~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725617208&x-signature=x3OaU9k3k%2B2xhRYF4zGQP3vBGLE%3D" style="width: 50%; margin-bottom: 20px;"></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">4G 网络利用率特征<span style="color: black;">关联</span>图 (Pearson)</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">如您所见,<span style="color: black;">海量</span>特征高度<span style="color: black;">关联</span>。这种<span style="color: black;">关联</span>性使<span style="color: black;">咱们</span>能够<span style="color: black;">认识</span>数据集中的<span style="color: black;">区别</span>属性是<span style="color: black;">怎样</span>相互连接的。它<span style="color: black;">做为</span><span style="color: black;">区别</span>建模技术的基本量,有时<span style="color: black;">能够</span><span style="color: black;">帮忙</span><span style="color: black;">咱们</span><span style="color: black;">发掘</span>因果关系并<span style="color: black;">按照</span>一个属性预测另一个属性。 </p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">这次<span style="color: black;">咱们</span>有完全正面和<span style="color: black;">消极</span>的属性,这可能会<span style="color: black;">引起</span>多重共线性问题,从而以<span style="color: black;">欠好</span>的方式影响模型的性能。当<span style="color: black;">能够</span>从任何其他变量高度准确地线性预测多元回归模型中的一个预测变量时,就会<span style="color: black;">出现</span>这种<span style="color: black;">状况</span>。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">对<span style="color: black;">咱们</span><span style="color: black;">来讲</span>幸运的是,决策树和<span style="color: black;">提高</span>树能够<span style="color: black;">经过</span>在分裂时<span style="color: black;">选取</span>一个完全<span style="color: black;">关联</span>的特征来<span style="color: black;">处理</span>这个问题。当<span style="color: black;">运用</span><span style="color: black;">规律</span>回归或线性回归等其他模型时,请记住它们可能会遇到此问题并且需要在训练前进行额外<span style="color: black;">调节</span>。处理多重共线性的其他<span style="color: black;">办法</span><span style="color: black;">包含</span>主成分分析 (PCA) 和删除完全<span style="color: black;">关联</span>的特征。对<span style="color: black;">咱们</span><span style="color: black;">来讲</span>最好的<span style="color: black;">选取</span>是<span style="color: black;">运用</span>基于树的算法,<span style="color: black;">由于</span>它们不需要任何<span style="color: black;">调节</span>来处理这个问题。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">基本准确率是衡量<span style="color: black;">归类</span>的关键指标之一,它是正确预测与数据集中样本总数的比率。如前所述,<span style="color: black;">咱们</span>的案例中有不平衡的类别,这<span style="color: black;">寓意</span>着基本准确度可能会为<span style="color: black;">咱们</span><span style="color: black;">供给</span>不正确的结果,<span style="color: black;">由于</span>高指标<span style="color: black;">无</span><span style="color: black;">表示</span>少数类别的预测能力。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">咱们</span>的准确率<span style="color: black;">能够</span>接近 100%,但在特定类别中的预测能力仍然很低,<span style="color: black;">由于</span><span style="color: black;">反常</span>是数据集中最罕见的。<span style="color: black;">咱们</span>决定不<span style="color: black;">运用</span>准确性,而是<span style="color: black;">运用</span> F1 指标,即精度和召回率的调和平均值,这<span style="color: black;">针对</span>不平衡的<span style="color: black;">归类</span><span style="color: black;">状况</span>非常有用。F1 指标涵盖从 0 到 1 的范围,其中 0 是完全失败,1 是完美<span style="color: black;">归类</span>。 </p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">样本<span style="color: black;">能够</span>按四种方式排序:</p>True Positive, TP——正标签和正<span style="color: black;">归类</span>True Negative, TN——一个负标签和一个负<span style="color: black;">归类</span>False Positive, FP——负标签和正<span style="color: black;">归类</span>False Negative, FN——一个正标签和一个负<span style="color: black;">归类</span>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">以下是不平衡类别的指标:</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">真阳性率</strong>、<strong style="color: blue;">召回</strong>率或<strong style="color: blue;">灵敏度</strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/e4bc4444440d414e999c4aac7ee3a296~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725617208&x-signature=f%2BsC6C4z%2BHdz1F40LuCIWPriTEE%3D" style="width: 50%; margin-bottom: 20px;"></strong><strong style="color: blue;">误报率</strong>或<strong style="color: blue;">失败</strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/94076c84eb6d42b2858ef7805dd25734~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725617208&x-signature=3svb8tFxMF2EepNG26KoJD4Xko0%3D" style="width: 50%; margin-bottom: 20px;"></strong><strong style="color: blue;">精确</strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/8333fc36fdd64880809d76831f39073e~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725617208&x-signature=b%2Bq7U2tKetDE880E90aOcQvQFf8%3D" style="width: 50%; margin-bottom: 20px;"></strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">真阴性率</strong>或<strong style="color: blue;">特异性</strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/02511854ff8a410b993e6b1d78dd2d7b~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725617208&x-signature=z%2BEamoFZDrAxYxOcm0Ij6hSg8Hc%3D" style="width: 50%; margin-bottom: 20px;"><strong style="color: blue;">F1-score</strong>指标 的公式为:</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/00b1d26876b041d7b6d65cfc65f8b3ff~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725617208&x-signature=WCt3fB7q8qvfBzhEfYpIuSRi%2B8g%3D" style="width: 50%; margin-bottom: 20px;"></p>
<h1 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">咱们</span><span style="color: black;">选取</span>的算法</h1>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">DecisionTreeClassifier 对<span style="color: black;">咱们</span><span style="color: black;">来讲</span>是一个很好的起点,<span style="color: black;">由于</span><span style="color: black;">咱们</span>在测试<span style="color: black;">选取</span>上<span style="color: black;">得到</span>了 94% 的准确率,而无需任何额外的<span style="color: black;">调节</span>。为了使<span style="color: black;">咱们</span>的结果更好,<span style="color: black;">咱们</span>转向了 BaggingClassifier,它<span style="color: black;">亦</span>是一种树算法,<span style="color: black;">按照</span> F1 分数指标,它为<span style="color: black;">咱们</span><span style="color: black;">供给</span>了 96% 的准确率。<span style="color: black;">咱们</span>还尝试了 RandomForestClassifier 和</p>GradientBoostingClassifier 算法,它们的准确率分别为 91% 和 93%。
<h1 style="color: black; text-align: left; margin-bottom: 10px;">特征工程<span style="color: black;">过程</span></h1>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">因为</span>基于树的算法,<span style="color: black;">咱们</span>取得了很好的结果,但仍有<span style="color: black;">有些</span>增长空间,<span style="color: black;">因此呢</span><span style="color: black;">咱们</span>决定进一步<span style="color: black;">加强</span>准确性。在处理数据时,<span style="color: black;">咱们</span>添加了时间特征(分钟和小时),<span style="color: black;">增多</span>了从“时间”参数中提取一天中部分时间的可能性,并尝试了时滞特征——这些<span style="color: black;">措施</span>并<span style="color: black;">无</span>太大<span style="color: black;">帮忙</span>。然而,有助于改进模型结果的是<span style="color: black;">运用</span><span style="color: black;">准许</span>特征转换和数据平衡的上采样技术。</p>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">参数<span style="color: black;">调节</span><span style="color: black;">过程</span></h1>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">所有开箱即用的算法都<span style="color: black;">表示</span>出超过 90% 的结果,这非常好,<span style="color: black;">然则</span><span style="color: black;">运用</span> GridSearch 技术,<span style="color: black;">能够</span>进一步改进它们。在四种算法中,GridSearch 对</p>GradientBoostingClassifier 最有效,并<span style="color: black;">帮忙</span>实现了惊人的 99% 的准确率,从而完<span style="color: black;">成为了</span><span style="color: black;">咱们</span>最初的<span style="color: black;">目的</span>。
<h1 style="color: black; text-align: left; margin-bottom: 10px;">结论</h1>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">咱们</span>在本文中强调的问题在所有<span style="color: black;">供给</span> 3G 或 4G 覆盖的移动互联网<span style="color: black;">供给</span>商中非常<span style="color: black;">广泛</span>,<span style="color: black;">能够</span>加以<span style="color: black;">处理</span>以改善用户体验。在这种<span style="color: black;">状况</span>下,“<span style="color: black;">反常</span>”被视为互联网流量的浪费。<span style="color: black;">设备</span>学习模型<span style="color: black;">能够</span><span style="color: black;">按照</span>输入数据决定资源分配的有效性。所描述的<span style="color: black;">运用</span> GridSearch 调优的</p>GradientBoostingClassifier 的用法<span style="color: black;">能够</span><span style="color: black;">帮忙</span><span style="color: black;">机构</span><span style="color: black;">评定</span>流量分配的效率,并<span style="color: black;">意见</span><span style="color: black;">她们</span>需要更改<span style="color: black;">那些</span>参数以<span style="color: black;">供给</span>最佳的用户体验。
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">无效的流量利用并不是数据科学在电信行业<span style="color: black;">能够</span><span style="color: black;">处理</span>的<span style="color: black;">独一</span>问题。合适的<span style="color: black;">研发</span>团队<span style="color: black;">亦</span><span style="color: black;">能够</span><span style="color: black;">供给</span>欺诈检测、预测分析、客户细分、客户流失预防和生命周期价值预测等<span style="color: black;">处理</span><span style="color: black;">方法</span>。 </p>
我完全同意你的看法,期待我们能深入探讨这个问题。 i免费外链发布平台 http://www.fok120.com/
页:
[1]