爱看书的阿东

赐他一块白色石头,石头上写着新名

【数据对比】综合分析百度情感分析以及华为情感分析的差异,我有了如下结果

前言

某一天,经理找到我,说BOSS需要情感分析对比的结果,我这边能不能研究一下几家情感分析的平台,按照(巴拉巴拉)的要求进行分析,于是就有了这篇文章……

为什么要进行对比

  1. 公司任务
  2. 了解下情感分析
  3. 对比几家情感分析

业务场景:

​ 爬虫截取微博网上留言信息,调用华为云的情感分析,百度云情感分析(通用接口),百度云情感分析(定制化模型,自定义学习资料)。根据以下几个点进行对比。

  • 未处理的原版数据
    • 通用模型- 原版分类置信度
    • 定制模型 - 原版分类置信度 (800条学习资料样本, 85.96%准确率的学习资料)
    • 定制模型 - 原版分类置信度 (1800条学习资料样本, 65.93%准确率的学习资料)
    • 原版评论分类置信度 (华为云 仅2000条左右数据)
    • 通用模型- 原版评论负面倾向概率
    • 定制模型 - 原版评论负面倾向概率 (800条学习资料样本, 85.96%准确率的学习资料)
    • 定制模型 - 原版评论负面倾向概率 (1800条学习资料样本, 65.93%准确率的学习资料)
    • 通用模型- 原版评论正面倾向概率
    • 使用定制模型 - 原版评论正面倾向概率 (800条学习资料样本, 85.96%准确率的学习资料)
    • 使用定制模型 - 原版评论正面倾向概率 (1800条学习资料样本, 65.93%准确率的学习资料)
    • 通用模型- 原 版评论分析正负结果值
    • 定制模型 - 原版评论分析正负结果值 (800条学习资料样本, 85.96%准确率的学习资料)
    • 定制模型 - 原版评论分析正负结果值 (1800条学习资料样本, 65.93%准确率的学习资料)
    • 原版评论正负结果值 (华为云 仅2000条左右数据)
  • 处理掉@和#后的评论数据:
    • 通用模型- 原版分类置信度
    • 定制模型 - 原版分类置信度 (800条学习资料样本, 85.96%准确率的学习资料)
    • 定制模型 - 原版分类置信度 (1800条学习资料样本, 65.93%准确率的学习资料)
    • 原版评论分类置信度 (华为云 仅2000条左右数据)
    • 通用模型- 原版评论负面倾向概率
    • 定制模型 - 原版评论负面倾向概率 (800条学习资料样本, 85.96%准确率的学习资料)
    • 定制模型 - 原版评论负面倾向概率 (1800条学习资料样本, 65.93%准确率的学习资料)
    • 通用模型- 原版评论正面倾向概率
    • 使用定制模型 - 原版评论正面倾向概率 (800条学习资料样本, 85.96%准确率的学习资料)
    • 使用定制模型 - 原版评论正面倾向概率 (1800条学习资料样本, 65.93%准确率的学习资料)
    • 通用模型- 原 版评论分析正负结果值
    • 定制模型 - 原版评论分析正负结果值 (800条学习资料样本, 85.96%准确率的学习资料)
    • 定制模型 - 原版评论分析正负结果值 (1800条学习资料样本, 65.93%准确率的学习资料)
    • 原版评论正负结果值 (华为云 仅2000条左右数据)

解决的问题:

  1. 对比了两家的情感分析之后,经过综合分析,百度云情感分析(通用模型)的准确率是最高的。
  2. 目前综合来看,百度云的情感分析通用模式是自然语言分析的最好选择。
  3. 定制化的百度模型实际测试不如通用模型准确(可能为学习模型数据不够准确)。

挑战:

  1. 首次使用华为云情感分析,对于接口调用方面自己阅读文档不够详细,走了较多的弯路,不过经过仔细研究自行解决。
  2. 由于存在QPS限制,调用的时候需要限制调用频率。
  3. 由于网络原因可能存在频繁调用的情况。
  4. 数据较多的情况下处理数据的时长比较久(针对试用而言)。
  5. 根据不同的定制化模型。
  6. 可能存在无法分析的特殊字符数据。

使用服务:

自然语言处理 - 情感分析

如何解决:

1
2
3
4
1. 在不超过**qps**限制的情况下,试用分页形式,分段请求,在数据库中设置 判断值判断数据是否进行分析,如果重复调用会直接过滤掉已经进行情感分析的数据。
2. 对于线程进行`休眠`操作,防止调用请求过于频繁接口调用失败。
3. 使用日志记录失败请求信息,失败请求原因,失败请求数据。
4. 多次调用数据确保大部分数据可以产生结果,个别数据请求失败以及没有数据的忽略。

使用场景:

  1. 比对市面上几家华为云的情感分析使用,根据分析结果数据进行比对。
  2. 对比百度云通用模型和定制化模型的使用。
  3. 对比不同的环境下分析的数据,数据差异值。

方案截图:

img

(处理掉特殊字符前的截图)

img

(处理掉特殊字符后的截图)

使用规模:

共1000条数据左右。(其实总共有18000条数据)

使用收益:

对比了百度情感分析和华为云的情感分析,对比结果比较显著,在情感分析的领域发现是百度云的使用情况较好。

结语

原数据报表有 18000条,如果有对情感分析感兴趣,或者想要了解情感分析对比结果的,可以留言邮箱,我会抽空把报表数据发送至您的邮箱

如果觉得对您有帮助欢迎扩散

作者:

阿东