数据变多,工作量却在减少?看媒体如何借助算法优化内容分析

2020-01-06 10:30:46刘景俊

早期,在移动端的调查数据收集时,由于调查数量比较小,Maass Media通过人工阅读和手动分类就能完成分析。但是,随着用户人数的增加,开放式问题的回复达到成千上万时,这种方式就显得太低效。同时,由于主观性的存在,每个人对答案的理解和分类也存在很大差异。

Maass Media提出,需要找到一种新的分析方法,既能加速数据分析处理过程,也能让处理标准一致。

“我们的解决方案是用自然语言处理(NLP)开发一个情感分析算法。” Maass Media高级数字分析师Lynette Chen说道。

自然语言处理是计算机程序分析定性数据的有效方法之一。有了合适的模型后,基于大量的文本数据,调查者就可通过算法进行情绪分析,迅速完成受访者对某个特定主题的情绪反应与观点的分析。

“为内容分析提供可靠的NLP解决方案,不仅可以减少人工处理的时间和精力,还可以有效减少以往分析中存在的主观性偏差。” Chen说道。

虽然已有不少成熟的模型可供借鉴,Maass Media和实验室决定从头构建独立的模型,随后,他们依据不同的数据集训练模型来对比分析模型的成功率。在经过了三次模型迭代后,他们得到了相对完美的解决方案。

模型创建过程

依据自有模型,对自有数据集和公开数据集进行对比检验后,研究者发现,第一次迭代的算法在公开数据集上的表现并不理想,因为内外数据集对情感词汇打标签的方式并不相同,经过第二、三次迭代后,他们借鉴了VADER算法模型,获得了良好效果。

“VADER算法由佐治亚理工学院的研究人员创建,并通过众包(Crowdsourcing: 指从一广泛群体,特别是在线社区,获取所需想法、服务或内容贡献的实践。)不断进行再培训。这一模型所训练的数据集更加广泛,包含了用户对一系列单词、表情符号、俚语和首字母缩略词的评分数据。” Lynette Chen介绍道,“经过分析,我们决定改用这一算法框架,而不是使用我们自己的原始基算法,因为它可以让我们准确地分析更大范围的单词。”

在这一算法稳定成熟后,通过使用自然语言处理,大大减少了标记和统计用户非标准化回答所需的时间。“如果由我们自己人工阅读和手动标记一份用户关于大选期间媒体推送的情感态度数据,这项工作可能将花费大约 5 小时。” Chen表示,但通过自然语言处理算法,可以在不到 5 分钟的时间内完成这项工作。