这些海量信息可以帮助创造有价值的洞察力,但这些信息高度非结构化,需要被处理才能进行分析。本文通过一个使用Twitter数据创建的用例来探讨如何生成关于品牌在丑闻后形象的洞察力。分析这些非结构化文本可以帮助营销人员在客户体验管理、品牌监控等方面,将大量非结构化的客户反馈转化为可行的洞察力。在分析这些大量自由形式文本时,一个常见的问题是没有人能在合理的时间内阅读完这些内容。在这种情况下,文本挖掘是处理非结构化数据和解锁客户反馈价值的答案。本文研究了如何通过推文解锁有关话题的有价值洞察力作为用例。
概述
最近,汽车行业发生了一起重大争议,即大众汽车(VW)在美国的污染排放测试中作弊。这场被称为“柴油欺诈”的丑闻引起了全球消费者的关注。德国汽车巨头承认在美国的排放测试中作弊。根据美国环保署(EPA)的调查结果,仅在美国就有482,000辆汽车受到影响。但大众汽车承认,全球约有1100万辆汽车安装了所谓的“作弊装置”。在这种情况下,分析客户关于大众汽车的推文是有趣的,以了解他们在丑闻曝光后对大众汽车及其汽车的看法。为了创建这个用例,在大众汽车(VW)排放丑闻曝光后,使用“大众汽车”作为搜索标准提取了推文。分析与大众汽车相关的推文的目的是了解消费者在丑闻曝光后对大众汽车及其汽车的当前看法。
市场上有大量的工具和技术可以用于执行文本分析。然而,Python和R编程语言中的开源文本挖掘包可能是最受欢迎的。数据科学家偏好使用这两种编程语言中的包来从Twitter提取数据并进行分析,因为Python和R都具有高级图形处理能力,并且由于它们的开源特性,这些编程语言拥有庞大且支持性强的社区。
所采取的方法大致分为三个步骤,如图1所示,文本分析的步骤。
# 假设以下是R代码示例,用于从Twitter提取数据
library(twitteR)
library(ROAuth)
# 创建Twitter应用并获取认证
app <- create_app(appname="YourAppName")
token <- OAuth1.0(app, consumer_secret="YourConsumerSecret")
# 提取推文
tweets <- searchTwitter("大众汽车", n=1000, token=token)
在第一步中,使用“大众汽车”作为搜索标准从Twitter提取数据。这涉及到在Twitter的开发者部分创建一个Twitter应用程序,并编写Python或R代码以使用凭证对象建立安全连接并提取所需主题的推文。例如,可以使用R库“twitteR”和“ROAuth”来提取并存储原始数据到逗号分隔值(CSV)文件中。
提取推文后,需要执行第二步,即预处理。包含推文的CSV文件有多个列,如:“text”,“favorite”,“created”,“screenName”,“retweetCount”等。由于只处理“text”列中的数据,将这些信息分离并存入文本文件。从提取的数据中看到的一个样本推文如下:“大众汽车:德国检察官对前老板展开调查http://t.co/H1GQfdp2Gm…”。
可以观察到推文有一个以“http://”或“https://”开头的URL结尾的明确模式。作为预处理的第一步,需要通过删除提取文本中的这些URL来清理数据。为此任务,可以使用R的“gsub”函数和正则表达式“(f|ht)(tp)(s?)(://)(.*)[.|/](.*)”来实现,如下所示。
# 假设以下是R代码示例,用于清理数据
cleaned_text <- gsub("(f|ht)(tp)(s?)(://)(.*)[.|/](.*)", "", tweets$text)
接下来,需要删除换行符,使用“paste”函数将所有行连接并折叠成长字符串。将存储在向量对象中的字符串转换为小写。还必须删除空白、用户名和标点符号,以及从清理文本中删除停用词。最后,使用正则表达式“\W”分割字符串以检测单词边界,从而从推文中获得单词列表。获得单词列表后,就可以分析数据了。开始分析时,计算唯一单词的数量。然后构建一个单词类型及其相应频率的表格。以下代码用于执行这些步骤。
# 假设以下是R代码示例,用于分析数据
library(tm)
corpus <- Corpus(VectorSource(cleaned_text))
dtm <- DocumentTermMatrix(corpus)
freq <- colSums(as.matrix(dtm))
wordcloud(words = names(freq), freq = freq, min.freq = 5)
最后,创建了一个常用词的语料库,并生成了以下词云。这个从推文中生成的“词云”帮助直观地表示出现频率更高的单词,并有助于理解它们在分析的文本中的突出性。
在这个练习中,面临的一些挑战是,从Twitter提取的信息高度非结构化,因此需要对数据进行预处理和清理才能应用统计分析技术。最后,由于限制,可以从Twitter提取并进一步分析的数据量是有限的。
在用例中,从2000条推文开始,共计27,157个单词。但是,在预处理和数据清理后,得到了2,919个唯一单词。为这些唯一单词创建了一个频率表,以及它们的出现次数,并最终从中生成了一个词云。当查看词云中频繁出现的单词时,发现:“丑闻,作弊,欺骗,恼人,排放,死亡”。
自从分析了汽车行业最大的丑闻之一后,客户中负面情感的普遍性就显而易见了。推文是在汽车行业最大的丑闻之一被揭露后发布的。在这一点上,品牌的图像和行业总体上预计将是负面的。但是,如果仔细观察,会得到一些更有趣的单词,这些单词为这个话题提供了有价值的洞察力。词云中的一个这样的单词是:“特斯拉,埃隆,马斯克”。
汽车行业,特别是柴油汽车制造商,失去了相当大的信誉和影响力,以影响客户和政府,这从电动汽车制造商如特斯拉的崛起中可以看出。在大众汽车排放丑闻促使对欧洲和美国的其他汽车品牌进行调查的同时,特斯拉汽车公司首席执行官埃隆·马斯克表示,客户可能会认真考虑放弃化石燃料,拥抱新技术。自2015年这场丑闻发生以来,确实见证了特斯拉乃至整个电动汽车行业的惊人崛起。另一个这样的单词集合是:“德国,汽车,欺骗,作弊”。