基于文本挖掘的京东商城手机网评分析

(整期优先)网络出版时间:2023-04-21
/ 2

基于文本挖掘的京东商城手机网评分析

林嘉欢,张宏轩

浙江省嘉兴市海宁市浙江财经大学东方学院314400  

摘 要:随着互联网的迅速发展、电子商务的快速崛起,网络购物已成为一种趋势。各大电商平台每天都产生着数以万计的评论数据。这些海量的评论数据中潜藏着丰富的有价值的信息。本文主要使用朴素贝叶斯方法对京东商城五款手机评论数据进行挖掘分析。根据分析得出的结果,为生产商进一步提高商品质量满足消费者需求提出指导性建议;同时为潜在消费者购买决策提供合理的参考也具有一定的意义。

关键词:文本挖掘;朴素贝叶斯方法;京东评论

1 引言

大数据时代的到来,互联网数据呈现快速增长模式。随着网络购物用户的不断增加,交易规模也在逐年增长,从而商品评论数量日趋庞大。各大网购平台关于一件商品的用户评论能够达到几万条甚至几十万条,数量越来越大、内容越来越复杂,如果仅仅依靠人工阅读的方式来获取有价值的信息,所以想必也是非常困难的。   

近年来文本挖掘技术的兴起,已成为分析文本评论数据的主要方法,它可以为生产商和消费者准确的提供有价值的信息,对网络购物的每一环节都有着重要意义。

2 实证分析

2.1 数据来源

以销量作为筛选条件,本文选取了2018年京东商城销量前五的五款手机,它们的货号分别是:16580586466、100008630664、43769030870、100010260230、100010658548(对应是手机型号分别是iPhone8 Plus、小米9Pro、红米Note7、华为荣耀V30、OPPO Reno3),选取用户评论作为文本挖掘分析的对象。确定好研究对象之后,通过使用Python分别对五个手机型号的用户评论内容进行爬取。

2.2 文本数据预处理

2.2.1 数据清洗

文本评论数据中包含着各种各样的信息,有的评论内容对文本分析来讲,利用价值很低甚至一点价值都没有,如果把它们也引入到分析过程中来,必然会对最后的结果造成较大的影响。因此,在正式进入分析工作之前,首先要进行的是对评论内容进行数据清洗。

2.2.2 文本分词及去除停用词

数据清洗工作完成后,接下来对评论语料进行预处理,主要有中文分词、去停用词等过程。这一过程是利用Jupyter软件调用“jieba”分词包实现。

存在很多像“的”“了”“呢”一些并没有实际意义的语气词,分词结果中常常会出现“但是”、“然而”之类的转折词,又或者是一些特殊的字母、符号,这都统称为停用词。进行文本分类之前,需要将停用词剔除掉。

2.2.3 词云词频

词云作为Python中极具灵动特色的展示库,在通常情况下使用在显示词频最终结果展示上,能够自定义背景,还可以设置不同的字体,其展示方式同其他同种工具比较,具有更立体、简练的优点。为加强对上文所爬取文本的研究,本文把Python的jieba词频分析和Wordcloud展开结合使用,在词频基础上,达到了更直接的情感分析和展示目的。

对于第一款手机iPhone8 Plus,出现较多的高频词汇除了“手机”本身之外,还有“不错”“喜欢”“值得”“满意”等等,由此可以知道,大部分消费者对于这款手机的评价较好,除此之外,他们对于发货速度方面的问题比较关注。对于第二款手机小米9Pro,出现较多的高频词汇除了“手机”本身之外,还有“老人”“喜欢”“不错”“满意”等等,由此可以知道,购买或使用这款手机的消费者大部分为老年人,他们对这款手机的使用体验较好,除此之外。对于第三款手机红米Note7,出现较多的高频词汇有“老人”“不错”“声音”“喜欢”,由此可以知道,这款手机的使用群里老年人居多,同时他们对这款手机的声音较为满意。所以对于第四款手机华为荣耀V30,出现较多的高频词汇有“手机”“问题”“不错”“客服”,除此之外还有“充电”“系统”,从这里可以看出这款手机有可能出现了一定的问题,可以是系统方面的,也可能是充电方面的。对于最后一款手机OPPO Reno3,出现较多的高频词汇有“手机”“问题”“不错”“正品”,除此之外还有“质量”“物流”“客服”,由此可得,消费者对于这款手机的总体评价较好,但是在购物过程中也出现了一些问题,同时对于物流、客服方面的问题较为关注。

    最后,将五款手机的高频词提取结果进行对比验证,iPhone8 Plus、小米9Pro、红米Note7这三款手机的结果显示为积极性评价,其词云显示的关键词多为“喜欢”“不错”“满意”;而华为荣耀V30、OPPO Reno3这两款手机的结果显示为正向和负向都有包含,其词云显示的关键词多为“问题”“客服”。由此可得,词云显示的高频词可以真实有效的反映消费者对于一款商品的评价。

2.3 朴素贝叶斯文本分类

2.3.1 训练预料收集

朴素贝叶斯模型是一种有监督的机器学习方法,所以需要收集一些已经标注好的语句,训练语句数量越多,模型预测效果越准确[1]。对于中文文本情感分类来讲,已经添加好标注的语料是十分匮乏的,而且大部分标注语料主要集中于手机评论、酒店评论、微博评论等。由于中文标注语料资源的缺乏,在网上只搜集到 521 条已标注好的笔记本电脑方面的正负评论语料,其中正面评论211条,负面评论310条。由于中文标注语料资源的缺乏,本文从五款手机的评论中分别抽取100条语句进行了人工标注,所以需要进一步加大训练集的数量。

2.3.2 实验步骤设计

(1)数据准备阶段:在网上搜集关于电脑方面的已标注好的语料,并做好标签。在本文中正面评论用“0”表示,负面评论用“1”表示。考虑到较长的评论语句包含的价值信息更多,文中并对语料进行了排序,分别在好评集与差评集各抽取500条语句组成训练语料。

(2)数据分析阶段:首先对评论语句进行分词以及去停用词,;其次,对预处理后的词组进行向量空间表示,转化为语料库,并将语料划分为训练集和测试集,其中训练集占比 80%,测试集占比 20%;然后训练语料库和测试语料库生成文档—词条矩阵(稀疏矩阵),最后得到训练矩阵和测试矩阵。

(3)模型训练及预测阶段:使用朴素贝叶斯方法对训练矩阵进行分类器的训练,把训练好的分类器应用到测试矩阵中预测出分类,然后评估模型的预测效果;最后,把爬取的五款手机评论经过前期的数据处理后放入训练好的朴素贝叶斯分类器中进行文本情感的分类得到好评率和差评率。

2.3.3 实验结果分析

从测试结果来看,iPhone8 Plus和红米Note7的好评率较高,分别达到了79%和70%,说明消费者对这两款手机的整体是比较满意的。对于华为荣耀V30和OPPO Reno3,这两款手机的好评率分别是60%和67%,说明消费者对这两款手机满意度不是很好。好评率最低的是小米9Pro,这款手机好评率只有57%,说明它很可能存在一些问题,从而使得消费者对其的满意度较低。

3 结论与建议

随着互联网的快速发展,电子商务的迅速崛起,各大电商平台每天都产生着数以万计的评论数据。这些海量的评论数据中潜藏着丰富的有价值的信息。文本挖掘技术可以对评论数据进行深度的挖掘分析,能够对生产商完善产品质量提升市场竞争力提供较多的价值信息,而且能够帮助潜在消费者购买心仪的商品决策也提供了一定的参考。可见,文本挖掘在数据时代扮演着重要角色,具有重大意义,未来会是一重要的研究领域。

(1)iPhone8 Plus的总体评价较好,在过去的消费者中深受好评,其中发货速度也占了很大优势,总体上它是一款比较好的机型,可以作为更换手机的备选方案。

(2)红米Note7的总体评价也较好,并且深受老年人的喜爱,其中好评中物流占了较大的比重,可以为准备为父母够买手机的人提供参考。

(3)华为荣耀V30和OPPO Reno3的总体评价在五款手机中也很占优势,其中华为荣耀V30的系统更受消费者的好评,而OPPO Reno3的客户服务是优势。

(4)小米9Pro的总体评价在本文研究的五款手机中并不占优势,消费者在购买手机时或许可以避免这款机型。

最后总之,五款手机各有自身的优势,同时也存在着不足。对生产商而言,优点继续保持,不足之处则需要不断的改进完善,满足广大消费者需求并做好售后服务工作,才会在激烈的市场竞争中取得优势。对消费者而言,希望可以利用一些有价值的信息供自己参考,根据自身需求做出正确的购买决策。