专栏名称: 图书情报知识
教育部主管,武汉大学主办,武汉大学信息管理学院和信息资源研究中心承办的“图书馆、情报与档案管理”综合性专业学术期刊。系全国中文核心期刊、CSSCI来源期刊、中国图书馆学优秀期刊、人大复印报刊资料重要转载来源期刊、国家社科基金资助期刊等。
目录
相关文章推荐
51好读  ›  专栏  ›  图书情报知识

网络首发 | 今天你上“小红书”了吗?在线社区用户信息分享的主题提取与动机分析

图书情报知识  · 公众号  ·  · 2024-01-15 10:55

正文

请到「今天看啥」查看全文



网络首发时间

2024-01-11

网络首发地址

https://link.cnki.net/urlid/42.1085.G2.20240109.1739.002

引用本文

刘洋,段宇杰,张鑫,董亦非,胡秀英.今天你上“小红书”了吗?在线社区用户信息分享的主题提取与动机分析[J/OL].图书情报知识(2024-01-11).
https://link.cnki.net/urlid/42.1085.G2.20240109.1739.002

Photo by Europeana on Unsplash.



刘洋

武汉大学信息管理学院,武汉,430072

段宇杰

武汉大学信息管理学院,武汉,430072

张鑫

武汉大学信息管理学院,武汉,430072

董亦非

武汉大学信息管理学院,武汉,430072

胡秀英

四川大学华西医院护理创新研究中心 / 护理学四川省重点实验室,成都,610041



目的 | 意义

_

旨在定量分析小红书平台上用户分享内容的主题,以促进社交媒体平台的质量改善,推动社交平台健康发展。


研究设计 | 方法

_

基于Censydiam动机分析模型,采用BERTopic主题提取方法,构建在线社区信息分享主题与动机研究框架。以小红书平台为研究对象,收集了3,688,942条用户信息,并对用户在不同主题下的信息分享动机进行了分析。


结论 | 发现

_

小红书用户的信息分享主题主要包括生活经验、购物和食品三个方面。用户主要需求包括对社会群体的认同与归属感、融合沟通以及享乐与释放等方面。因此,平台应更注重与整体社交媒体环境的和谐性,保持一致的社交调性,以体现对用户群体的关怀和增强用户的归属感。


创新 | 价值

_

以小红书在线社区的文本数据为基础,验证了研究框架的可行性,并为在线社区的分析和建设提供新的思路和方法。


关键词

_

主题提取;信息分享;动机分析;Censydiam 模型;小红书









_

1

引言


_


随着互联网的高速发展,在线社区正逐渐成为人们关注的焦点。作为连接着数亿用户的网络平台,在线社区积累了庞大的用户数据和互动信息,因此承载了丰富的社会、文化和商业价值。分析在线社区中用户的信息行为对于深入理解用户需求、塑造健康有序的网络空间具有重要意义。用户信息分享行为已经成为当前在线社区中备受关注的研究方向之一。这种行为不仅为其他用户提供了有价值的知识、经验和观点,还在购买决策过程中起着重要作用。此外,用户的信息分享行为对在线社区平台的用户粘性、活跃度增加以及吸引广告业主和商家合作也起到了推动作用。通过深入了解用户信息分享的动机,平台管理者能够更好地满足用户期望,提供个性化的服务和推荐,从而提升用户体验,进而创造更大的经济利益。


在过去的研究中,情感分析已被证明是分析用户信息分享行为的有效方法。通过细粒度情感分析,能够揭示用户对分享内容的态度以及对特定主题的喜好程度。尽管之前的一些理论,如马斯洛需求理论、承诺理论、不确定性管理理论等,已被广泛应用于信息行为动机分析,但在信息分享领域的应用相对较少,无法充分挖掘用户在线社区信息分享行为的动机。Censydiam模型作为一个综合性理论框架,可以基于不同主题的情感倾向分别进行动机识别,有助于在线社区平台更深入地了解用户需求。尽管之前一些研究利用Censydiam模型进行动机识别,但未先进行主题提取,可能导致遗漏用户的情感特征,从而影响动机分析的效果。


为了填补上述研究的不足,深入挖掘小红书在线社区用户信息分享的动机,以更好地协助平台进行个性化推荐、更加深刻地理解小红书用户的信息分享动机,本文提出了一个在线社区用户信息分享主题提取与动机研究的框架。在这个框架下,本文采用BERTopic模型对小红书用户信息分享内容进行了主题提取,并对各个主题进行了细致的情感分析,再结合Censydiam模型来挖掘用户底层情感需求。同时,本文也从心理学的角度出发,深入理解用户的心理和行为,识别并解析了人们在使用产品或服务时潜在的动机,为现有研究提供了心理学洞见的补充。此外,本文还将Censydiam模型与主题词频相关联,以深入了解某一领域内信息分享的主要和次要动机,为小红书等在线社区平台的业务优化提供重要参考。



_

2

文献综述


_


2.1 在线社区用户信息行为研究


在线社区,又被称为虚拟社区,是由Howard Rheingold首次提出的概念。它指的是“由一群使用互联网进行互动、在网络中共享信息和知识、相互了解的人们所形成的群体” 。虚拟社区的研究可以从不同角度进行,包括社会学、传播学、心理学等。在图书情报学领域,研究者一直将焦点放在在线社区的信息资源和用户信息行为这一核心研究领域。在信息行为研究的早期阶段,大部分工作主要集中在信息搜索这个子领域。例如,研究人员使用双路径模型等方法,发现在微博环境下,用户的学术信息搜索行为往往受到信息质量和信息源可信度两方面的影响。随着研究的深入,学术界开始关注其他信息行为模式,例如信息规避和信息需求等,这逐渐使信息行为研究形成了一个系统完整的学术体系。这三者之间也存在着紧密的联系:信息搜索源于信息需求,而信息规避行为常常发生在信息搜索的过程中。


在线社区已积累了大量用户生成的内容,这使信息行为研究更具多样化的特点。在这一背景下,用户信息分享行为的相关研究逐渐成为热门课题。例如,叶凤云等采用问卷调查方法,分析了短视频用户在信息流中的偶遇信息分享行为的影响因素,并提出了提升用户获取信息价值的建议。许莉薇等学者研究了情绪对突发事件下信息分享行为的影响,他们在一定时间范围内分析了事件发展和情绪演化对信息分享行为的相应变化。孙少军等研究者提出了用户参与信息分享的各种动机,包括娱乐收益、自我效能感、利他主义、声誉和社交需求等因素。这些研究都以信息分享行为的动机为切入点,为我们提供了不同的视角,有助于更好地理解用户的信息分享行为。


2.2 用户信息行为动机研究


当前的研究在分析用户信息行为的动机时,广泛运用各类理论模型。其中,马斯洛的需求层次理论的发展较为成熟,适用范围广泛。例如,蒙山基于需求层次理论对老年公寓建筑空间的使用后评价进行了研究。然而,该理论本身存在局限性,难以考虑用户在同一时间的多个相互矛盾的动机,因而无法充分适应当前互联网用户需求研究,并且不太适用于对用户信息分享行为在细粒度主题下的深入分析。承诺理论通过用户产生的情感承诺、持续承诺和规范承诺这三维承诺来指导用户的信息分享行为,基于这一理论的研究方法主要以问卷调查为主,更适合验证性研究,而不适用于像主题聚类等探索性研究。例如,李琪等研究者利用该理论对问卷数据进行了分析,发现社区团购的互动性、亲近性、熟悉性、便利性和经济性等五个因素会影响消费者的参与意愿。不确定性管理理论将不确定性视为一种工具或资源,认为个体有管理、维持或增加不确定性的动机。该理论更多地应用于研究信息规避行为的动机,例如Dale E. Brashers等学者通过不确定性管理理论,识别出在面对可能的诊断结果时,患者会选择规避这些信息以保持自己的健康状态的不确定性。动机信息管理理论在此基础上将不确定性的应用范围扩展到信息搜寻等更多领域,但在信息分享动机研究中应用较少。


Censydiam用户动机分析模型源于人格理论,其主要目的是研究用户行为、态度或目标背后的动机。该模型基于社会和个体两个层面来研究用户需求。个体在产生需求时可以选择抑制或者任凭其发展。在社Censydiam用户动机分析模型源于人格理论,其主要目的是研究用户行为、态度或目标背后的动机。该模型基于社会和个体两个层面来研究用户需求。个体在产生需求时可以选择抑制或者任凭其发展。在社会层面,个体在社交互动中需要展示自身的个性和能力,以获得成就感和自尊,但同时也需要在独立性和归属感之间保持平衡。这四种状态可以揭示出用户背后的四种基本动机,即模型的端点。此外,研究者还通过分析总结出了该模型中除端点外的四个象限内的人们的行为动机,这合在一起形成了该模型的“八种动机” 。Censydiam用户动机分析模型的框架如图1所示,各象限和维度的内涵如表1所描述。



_



_
_

图1   Censydiam 用户动机分析模型

_



_

表1   Censydiam用户动机分析模型的主要内涵


_


Censydiam动机分析模型在各学者的研究中得到了不同应用。Liu等人在数据驱动下构建了一个用户需求评价体系,并运用Censydiam模型深入探索用户的购买动机。Hou等人使用Censydiam模型,建立了YouTube频道订阅动机理论模型。张一蕾等将Censydiam模型的8个子类视为人类社会生活中不同动机和行为的8个人物角色,结合定性研究方法来创建这些人物角色。综上所述, Censydiam模型的优点在于它可以适应不同主题的研究,来划分用户细粒度信息分享的动机优先级。因此,它非常适合用于在线社区用户信息行为动机的研究。本文将利用Censydiam模型来探讨在线社区用户信息分享的动机。



_

3

研究设计


_


3.1   本文研究框架


本文提出了基于Censydiam模型的在线社区信息分享主题提取与动机研究框架,如图2所示。



_



_
_

图2   研究模型

_


第一步,本文首先对小红书用户数据集进行去停用词、分词等数据预处理工作后,分别使用LDA和BERT模型进行主题聚类,对得到的主题词进行比较 与验证;然后根据各个主题及其主题词分布,将主题 回溯至各个文档中,统计主题词的词频以及对应文档 的情感值。


第二步,通过人工标注的方法,基于Censydiam模型对各主题词的文本进行动机分析,结合词频获取各领域(生活经验等)的主题词占比,得到在线社区的信息分享主题和动机。


3.2 数据采集与处理


本研究采用Python爬虫技术成功获取了小红书平台 在2021年12月1日至2022年2月28日期间的所有用户博文,总计3,688,942条。鉴于在线社区平台上用户的语言更加口语化,与学术文献等规范文本有所不同,因此在数据预处理过程中,本文移除了原始数据中的短评论,并去除了重复的评论,共计去除了198,760条数据,最终保留了3,490,182条有效文本数据。接下来,本文使用Python中的中文分词工具Jieba库对清洗完成后的文本进行了分词处理。分词完成后,根据哈尔滨工业大学提供的停用词表,将其中的停用词从文本中去除,以获得经过处理的语料集。


3.3 提取方法与主题数选择


主题一致性是用于评估主题模型生成主题的质量和可解释性的指标。一个好的主题应该包含互相相关、语义一致的词汇,通过评估主题的一致性,可以判断主题模型是否能够准确地捕捉到文本数据中的主题,从而确定最佳的主题生成数。CU_Mass(Coherence-U_Mass)方法是由D. Mimno等提出的一种用于主题模型的语义一致性优化方法,它考虑了每个主题词出现时对其余主题词的支持程度,并使用文档共现计数来计算条件概率。通过对每个词的条件概率取对数,并将所有单词的条件概率取平均,可以得到主题的一致性得分。CU_Mass主题一致性的计算如公式(1)所示:


_



_

其中, N表示语料库中的总词数, Wi=(W2, ……,WN)是主题K中的N个词语列表。P(Wi│Wi-1)表示在给定前一个词语Wi-1的情况下,当前词语Wi出现的条件概率。CU_Mass通过比较相邻单词的条件概率来度量主题中单词之间的联系和一致性,其指标的数值越大,表示主题模型的语义一致性越好。



_

4

结果分析


_


4.1 用户信息分享主题提取


由于数据量较大,本文将数据集分成六组,每组包含约600,000条数据。然后,对这六组数据分别进行LDA和BERT主题提取,并在每组600,000数据下比较了两个模型的主题一致性,结果如表2和图3所示。可以观察到,当主题数为5和10时, BERT的主题一致性相对较高,同时优于LDA的一致性水平,生成的主题更容易解释。这表明,在当前的语料库中, BERT在主题数为5和10时的聚类效果优于LDA。然而,当主题数为10时,各组聚类得到的主题可能会更具重复性。因此,本研究将最佳主题数量设置为5。



_

表2   BERT 及 LDA 聚类结果的主题一致性值


_



_



_
_

图3   BERT 及 LDA 聚类结果的主题一致性对比

_


在完成BERTopic主题模型后,本文进一步使用t-SNE方法进行主题可视化。首先,对其中一组数据使用k-means对句子向量进行聚类。由于BERTopic和k-means都是用于文本聚类的方法,因此选择与主题数量相同的簇数,即将主题聚类为5个簇,以保持一致性。完成聚类后,本文将k-means聚类的结果作为t-SNE的输入,将主题嵌入到二维空间中,并进行可视化。本文对获得的5个类簇采用t-SNE降维算法,将数据降维到二维空间,如图4所示。从图4中可以看出,识别出的5个类簇在空间上分布明确,说明本文在主题聚类时,类簇内具有较高的一致性。



_



_
_

图4   5个类簇分布的 t-SNE 图

_


根据以上比较和验证的结果,采用BERTopic方法,本文分别从每组数据中提取出5个主题,共计30个主题,然后将相似或重叠的主题合并,最终得到17个主题。根据李晨等学者提出的用户信息分享行为通常源于现实刺激需求和个体心理需求两个方面,以及盛姝等学者用过程和心得两个方面来描述在线健康信息分享行为,结合小红书社区的行为特征,可以从生活经历信息分享、购物信息分享和食品信息分享这三个角度来总结用户在小红书平台上的信息分享主题,如表3所示。



_

表3   用户信息分享主题提取


_


从表3可以看出,用户在生活经历信息分享方面的主题主要集中在一些精彩瞬间、节庆体验,以及经验分享。在婚礼、美发等经历中,用户更倾向于分享和传达当时的喜悦和惊喜等感受,同时分享自己所使用的相关物品。涉及到节日的主题中,用户倾向于分享与节日相关的事件,以寻找共鸣。当用户进行经验分享时,更倾向于描述所陈述主题下的关键点,从而提供中肯、实用的建议。在购物信息分享方面,用户倾向于从鞋靴、店铺、衣物、二手车和首饰这五个角度进行分享。这些内容都是用户身边常见的购物消费项目,可以反映用户各异的个人品味和审美观,同时也代表了小红书作为社交化电子商务平台所承载的生活化和消费趋势属性。用户会在分享新品首发或私藏好物时表达自己的购物狂热与品味追求,同时评论与讨论也可以满足用户参与交流的需求,体现出用户在在线社区分享帮助彼此的社群属性。在食品信息分享方面,用户从几个不同的角度分享了自己推荐的美食。通过分享地道小吃以及家常菜谱,他们不仅传播各地美食文化,同时也展示自己的口味喜好。一些用户分享新奇饭店或特色点心,满足网友对口腹之欲的探索,同时也有用户分享下厨经历和点评,以帮助其他人选购及饮食决策。食物信息的分享体现出用户在饮食方面寻找新鲜感和共鸣的社交需求。这17个主题反映了用户在小红书上分享各种生活经验和购物、食品信息时的兴趣和关注点,为进一步分析用户的动机提供了有价值的线索。


4.2 用户信息分享的情感分析


根据严炜炜等在处理知乎用户语料时所提出的观点抽取模型,用户倾向可以从词频和情感两个角度进行衡量。当涉及到用户评论和观点时,高频词通常只提供了对用户评论语义的粗粒度信息,难以准确反映用户评论中更为详细和直观的观点。通过进行细粒度观点抽取,可以在粗粒度观点抽取的基础上进一步深入,将其具体化到用户所反馈的各个层面,更好地了解用户在不同特征层面上的喜好和不满,从而为用户信息分享动机提供有力的参考。因此,在基于词频的分析基础上,运用细粒度情感分析的方法,能够更好地提取用户在不同主题下具体化的情感需求。


信息分享倾向的衡量采用用户信息分享倾向指标,对于每个主题提取高频词汇后,将主题词汇回溯至对应短句中并计算相应情感得分,分享倾向得分SC计算如公式( 2 )所示:


_


_


其中S为情感得分, C为词频,并绘制出对应的信息分享倾向图,从词频、情感两个维度对每个信息分享 主题进行分析,所有词汇的倾向如图5所示。其中,绿、蓝、红分别代表生活经历信息分享、购物信息分享和食品分享类主题词。词汇对应的高度越高,代表该词汇的分享倾向得分越高,即用户分享该内容的倾向越积极、强烈。



_


_



_
_

图5   小红书用户信息分享情感倾向总览

_


_


从分享倾向的分析中可以得出,用户在小红书分享的关键词中,情感得分高于0.7的包括婚纱照、婚纱、鞋子、运动鞋、鞋控、高跟鞋、白鞋、私藏、女装、牛仔裤、衬衫、内衣、烤肉店和家常菜等。这些关键词表明用户在描述这些经历与经验时感到高兴,更多地分享正面的经历,例如拍摄美丽的婚纱照或分享时尚穿搭等。另一方面,用户分享的内容中情感得分低于0的关键词包括表情、男人、婚姻、星座和冷漠。这说明用户在分享这些信息时感到不高兴,带有悲伤、抱怨或不满的情感。综合来看,用户在小红书平台进行信息分享时,突出的词汇主要集中在生活经历信息分享和购物信息分享两个领域。整体而言,这些分享呈现出积极向上的趋势,主要以推荐和分享正面经历为主要内容。这表明用户在小红书上更倾向于分享与个人生活经历、购物信息相关的内容,并且这些分享多以正向、积极的形式呈现。


4.3 用户信息分享的动机分析


根据获取到的生活经验、购物、食品三个方面的主题词,与Censydiam情感需求分析模型结合,通过对主题倾向的理解,同时基于每个主题词的情感倾向度优先级进行遴选,采用累计计分法进行统计。为了保证结果的可信度,本文采用背靠背标注方法。具体来说,将四名学生分为两组,每条文本由两名学生同时注释。对于标签不一致的评论,由注释组讨论,由两位老师做出最终决定。对于两位老师也有不同意见的文本,本文予以丢弃。学生完成标注后,老师将审核所有标注数据、修改错误并进行数据统计与分析。因此,可以认为注释结果的一致性分数为95%。最终,本文得到如表4所示用户“主题词—情感需求”洞察表。其中★代表情感需求标签,即该主题词具有相应方面的情感需求,每一列的★越多,该列所代表的动机总得分越高,即用户在此维度下的情感需求越大。



_

表4   “主题词 - 情感需求”洞察表


_


4.4 用户信息分享动机占比


将用户情感需求洞察表和主题词的词频表进行关联,分别计算三个领域下的主题词的得分占比如表5所示,可知生活经验领域下融合/沟通、享乐/释放两种动机占比较高,个性/独特和理性/控制两种动机占比极低;在购物领域下,享乐/释放、顺从/归属占比较高,能力/地位动机占比最低;在食品领域下,融合/沟通和享乐/释放两种动机的占比最高,理性/控制的占比较低,而能力/地位的占比为0。即小红书用户在信息分享时的动机集中在顺从/归属、融合/沟通、享乐/释放这三个方面。



_

表5   用户信息分享各主题动机占比


_



_

5

讨论


_


5.1 研究结论


本文通过小红书在线社区平台,分析了用户在生活经验信息分享、购物信息分享、食品信息分享等方面的倾向,并发掘出了一些有趣的观察结果。本文发现用户在生活经验信息分享方面内容丰富,但情感态度参差不齐;而在购物信息分享方面,用户的态度整体较为积极,主要集中在各种购物推荐上,覆盖面广泛;至于食品信息分享,用户更多地倾向于向其他用户推 荐餐厅,分享美食经历。这些结果与前人研究结果匹 配。在这一提取过程中,本文兼顾了广度和深度,对用户评论进行了全面挖掘。这一分析方法可以扩展至其他社交平台,并应用于所有社交媒体平台,以深入提取用户在在线社区分享的主题以及各主题的具体倾向。基于上述结果,可以看出小红书上用户信息分享的情感倾向主要是正向的,但在不同主题中情感倾向存在差异,反映出了用户的不同主观态度和实际需求。在与生活经验相关的主题中,用户更倾向于分享 积极向上的内容,例如婚礼和爱情;在与购物消费场景相关的主题中,用户更倾向于分享产品推荐,如穿搭和汽车;而在涉及美食的主题中,用户的情感倾向更加类别鲜明,如烤肉和早餐。


基于以上结果,通过Censydiam模型精准定位了用户信息分享的动机。用户的需求可以总结为以下三种方面:首先,顺应感和归属感。小红书用户渴望融入社会群体,他们希望得到周围环境的认可和支持。因此,小红书平台应该考虑保持与社交媒体大环境一致的社交调性,以增强用户的归属感。其次,融合和沟通。用户愿意在虚拟社区中与陌生人和已认识的朋友建立更紧密的联系,分享他们的快乐。平台可以通过建立更多亲密社交方式和探索新的应用场景来促进互动和融合。最后,享乐和释放。小红书平台可以提供丰富多样的娱乐内容和活动,让用户在其中享受乐趣并释放压力。这包括但不限于购物、美食、时尚穿搭、生活经验等方面的推荐和讨论。平台可以与相关品牌、艺人或机构合作,推出特别活动或优惠,为用户提供独特的体验。


5.2   启示


对于内容创作者来说,有多种角度可以用来创作内容,以满足不同用户的需求。例如,可以从理性和控制的角度撰写关于婚纱和婚纱照的文章,也可以从个性和独特的动机角度来创作。这种多样性可以避免内容同质化,吸引那些想要了解相关经验的用户,从而提高关注度。此外,在已有的主题下,可以强调某种动机,例如,在租房相关的文章中,突出舒适和安全的主题,以吸引那些寻求租房经验的用户。对于小红书平台而言,可以根据全面的数据主题提取结果进行相应的板块设置,以提供更符合用户需求的内容和服务。例如,可以设立生活经验、购物分享、美食分享等板块,并提供相关话题和专栏,以更好地满足用户的需求。同时,在每个板块中,可以开设相应的话题和专栏,例如在购物板块中提供推荐栏,以满足用户的需求。平台还应该注重用户的情感需求,提供更符合用户情感倾向的内容和服务。可以通过情感分析和用户画像等技术手段,了解用户的情感需求和反馈,为用户提供个性化和情感化的服务。此外,平台还应该在推荐算法和内容推荐方面考虑用户的情感需求,平衡用户的兴趣和情感需求,避免过于单一或过于偏向某种情感倾向的内容推荐。


5.3   未来工作


通过小红书这一例子,本文提取了用户在知识分享中感兴趣的主题和待刺激的主题,并提出了相应的运营策略。这些策略不仅有助于激发用户信息分享行为,还有助于用户获取感兴趣的知识。通过有针对性地完善特定主题的运营策略,能够精准地激发用户的信息分享行为,丰富在线社区信息分享的内容,进一步刺激社区用户的消费欲望,这将有助于在线社区的未来进步。


本研究也存在一些不足之处。研究聚焦于小红书平台,而该平台的主要用户为年轻女性,受众相对单一。此外,本文并未详细描绘每一类用户的画像,因此在将来的研究中,可以考虑扩展到其他社交电商平台,结合用户画像分析技术,以增强研究结论的普适性。另外,语料仅涵盖了短时间内的用户内容,可能存在时效性的问题。未来的研究可以采用更加丰富的语料文本,并引入时序分析,以深入挖掘用户在在线社区平台信息分享的深层次特征,进一步探索更为明确和精准的行为规律。



_

*参考文献略,请详见原文。


_





END






版式设计

陆澜


制版编辑

王淳洋





关注公众知识状态 / 引领学科发展潮流

Focusing on the State of

Public Knowledge

Leading the Development Trends of

the Discipline


网络首发 | 数智赋能信息资源管理新路径: 指令工程的概念、内涵和发展

网络首发 | 个人通信数据的敏感性识别与隐私计量研究

网络首发 | 大模型时代的社会科学,何去何从?

网络首发 | 数智赋能人类健康管理——中国科学技术情报学会健康信息学专业委员会2023年年会分论坛纪要

网络首发 | 新时代信息资源管理学科的高质量发展——2023年中国信息资源管理学科发展论坛纪要








请到「今天看啥」查看全文