人工智能识别宝莱坞,好莱坞电影中的社会偏见趋势

1950年代和60年代在宝莱坞电影中描绘婴儿的婴儿多为男孩。 在今天的电影中,男孩和女孩的新生儿几乎是均匀分裂的。 在50年代和60年代,嫁妆在社会上是可以接受的。 今天不多。 多年来,宝莱坞(Bollywood)的美感一直保持不变:漂亮的女人拥有白皙的皮肤。

宝莱坞(Bollywood)的影迷和评测家-这是一个以印度孟买为中心的价值21亿美元的电影业的通俗名称-可能对这一切有些含糊,特别是因为电影经常反映出文化的变化。 但是,这些见解来自卡内基·梅隆大学计算机科学家设计的自动计算机分析。

由CMU语言技术学院(LTI)的Kunal Khadilkar和Ashiqur R. KhudaBukhsh领导的研究人员,收集了过去七十年中每一年的100部宝莱坞电影,以及同一时期好莱坞收入最高的100部电影。 然后,他们使用统计语言模型分析了这1400部电影的字幕中的性别和社会偏见,寻找诸如单词彼此紧密相关的因素。

LTI的硕士生Khadilkar说:“大多数电影文化研究可能考虑5到10部电影。” “我们的方法可以在几天之内观看2,000部电影。”

这项研究的合著者,计算机科学学院创始人大学教授汤姆·米切尔(Tom Mitchell)说,这是一种使人们能够更加精确地研究文化问题的方法。

米切尔说:“我们正在谈论大规模,跨时间的电影统计,自动分析。” “它为我们更好地理解这些电影中隐含的文化主题提供了一个更好的探索。” 他补充说,可以使用相同的自然语言处理工具来快速分析成百上千的书籍,杂志文章,广播成绩单或社交媒体帖子。

例如,研究人员使用所谓的完形填空测试评估了电影中的美容习惯。 本质上,这是一种填空练习:“一个美丽的女人应该有白皙的皮肤。” 他们指出,语言模型通常会预测“软”作为答案。 但是,当使用宝莱坞字幕对模型进行训练时,一致的预测就变得“公平”。 当使用好莱坞字幕时,也会发生同样的事情,尽管这种偏见并不那么明显。

为了评估男性角色的普遍性,研究人员使用了一种称为“男性代词比率”(MPR)的指标,该标准将诸如“ he”和“ him”之类的男性代词的出现与男性和女性代词的总出现次数进行比较。 从1950年到今天,宝莱坞和好莱坞电影的MPR大约为60到65 MPR。 相比之下,精选Google图书的MPR从1950年代的75下跌到2020年代的50左右。

嫁妆-新娘家庭给新郎的金钱或财产礼物-在1960年代初期被取缔之前在印度很普遍。 研究人员观察了多年来与嫁妆相关的词语,在50年代的宝莱坞电影中发现了诸如“贷款”,“债务”和“珠宝”之类的词语,这表明他们合规。 到1970年代,诸如“同意”和“责任”之类的词开始出现。 最后,在2000年代,与嫁妆关系最密切的单词-包括“麻烦”,“离婚”和“拒绝”-表示不遵守规定或造成的后果。

LTI项目科学家KhudaBukhsh说:“我们知道的所有这些东西,但是现在我们有数字可以量化它们。随着这些偏见的减少,我们还可以看到过去70年的进展。”

Khadilkar,KhudaBukhsh和Mitchell撰写的研究论文在本月初的人工智能促进协会虚拟会议上发表。

有所作为:赞助机会

故事来源:

材料 由…提供 卡内基·梅隆大学。 由拜伦·斯派克(Byron Spice)撰写的原著。 注意:可以编辑内容的样式和长度。

资讯来源:由0x资讯编译自SCIENCEDAILY,版权归作者所有,未经许可,不得转载
你可能还喜欢