版权声明:本套课程材料开源,使用和分享必须遵守「创作共用许可协议 CC BY-NC-SA」(来源引用-非商业用途使用-以相同方式共享)。


Chap04:字符处理

本章要点目录

## 本章所需R包
library(bruceR)
library(stringr)  # 字符串处理(加载bruceR时已默认加载stringr)
library(rvest)  # 网络爬虫

正则表达式基础

【知识点】正则表达式

正则表达式 / 规律表达式(regular/pattern expression,RegEx)

  • 含义:描述字符串规律(模式)的表达式
  • 作用:根据模式,匹配字符(自动处理文本)
    • 词频统计
    • 数据清洗
    • 文本提取
    • ……

(1)字符匹配

【实践1】字符匹配

text = "笔记本上安装SPSS22或20,授权码复制不上,导致安装失败。已经试了多次了,都安装不上SpSS,请问有遇到这种情况的吗?电脑是64位的,Spss是32位的,是这个原因吗?之前SpsS在其他笔记本和台式电脑上都安装成功了。"
cat(text)
笔记本上安装SPSS22或20,授权码复制不上,导致安装失败。已经试了多次了,都安装不上SpSS,请问有遇到这种情况的吗?电脑是64位的,Spss是32位的,是这个原因吗?之前SpsS在其他笔记本和台式电脑上都安装成功了。
str_extract_all(text, "SPSS")  # 完整字符串
[[1]]
[1] "SPSS"
str_extract_all(text, "SPSS|Spss")  # "|"表示或者
[[1]]
[1] "SPSS" "Spss"
str_extract_all(text, "[SPSS|spss]")  # 思考:为什么?
[[1]]
 [1] "S" "P" "S" "S" "S" "p" "S" "S" "S" "p" "s" "s" "S" "p" "s" "S"
str_extract_all(text, "[SsPp]")
[[1]]
 [1] "S" "P" "S" "S" "S" "p" "S" "S" "S" "p" "s" "s" "S" "p" "s" "S"
str_extract_all(text, "[Ss][Pp][Ss][Ss]")
[[1]]
[1] "SPSS" "SpSS" "Spss" "SpsS"
str_extract_all(text, "\\d")
[[1]]
[1] "2" "2" "2" "0" "6" "4" "3" "2"
str_extract_all(text, "\\d\\d")
[[1]]
[1] "22" "20" "64" "32"
str_extract_all(text, "\\d\\d位")
[[1]]
[1] "64位" "32位"

(2)条件匹配

【实践2】条件匹配

text = "笔记本上安装SPSS22或20,授权码复制不上,导致安装失败。已经试了多次了,都安装不上SpSS,请问有遇到这种情况的吗?电脑是64位的,Spss是32位的,是这个原因吗?之前SpsS在其他笔记本和台式电脑上都安装成功了。"
cat(text)
笔记本上安装SPSS22或20,授权码复制不上,导致安装失败。已经试了多次了,都安装不上SpSS,请问有遇到这种情况的吗?电脑是64位的,Spss是32位的,是这个原因吗?之前SpsS在其他笔记本和台式电脑上都安装成功了。
str_extract_all(text, "\\d{2}位")
[[1]]
[1] "64位" "32位"
str_extract_all(text, "[SsPp]{4}")
[[1]]
[1] "SPSS" "SpSS" "Spss" "SpsS"
str_extract_all(text, "[SP]{4}")
[[1]]
[1] "SPSS"
str_extract_all(text, "[Sps]+")
[[1]]
[1] "S"    "SS"   "SpSS" "Spss" "SpsS"
str_extract_all(text, "(Sps)+")
[[1]]
[1] "Sps" "Sps"
str_extract_all(text, "Sps+")
[[1]]
[1] "Spss" "Sps" 

(3)预查匹配

【实践3】预查匹配

text = "笔记本上安装SPSS22或20,授权码复制不上,导致安装失败。已经试了多次了,都安装不上SpSS,请问有遇到这种情况的吗?电脑是64位的,Spss是32位的,是这个原因吗?之前SpsS在其他笔记本和台式电脑上都安装成功了。"
cat(text)
笔记本上安装SPSS22或20,授权码复制不上,导致安装失败。已经试了多次了,都安装不上SpSS,请问有遇到这种情况的吗?电脑是64位的,Spss是32位的,是这个原因吗?之前SpsS在其他笔记本和台式电脑上都安装成功了。
str_extract_all(text, "\\d{2}位")
[[1]]
[1] "64位" "32位"
str_extract_all(text, "\\d{2}(?=位)")  # 后向肯定预查
[[1]]
[1] "64" "32"
str_extract_all(text, "\\d{2}(?!位)")  # 后向否定预查
[[1]]
[1] "22" "20"
str_extract_all(text, "(?<=SPSS)\\d{2}")  # 前向肯定预查
[[1]]
[1] "22"
str_extract_all(text, "(?<!SPSS)\\d{2}")  # 前向否定预查
[[1]]
[1] "20" "64" "32"

字符串处理实战

stringr

  • 共同参数
    • string:字符串输入
    • pattern:正则表达式
  • 常用函数
    • 判断:str_detect()
    • 计数:str_count()
    • 提取:str_extract()str_extract_all()
    • 替换:str_replace()str_replace_all()
    • 删除:str_remove()str_remove_all()
    • 分割:str_split()
    • 向量取匹配子集:str_subset()

【实践4】字符串综合处理

## 数据采集
## 已加载rvest包:library(rvest)
url = "https://psy.ecnu.edu.cn/17437/list.htm"  # 学院师资队伍页面
xml = url %>% read_html()  # 读取网页所有信息
xml
{html_document}
<html class="webplus-list">
[1] <head>\n<meta http-equiv="Content-Type" content="text/html; charset=UTF-8 ...
[2] <body class="wp-column-page">\r\n<!--头部开始-->\r\n<header class="wp-wrapper ...
[3] <script type="text/javascript" src="/_upload/tpl/0b/a5/2981/template2981/ ...
[4] <script type="text/javascript">\r\n$(function(){\r\n\t// 初始化SDAPP\r\n\tne ...
## 字符串处理(1):院系名称
menu = xml %>% html_elements(".column-item-link .column-name") %>% html_text2()
menu
 [1] "各级人才工程"               "认知与神经科学系"          
 [3] "毕生发展与学习科学系"       "社会与管理心理学系"        
 [5] "健康与临床心理学系"         "人工智能与人因工程系(筹)"
 [7] "实验员/专任助理研究员"      "党政管理"                  
 [9] "兼职教师"                   "全职博士后"                
[11] "荣休教师"                   "永远怀念教师名录"          
str_subset(menu, "系")
[1] "认知与神经科学系"           "毕生发展与学习科学系"      
[3] "社会与管理心理学系"         "健康与临床心理学系"        
[5] "人工智能与人因工程系(筹)"
str_subset(menu, "系$")
[1] "认知与神经科学系"     "毕生发展与学习科学系" "社会与管理心理学系"  
[4] "健康与临床心理学系"  
str_subset(menu, ".*系$")
[1] "认知与神经科学系"     "毕生发展与学习科学系" "社会与管理心理学系"  
[4] "健康与临床心理学系"  
str_subset(menu, ".*(?=系$)")  # 只是取子集,并不能预查提取
[1] "认知与神经科学系"     "毕生发展与学习科学系" "社会与管理心理学系"  
[4] "健康与临床心理学系"  
str_extract(menu, ".*(?=系$)")  # 真正的预查提取
 [1] NA                   "认知与神经科学"     "毕生发展与学习科学"
 [4] "社会与管理心理学"   "健康与临床心理学"   NA                  
 [7] NA                   NA                   NA                  
[10] NA                   NA                   NA                  
str_extract(menu, ".*(?=系$)") %>% na.omit()  # 移除缺失值NA
[1] "认知与神经科学"     "毕生发展与学习科学" "社会与管理心理学"  
[4] "健康与临床心理学"  
attr(,"na.action")
[1]  1  6  7  8  9 10 11 12
attr(,"class")
[1] "omit"
## 字符串处理(2):人才计划
title = xml %>% html_elements(".subcolumn-name") %>% html_text2()
title
 [1] "华东师范大学特聘教授"     "国家级人才项目"          
 [3] "国家级青年人才项目"       "中国科协托举人才"        
 [5] "教育部新世纪人才"         "上海市曙光学者"          
 [7] "上海市浦江学者"           "上海市青年科技启明星项目"
 [9] "上海市晨光计划"           "上海市扬帆计划"          
str_subset(title, "人才")
[1] "国家级人才项目"     "国家级青年人才项目" "中国科协托举人才"  
[4] "教育部新世纪人才"  
str_subset(title, "人才$")
[1] "中国科协托举人才" "教育部新世纪人才"
str_subset(title, "上海市.*")
[1] "上海市曙光学者"           "上海市浦江学者"          
[3] "上海市青年科技启明星项目" "上海市晨光计划"          
[5] "上海市扬帆计划"          
str_subset(title, "^上海市")
[1] "上海市曙光学者"           "上海市浦江学者"          
[3] "上海市青年科技启明星项目" "上海市晨光计划"          
[5] "上海市扬帆计划"          
str_extract(title, "(?<=^上海市).*(?=学者$|计划$)") %>% na.omit()
[1] "曙光" "浦江" "晨光" "扬帆"
attr(,"na.action")
[1] 1 2 3 4 5 8
attr(,"class")
[1] "omit"
## 字符串处理(3):教师姓名
name = xml %>% html_elements(".column-news-title") %>% html_text2()
name
 [1] "周晓林 博士"   "蒯曙光 博士"   "周晓林 博士"   "蔡清 博士"    
 [5] "郝宁 博士"     "蒯曙光 博士"   "高晓雪 博士"   "罗艺 博士"    
 [9] "崔丽娟 博士"   "刘永芳 博士"   "庞维国 博士"   "郝宁 博士"    
[13] "刘俊升 博士"   "陆静怡 博士"   "蔡清 博士"     "包寒吴霜 博士"
[17] "李先春 博士"   "刘俊升 博士"   "孟慧 博士"     "庞维国 博士"  
[21] "宋永宁博士"    "王弘毅 博士"   "王青 博士"     "席居哲 博士"  
[25] "谢鑫宇博士"    "周宁宁 博士"   "张琪 博士"     "包寒吴霜 博士"
[29] "梁一鸣 博士"   "陆静怡 博士"   "王青 博士"     "杨莹 博士"    
[33] "周晗昱 博士"   "陈 曦 博士"    "梁一鸣 博士"   "李世佳 博士"  
[37] "杨莹 博士"     "周晗昱 博士"  
table(name)
name
包寒吴霜 博士     蔡清 博士    陈 曦 博士   崔丽娟 博士   高晓雪 博士 
            2             2             1             1             1 
    郝宁 博士   蒯曙光 博士   李世佳 博士   李先春 博士   梁一鸣 博士 
            2             2             1             1             2 
  刘俊升 博士   刘永芳 博士   陆静怡 博士     罗艺 博士     孟慧 博士 
            2             1             2             1             1 
  庞维国 博士    宋永宁博士   王弘毅 博士     王青 博士   席居哲 博士 
            2             1             1             2             1 
   谢鑫宇博士     杨莹 博士     张琪 博士   周晗昱 博士   周宁宁 博士 
            1             2             1             2             1 
  周晓林 博士 
            2 
unique(name)
 [1] "周晓林 博士"   "蒯曙光 博士"   "蔡清 博士"     "郝宁 博士"    
 [5] "高晓雪 博士"   "罗艺 博士"     "崔丽娟 博士"   "刘永芳 博士"  
 [9] "庞维国 博士"   "刘俊升 博士"   "陆静怡 博士"   "包寒吴霜 博士"
[13] "李先春 博士"   "孟慧 博士"     "宋永宁博士"    "王弘毅 博士"  
[17] "王青 博士"     "席居哲 博士"   "谢鑫宇博士"    "周宁宁 博士"  
[21] "张琪 博士"     "梁一鸣 博士"   "杨莹 博士"     "周晗昱 博士"  
[25] "陈 曦 博士"    "李世佳 博士"  
name %>% unique() %>% sort()
 [1] "包寒吴霜 博士" "蔡清 博士"     "陈 曦 博士"    "崔丽娟 博士"  
 [5] "高晓雪 博士"   "郝宁 博士"     "蒯曙光 博士"   "李世佳 博士"  
 [9] "李先春 博士"   "梁一鸣 博士"   "刘俊升 博士"   "刘永芳 博士"  
[13] "陆静怡 博士"   "罗艺 博士"     "孟慧 博士"     "庞维国 博士"  
[17] "宋永宁博士"    "王弘毅 博士"   "王青 博士"     "席居哲 博士"  
[21] "谢鑫宇博士"    "杨莹 博士"     "张琪 博士"     "周晗昱 博士"  
[25] "周宁宁 博士"   "周晓林 博士"  
name %>% unique() %>% sort() %>% str_remove_all("博士|\\s")
 [1] "包寒吴霜" "蔡清"     "陈曦"     "崔丽娟"   "高晓雪"   "郝宁"    
 [7] "蒯曙光"   "李世佳"   "李先春"   "梁一鸣"   "刘俊升"   "刘永芳"  
[13] "陆静怡"   "罗艺"     "孟慧"     "庞维国"   "宋永宁"   "王弘毅"  
[19] "王青"     "席居哲"   "谢鑫宇"   "杨莹"     "张琪"     "周晗昱"  
[25] "周宁宁"   "周晓林"  
name %>%
  unique() %>%
  sort() %>%
  str_remove_all("博士|\\s") %>%
  str_subset("宁")
[1] "郝宁"   "宋永宁" "周宁宁"
name %>%
  unique() %>%
  sort() %>%
  str_remove_all("博士|\\s") %>%
  str_subset("^赵|^钱|^孙|^李")  # 赵钱孙李,周吴郑王
[1] "李世佳" "李先春"
name %>%
  unique() %>%
  sort() %>%
  str_remove_all("博士|\\s") %>%
  str_subset("^[周吴郑王]")  # 赵钱孙李,周吴郑王
[1] "王弘毅" "王青"   "周晗昱" "周宁宁" "周晓林"
## 补充:字符向量 vs. 固定位置字符提取
"Psychology"[1]  # 长度为1的字符向量,[1]仍然是字符串,而不是第1个字母
[1] "Psychology"
str_sub("Psychology", 1, 1)  # 提取第1个字母
[1] "P"
str_sub("Psychology", 1, 5)  # 提取第1~5个字母
[1] "Psych"

【探索发现】stringr包的函数功能

  • 检测匹配

  • 子集提取

  • 长度控制

  • 替换修改

  • 拼接分割

【作业5】字符向量处理

作业要求:

  • 围绕stringr包提供的字符串示例数据fruit(80个水果名称),运用str_detect()str_subset()str_extract_all()str_replace_all()stringr包函数中的至少2个,任意完成至少2种字符串处理任务,并对代码和结果进行简单的注释和解读
  • 使用R Markdown完成

平台提交:

  • 运行得到的HTML网页,及其关键部分截图
## 附:作业需要用到的数据集(字符向量)
stringr::fruit
 [1] "apple"             "apricot"           "avocado"          
 [4] "banana"            "bell pepper"       "bilberry"         
 [7] "blackberry"        "blackcurrant"      "blood orange"     
[10] "blueberry"         "boysenberry"       "breadfruit"       
[13] "canary melon"      "cantaloupe"        "cherimoya"        
[16] "cherry"            "chili pepper"      "clementine"       
[19] "cloudberry"        "coconut"           "cranberry"        
[22] "cucumber"          "currant"           "damson"           
[25] "date"              "dragonfruit"       "durian"           
[28] "eggplant"          "elderberry"        "feijoa"           
[31] "fig"               "goji berry"        "gooseberry"       
[34] "grape"             "grapefruit"        "guava"            
[37] "honeydew"          "huckleberry"       "jackfruit"        
[40] "jambul"            "jujube"            "kiwi fruit"       
[43] "kumquat"           "lemon"             "lime"             
[46] "loquat"            "lychee"            "mandarine"        
[49] "mango"             "mulberry"          "nectarine"        
[52] "nut"               "olive"             "orange"           
[55] "pamelo"            "papaya"            "passionfruit"     
[58] "peach"             "pear"              "persimmon"        
[61] "physalis"          "pineapple"         "plum"             
[64] "pomegranate"       "pomelo"            "purple mangosteen"
[67] "quince"            "raisin"            "rambutan"         
[70] "raspberry"         "redcurrant"        "rock melon"       
[73] "salal berry"       "satsuma"           "star fruit"       
[76] "strawberry"        "tamarillo"         "tangerine"        
[79] "ugli fruit"        "watermelon"       
---
title: "《R语言》第4章：字符处理"
subtitle: <a href="https://psychbruce.github.io/RCourse/">回到课程主页</a>
author: "授课教师：包寒吴霜"
# date: "`r Sys.Date()`"
output:
  html_document:
    toc: true
    toc_depth: 3
    toc_float:
      collapsed: false
      smooth_scroll: false
    code_download: true
    anchor_sections: true
    highlight: pygments
    css: RmdCSS.css
---

```{=html}
<p style="font-size: 12px">版权声明：本套课程材料开源，使用和分享必须遵守「创作共用许可协议 CC BY-NC-SA」（来源引用-非商业用途使用-以相同方式共享）。<img src="img/CC-BY-NC-SA.jpg" width="120px" height="42px" style="float: right" /></p>
```

```{r Config, include=FALSE}
options(
  knitr.kable.NA = "",
  digits = 4
)
knitr::opts_chunk$set(
  comment = "",
  fig.width = 6,
  fig.height = 4,
  dpi = 300
)
```

------------------------------------------------------------------------

# Chap04：字符处理

#### 往期要点回顾

-   [Chap03 \# 数据框（data frame）](https://psychbruce.github.io/RCourse/Chap03#%E6%95%B0%E6%8D%AE%E6%A1%86data-frame){.uri}
-   [Chap03 \# “一站式”数据导入导出](https://psychbruce.github.io/RCourse/Chap03#%E5%A4%96%E9%83%A8%E6%95%B0%E6%8D%AE%E5%AF%BC%E5%85%A5%E5%AF%BC%E5%87%BA){.uri}

#### 本章要点目录

-   [【知识点】正则表达式](#知识点正则表达式)（重点）
-   [【实践1】字符匹配](#实践1字符匹配)
-   [【实践2】条件匹配](#实践2条件匹配)
-   [【实践3】预查匹配](#实践3预查匹配)
-   [【实践4】字符串综合处理](#实践4字符串综合处理)（重点）
-   [【探索发现】stringr包的函数功能](#探索发现stringr包的函数功能)

```{r, message=FALSE, warning=FALSE}
## 本章所需R包
library(bruceR)
library(stringr)  # 字符串处理（加载bruceR时已默认加载stringr）
library(rvest)  # 网络爬虫
```

# 正则表达式基础

#### 【知识点】正则表达式 {#知识点正则表达式}

**正则表达式 / 规律表达式（regular/pattern expression，RegEx）**

-   含义：描述字符串规律（模式）的表达式
-   作用：根据模式，匹配字符（自动处理文本）
    -   词频统计
    -   数据清洗
    -   文本提取
    -   ……

## （1）字符匹配

![](images/clipboard-4086576583.png)

#### 【实践1】字符匹配 {#实践1字符匹配}

![](images/clipboard-1576391182.png)

```{r}
text = "笔记本上安装SPSS22或20，授权码复制不上，导致安装失败。已经试了多次了，都安装不上SpSS，请问有遇到这种情况的吗？电脑是64位的，Spss是32位的，是这个原因吗？之前SpsS在其他笔记本和台式电脑上都安装成功了。"
cat(text)

str_extract_all(text, "SPSS")  # 完整字符串
str_extract_all(text, "SPSS|Spss")  # "|"表示或者
str_extract_all(text, "[SPSS|spss]")  # 思考：为什么？
str_extract_all(text, "[SsPp]")
str_extract_all(text, "[Ss][Pp][Ss][Ss]")

str_extract_all(text, "\\d")
str_extract_all(text, "\\d\\d")
str_extract_all(text, "\\d\\d位")
```

## （2）条件匹配

![](images/clipboard-3021287080.png)

#### 【实践2】条件匹配 {#实践2条件匹配}

```{r}
text = "笔记本上安装SPSS22或20，授权码复制不上，导致安装失败。已经试了多次了，都安装不上SpSS，请问有遇到这种情况的吗？电脑是64位的，Spss是32位的，是这个原因吗？之前SpsS在其他笔记本和台式电脑上都安装成功了。"
cat(text)

str_extract_all(text, "\\d{2}位")
str_extract_all(text, "[SsPp]{4}")
str_extract_all(text, "[SP]{4}")
str_extract_all(text, "[Sps]+")
str_extract_all(text, "(Sps)+")
str_extract_all(text, "Sps+")
```

## （3）预查匹配

![](images/clipboard-4184428545.png)

#### 【实践3】预查匹配 {#实践3预查匹配}

```{r}
text = "笔记本上安装SPSS22或20，授权码复制不上，导致安装失败。已经试了多次了，都安装不上SpSS，请问有遇到这种情况的吗？电脑是64位的，Spss是32位的，是这个原因吗？之前SpsS在其他笔记本和台式电脑上都安装成功了。"
cat(text)

str_extract_all(text, "\\d{2}位")
str_extract_all(text, "\\d{2}(?=位)")  # 后向肯定预查
str_extract_all(text, "\\d{2}(?!位)")  # 后向否定预查
str_extract_all(text, "(?<=SPSS)\\d{2}")  # 前向肯定预查
str_extract_all(text, "(?<!SPSS)\\d{2}")  # 前向否定预查
```

# 字符串处理实战

`stringr`包

-   共同参数
    -   `string`：字符串输入
    -   `pattern`：正则表达式
-   常用函数
    -   判断：`str_detect()`
    -   计数：`str_count()`
    -   提取：`str_extract()`、`str_extract_all()`
    -   替换：`str_replace()`、`str_replace_all()`
    -   删除：`str_remove()`、`str_remove_all()`
    -   分割：`str_split()`
    -   向量取匹配子集：`str_subset()`

#### 【实践4】字符串综合处理 {#实践4字符串综合处理}

-   课程回顾：[Chap03 \# 静态网页解析](https://psychbruce.github.io/RCourse/Chap03#%E5%AE%9E%E8%B7%B55%E9%9D%99%E6%80%81%E7%BD%91%E9%A1%B5%E8%A7%A3%E6%9E%90){.uri}
-   网页素材：[华东师范大学心理与认知科学学院“师资队伍”](https://psy.ecnu.edu.cn/17437/list.htm){.uri}

```{r}
## 数据采集
## 已加载rvest包：library(rvest)
url = "https://psy.ecnu.edu.cn/17437/list.htm"  # 学院师资队伍页面
xml = url %>% read_html()  # 读取网页所有信息
xml

## 字符串处理（1）：院系名称
menu = xml %>% html_elements(".column-item-link .column-name") %>% html_text2()
menu

str_subset(menu, "系")
str_subset(menu, "系$")
str_subset(menu, ".*系$")
str_subset(menu, ".*(?=系$)")  # 只是取子集，并不能预查提取
str_extract(menu, ".*(?=系$)")  # 真正的预查提取
str_extract(menu, ".*(?=系$)") %>% na.omit()  # 移除缺失值NA

## 字符串处理（2）：人才计划
title = xml %>% html_elements(".subcolumn-name") %>% html_text2()
title
str_subset(title, "人才")
str_subset(title, "人才$")
str_subset(title, "上海市.*")
str_subset(title, "^上海市")
str_extract(title, "(?<=^上海市).*(?=学者$|计划$)") %>% na.omit()

## 字符串处理（3）：教师姓名
name = xml %>% html_elements(".column-news-title") %>% html_text2()
name

table(name)
unique(name)

name %>% unique() %>% sort()
name %>% unique() %>% sort() %>% str_remove_all("博士|\\s")

name %>%
  unique() %>%
  sort() %>%
  str_remove_all("博士|\\s") %>%
  str_subset("宁")

name %>%
  unique() %>%
  sort() %>%
  str_remove_all("博士|\\s") %>%
  str_subset("^赵|^钱|^孙|^李")  # 赵钱孙李，周吴郑王

name %>%
  unique() %>%
  sort() %>%
  str_remove_all("博士|\\s") %>%
  str_subset("^[周吴郑王]")  # 赵钱孙李，周吴郑王

## 补充：字符向量 vs. 固定位置字符提取
"Psychology"[1]  # 长度为1的字符向量，[1]仍然是字符串，而不是第1个字母
str_sub("Psychology", 1, 1)  # 提取第1个字母
str_sub("Psychology", 1, 5)  # 提取第1~5个字母
```

#### 【探索发现】stringr包的函数功能 {#探索发现stringr包的函数功能}

-   检测匹配

![](images/clipboard-1808834098.png)

-   子集提取

![](images/clipboard-900802402.png)

-   长度控制

![](images/clipboard-4200662411.png)

-   替换修改

![](images/clipboard-3104311135.png)

-   拼接分割

![](images/clipboard-3333466972.png)

# 【作业5】字符向量处理

作业要求：

-   围绕`stringr`包提供的字符串示例数据`fruit`（80个水果名称），运用`str_detect()`、`str_subset()`、`str_extract_all()`、`str_replace_all()`等`stringr`包函数中的至少2个，任意完成至少2种字符串处理任务，并对代码和结果进行简单的注释和解读
-   使用R Markdown完成

平台提交：

-   运行得到的HTML网页，及其关键部分截图

```{r}
## 附：作业需要用到的数据集（字符向量）
stringr::fruit
```
