LeetCode小算法记录(四十一)单词的压缩编码_夏至微凉、的博客-程序员秘密

给定一个单词列表,我们将这个列表编码成一个索引字符串 S 与一个索引列表 A。

例如,如果这个列表是 ["time", "me", "bell"],我们就可以将其表示为 S = "time#bell#" 和 indexes = [0, 2, 5]。

对于每一个索引,我们可以通过从字符串 S 中索引的位置开始读取字符串,直到 "#" 结束,来恢复我们之前的单词列表。

那么成功对给定单词列表进行编码的最小字符串长度是多少呢?

 

示例:

输入: words = ["time", "me", "bell"]
输出: 10
说明: S = "time#bell#" , indexes = [0, 2, 5] 。
 

提示:

1 <= words.length <= 2000
1 <= words[i].length <= 7
每个单词都是小写字母 。

来源:力扣(LeetCode)
链接:https://leetcode-cn.com/problems/short-encoding-of-words
著作权归领扣网络所有。商业转载请联系官方授权,非商业转载请注明出处。

 

解法:字典树/Trie树/前缀树

["time", "me", "bell"]是待编码列表,"time#bell#"是编码结果,indexes = [0, 2, 5]对应的是三个单词在编码结果中的起始位置。

indexes的意义是什么呢?就是说从这个位置开始,到#结束位置所组成的单词是单词列表中的单词。可以看下图示:

image.png

 

可以想到最后的编码结果肯定是若干个单词之间用#分隔开来的。示例里的"me"由于是"time"的后缀,所以me这个单词不用出现在最后的编码结果里,所以我们只要找到单词列表里,哪些单词被别的单词的后缀给包含了就可以了。这题很明显是用字典树来做的。为什么很明显呢?后面我们来解释。

字典树/Trie树/前缀树

字典树又名前缀树,Trie树,是一种存储大量字符串的树形数据结构,相比于HashMap存储,在存储单词(和语种无关,任意语言都可以)的场景上,节省了大量的内存空间。

下图演示了一个保存了8个单词的字典树的结构,8个单词分别是:"A", "to", "tea", "ted", "ten", "i", "in", "inn"。

image.png

怎么理解这颗树呢?你从根节点走到叶子节点,尝试走一下所有的路径。你会发现,每条从根节点到叶子节点的路径都构成了单词(有的不需要走到叶子节点也是单词,比如 "i" 和 "in")。trie树里的每个节点只需要保存当前的字符就可以了(当然你也可以额外记录别的信息,比如记录一下如果以当前节点结束是否构成单词)。

你注意到了吗?从根节点出发的路径,都是给定单词列表里某个/某些单词的前缀。反之,如果某个字符串没有出现在这棵树的路径上,那就肯定不是某个单词的前缀。上面说很明显这题是用字典树来做,原因就是:这类很明显是用字典树去做的题目,明显特征就是需要大量地判断某个字符串是否是给定单词列表中的前缀/后缀。 为什么要说后缀也可以呢?因为把单词倒着插入,就可以搜后缀了~

trie的节点的定义就很好给出来了(trie的根节点定义成一个空节点):

class TrieNode {
    char val;
    TrieNode[] children = new TrieNode[26];

    public TrieNode() {}

    public TrieNode(char val) {
        this.val = val;
    }
}

 插入单词的操作如下:

public void insert(String word) {
    TrieNode cur = root;
    for (int i = 0; i < word.length(); i++) {
        char c = word.charAt(i);
        if (cur.children[c - 'a'] == null) {
            cur.children[c - 'a'] = new TrieNode(c);
        }
        cur = cur.children[c - 'a'];
    }
}

 题解

那为什么这题我们要用字典树做呢?因为我们需要知道单词列表里,哪些单词是其它某个单词的后缀。既然要求的是后缀,我们只要把单词的倒序插入字典树,再用字典树判断某个单词的逆序是否出现在字典树里就可以了。

比如示例中的["time", "me", "bell"]的逆序就是["emit", "em", "lleb"]。我们可以发现em是emit的前缀。所以"em"就可以忽略了。我们必须要先插入单词长的数组,否则会有问题。比如如果我先插入了"em",再插入"emit",会发现两个都可以插入进去,很显然是不对的,所以在插入之前需要先根据单词的长度由长到短排序。

package leetCodeTest;

import java.util.Arrays;

public class 单词的压缩编码 {
    public static void main(String[] args) {
        String[] words = new String[]{"time", "me", "bell"};
        int i = minimumLengthEncoding(words);
        System.out.println("i = " + i);
    }
    public static int minimumLengthEncoding(String[] words) {
        int len = 0;
        Trie trie = new Trie();
        Arrays.sort(words,(s1,s2) -> s2.length() - s1.length());
        System.out.println("words = " + Arrays.toString(words));
        for (String word: words){
            len += trie.insert(word);
        }
        return len;
    }
}
class Trie {
    TrieNode root;
    public Trie(){
        root = new TrieNode();
    }
    public int insert(String word){
        TrieNode cur = root;
        boolean isNew = false;
        for (int i=word.length()-1;i>=0;i--){
            int c = word.charAt(i) - 'a';
            if (cur.children[c] == null){
                isNew = true;
                cur.children[c] = new TrieNode();
            }
            cur = cur.children[c];
        }
        return isNew? word.length() + 1: 0;
    }
}
class TrieNode {
    char val;
    TrieNode[] children = new TrieNode[26];
    public TrieNode(){}
}

 其它

trie树除了刷题还出现在什么地方呢?

搜索引擎

比如你在搜索引擎里输入””,它会给你一系列以“甜”开头的搜索词供你选择。

image.png

 区块链

trie树的进阶版,Merkle Patricia Tree,他能够高效、安全地验证大型数据结构中的数据,我从别的地方摘抄了下摘要:

一种经过改良的、融合了默克尔树和前缀树两种树结构优点的数据结构,以太坊中,MPT是一个非常重要的数据结构,在以太坊中,帐户的交易信息、状态以及相应的状态变更,还有相关的交易信息等都使用MPT来进行管理,其是整个数据存储的重要一环。交易树,收据树,状态树都是采用的MPT结构。

IP路由,倒排索引

这个感兴趣的可以去了解下,我也不太了解,这是听说过可以

分词

常见的分词库,或多或少会用到字典树,或者其它类似的存储字符串的树形数据结构(比如"双数组trie树")。原因就是因为它能提供良好的前缀查询(一些分词算法需要大量调用该方法)。

python有一个很著名的分词库叫做jieba,里面就用到了字典树(虽说由于jieba源码里字典树实现得不够优雅,后来被替代了)。这个库有java版本叫做jieba-analysis,但是已经很久不更新了,而且分词结果和python版本的不一致!️️我就以学习为目的,重写了 java 版本的 jieba~ 名叫jaba。得益于用了更高级的 AhoCorasickDoubleArrayTrie,分词速度比jieba-analysis要快一倍,而且保证了分词结果和 python 版 jieba 一致!,也解决了,欢迎star~~~ 如果star够多的话,会继续更新,并且发到maven仓库滴~~ ▄█▔▉● 谢谢各位哥哥了。。

作者:sweetiee
链接:https://leetcode-cn.com/problems/short-encoding-of-words/solution/99-java-trie-tu-xie-gong-lue-bao-jiao-bao-hui-by-s/
来源:力扣(LeetCode)
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_31404603/article/details/105177344

智能推荐

Python Requests 小技巧总结_Op小剑的博客-程序员秘密

关于 Python Requests ,在使用中,总结了一些小技巧把,分享下。1:保持请求之间的Cookies,我们可以这样做。import requestsself.session = requests.Session()self.session.get(login_url) # 可以保持登录态2:请求时,会加上headers,一般我们会写成这样self.se...

Java并发编程基础-Java内存模型、volatile关键字与指令重排序及happens-before原则_ssh框架dao层_程序员不鸣的博客-程序员秘密

Java并发编程实战学习笔记目录1.什么是Java内存模型?它和JVM内存模型有什么区别?2.Java内存模型有哪些组成部分?3.volatile关键字的作用?4.什么是指令重排序5.指令重排序必须满足什么条件6.指令重排序会对多线程造成影响吗7.什么是happens-before关系8.happens-before和as-if-serial语义之间的区别...

老挑毛u盘一键装系统计算机意外地,揭谜一键Ghost的“恶”事 大白菜、老毛桃、通用都不干净..._漫威DC说的博客-程序员秘密

一、实测,一键Ghost暗含猫腻为了了解一键Ghost在为我们提供了极其简便的安装方式之外,还带来了什么,我们特意对目前网络上流行的几款提供了PE环境下进行备份、恢复系统的一键Ghost工具进行了测试,这些工具包括:大白菜U盘启动制作工具V5.1 uefi启动版、老毛桃装机版20140501、电脑店超级U盘启动盘制作工具V6.2装机版、通用pe工具箱V6.1版、天意U盘系统2015元宵版、微PE工...

Elasticsearch Rest Client pinpoint插件运行效果图_weixin_34353714的博客-程序员秘密

为什么80%的码农都做不了架构师?&gt;&gt;&gt; ...

【openpyxl】python中对Excel进行写入操作,写入一列或者一行(从excel中读出label和feature对应格式方法以及插入一行或者一列方法实现)_AI蜗牛车的博客-程序员秘密

前言最近在做expansion of datset,所以需要把扩展的dataset写入到excel中我已经矩阵运算全部搞定,最终输出的是两个输出 labels 和 features自己整理为以下格式label = [[0], [1], [2], [3] ]feature = [ [0.1, 0....

Nginx proxy_temp failed 13: Permission denied_nginx open proxy_temp failed permission denied ups_bee_yyy的博客-程序员秘密

出现的问题通过nginx代理服务器对后端tomcat服务器进行访问,可以看到nginx服务的accees.log有访问记录, tomcat的catalina.out有访问记录。然而前端拿不到某些静态文件,导致整个页面没有办法被显示。定位问题通过tomcat服务器IP和相应端口 [tomcat VM ip]:[tomcat port]是可以访问的后端并且渲染前端的通过另外一条路: waf -&gt; lb -&gt; tomcat server 也是可以正常访问的nginx error.log中有

随便推点

使用D435i相机跑ORB-SLAM2_RGBD_DENSE_MAP-master稠密建图编译(实时彩色点云地图加回环+保存点云地图)_摆烂女侠的博客-程序员秘密

使用D435i相机跑ORB-SLAM2_RGBD_DENSE_MAP-master稠密建图编译(实时彩色点云地图加回环+保存点云地图)

教你手把手运行基于ZED的rtab-map_qq_43525260的博客-程序员秘密

教你手把手运行基于ZED的rtab-map教你手把手运行基于ZED的rtab-map第一步安装独立版本的rtab-map本人操作系统ubunto 16.04参考官方教程:rtab-map官方教程(新人直接按照我的来)1.sudo apt-get update2.sudo apt-get install libsqlite3-dev libpcl-dev libopencv-dev ...

AutoHotkey制作自己的Launchy --- 我的运行窗口 _autohotkey groupbox_遐迩思的博客-程序员秘密

曾试用了一款叫做Launchy的软件,完全通过命令行打开的菜单,效率最高,不过需要你记住启动的程序名。刚开始感觉很爽,但后来发现一些难以容忍的缺点,于是决定自己写一个“我的运行窗口”替换Launchy与Windows自带的“运行”命令窗口。“我的运行窗口”的特点有:◆1、启动速度与“运行”窗口一样快,而且不像Launchy那样一直占用内存。◆2、像Launchy一样,可实时搜索指令,确定之后立即运行。◆3、可作为超级计算器,运行计算表达式并输出结果。◆4、可将输入的内容作为脚本运行。◆5

AttributeError: ‘builtin_function_or_method‘ object has no attribute ‘view‘解决办法_做个好男人!的博客-程序员秘密

1.问题陈述今天在使用pytorch中的view方法,改变张量形状时,发生错误。解决办法检查forward在使用时,传入的参数x是什么类型,是否是张量,是否传参正确。检查后发现,不是张量,改为张量。问题解决。...

MySQL在Windows上的安装部署_蓝桉ʕ·͡ˑ·ཻʔ的博客-程序员秘密

MySQL官网:https://www.mysql.com/1、点击DOWNLOADS进入下载地址,分为三个版本:MySQL Enterprise Edition:企业版(收费)MySQL Cluster CGE:高级集群版(收费)MySQL Community Edition:社区版(开源免费,但官方不提供技术支持)2、选择MySQLCommunity (GPL) Downloads——&gt;选择MySQLcommunityserver下载即可3、选择解压版(64位)...

89c51控制小车运行c语言,基于STC89C52单片机和STM32的智能小车控制系统_Ediartos的博客-程序员秘密

摘要:针对智能车的控制系统, 选用STC89C52作为整个系统的主控芯片, 并进行硬件电路设计;以NREF24L01作为无线接收模块, 选取E18-D80NK-N红外光电传感器作为避障模块的核心器件;并用Proteus软件进行电路的模拟和仿真, 结果表明可行。以STM32103C8为核心, 设计了智能小车的实时监控系统, 并制定了系统软件的设计方案;在系统软件方案的基础上提出基于NRF24L01的...