擅长:python、mysql、java
<p>我不打算在这里提出具体的算法,但我想指出的是,即使在没有监督的情况下,拥有足够大的此类字符串数据库,也可以发现某些模式(即信息实际上就在那里)。首先,品牌名称将在多个字符串中重复,并且始终是字符串的前缀。这一假设将提供一个强有力的先验信息来判断分离的位置。其次,通过了解潜在品牌假设和产品名称之间的关联,可以攻击模棱两可的案例(苹果记录)(例如,只要苹果不生产记录,而且有一个强有力的假设,即苹果唱片是一个品牌,因为它重复多次,这种模棱两可的情况就可以成功解决)。在</p>