Skip to content

HowieMen/FundEdgeParser

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

FundEdgeParser - 投资范围与限制标准化工具

Python License

FundEdgeParser 是一个自动化整理基金投资范围与限制的 Python 工具,将非结构化的文本数据(如 CSV 中的自由描述字段)转换为结构化的前端可选项和 API 服务数据源。

项目背景

公司有几百只基金的投资范围/限制记录在 CSV 文件中,每行包含:

  • 产品名称 (字符串)
  • 投资范围 (多行自由文本)
  • 投资限制 (多行自由文本)

功能特性

  1. 数据清洗与预处理
  • 自动拆分多行文本为独立句子/条款
  • 去除无关字符(如特殊符号、多余空格)
  • 标记高频关键词(如"不得投资于"、"比例不超过")
  1. 规则提取
# 示例:从文本中提取百分比限制
   pattern = r"((投资|持仓)(比例)?(不得超过|不超过)\s*(\d+%))"

使用正则表达式匹配常见限制模式

人工标注辅助训练简单分类模型(可选)

  1. 结构化输出

生成标准化标签(如 限制类型: 集中度限制, 参数: 20%)

输出 JSON 格式供前端调用:

{
  "基金A": {
    "投资范围": ["股票", "债券", "港股通"],
    "投资限制": [
      {"类型": "单券集中度", "条件": "≤10%"},
      {"类型": "禁止投资", "标的": "ST股票"}
    ]
  }
}

快速开始

方法 1:使用 Python venv

cd 整理投资范围工具
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
python main.py

方法 2:使用 Conda

conda create -n fund_edge python=3.8.5
conda activate fund_edge
pip install -r requirements.txt
python main.py

输入输出说明

  • 将 CSV 文件放入 data/ 目录,文件名格式:input1.csv, input2.csv, ...
  • 运行后自动生成对应 output1.csv, output1.json, output2.csv, output2.json,...

自定义词库

编辑 scope_keywords.jsonconstraint_patterns.json 修改标签和规则,无需改动代码。

About

FundEdgeParser是一个自动化整理基金投资范围与限制的 Python 工具,将非结构化的文本数据(如 CSV 中的自由描述字段)转换为结构化的前端可选项和 API 服务数据源。

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages