FundEdgeParser 是一个自动化整理基金投资范围与限制的 Python 工具,将非结构化的文本数据(如 CSV 中的自由描述字段)转换为结构化的前端可选项和 API 服务数据源。
公司有几百只基金的投资范围/限制记录在 CSV 文件中,每行包含:
- 产品名称 (字符串)
- 投资范围 (多行自由文本)
- 投资限制 (多行自由文本)
- 数据清洗与预处理
- 自动拆分多行文本为独立句子/条款
- 去除无关字符(如特殊符号、多余空格)
- 标记高频关键词(如"不得投资于"、"比例不超过")
- 规则提取
# 示例:从文本中提取百分比限制
pattern = r"((投资|持仓)(比例)?(不得超过|不超过)\s*(\d+%))"使用正则表达式匹配常见限制模式
人工标注辅助训练简单分类模型(可选)
- 结构化输出
生成标准化标签(如 限制类型: 集中度限制, 参数: 20%)
输出 JSON 格式供前端调用:
{
"基金A": {
"投资范围": ["股票", "债券", "港股通"],
"投资限制": [
{"类型": "单券集中度", "条件": "≤10%"},
{"类型": "禁止投资", "标的": "ST股票"}
]
}
}cd 整理投资范围工具
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
python main.pyconda create -n fund_edge python=3.8.5
conda activate fund_edge
pip install -r requirements.txt
python main.py- 将 CSV 文件放入
data/目录,文件名格式:input1.csv,input2.csv, ... - 运行后自动生成对应
output1.csv,output1.json,output2.csv,output2.json,...
编辑 scope_keywords.json 和 constraint_patterns.json 修改标签和规则,无需改动代码。